Les missions du poste

Établissement : Université Grenoble Alpes École doctorale : MSTII - Mathématiques, Sciences et technologies de l'information, Informatique Laboratoire de recherche : Laboratoire d'Informatique de Grenoble Direction de la thèse : Jérôme GENSEL ORCID 0000000313987118 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-06-09T23:59:59 Le concept de trajectoire sémantique désigne l'ensemble des informations qui permettent de décrire la trajectoire d'un objet. Si les trajectoires sémantiques font majoritairement référence aux déplacements et activités d'objets mobiles (piétons, animaux, voitures, bateaux, avions...), elles sont plus généralement un moyen de représenter l'évolution dans le temps et l'espace de tout type d'être, objet ou phénomène.
L'équipe STORIES du LIG mène des recherches sur 2 types particuliers de trajectoire sémantique : les trajectoires de vie des individus et les trajectoires des territoires. Les premières, alimentées par des données d'enquêtes biographiques, permettent d'analyser l'évolution des pratiques et des aspirations individuelles et collectives au sein d'une population ou société. Les secondes mobilisent différents types d'indicateurs et permettent aux aménageurs du territoire, élus et citoyens de mieux connaitre l'évolution dans le temps de leur commune. À ce jour, STORIES a conçu deux modèles de représentation dédiés respectivement aux trajectoires de vie des individus et aux trajectoires de territoire. Les graphes de connaissances (KG), en tant que représentation structurée de la connaissance, sont le formalisme privilégié pour implémenter ces deux modèles et stocker les données des trajectoires sémantiques. Dans un KG, les noeuds représentent des entités ou littéraux, les arêtes les relations liant les entités. Les KG intègrent également des classes et des propriétés d'ontologies de domaine. Une ontologie est une représentation formelle et structurée des concepts, relations et règles associé à un domaine particulier. Les KG sont le plus souvent décrits par des triplets RDF. On distingue les KG temporels (TKG) qui associent à chaque fait une période de validité, les KG spatiaux (SKG) qui contiennent des coordonnées spatiales et/ou des relations topologiques. En ce sens, les KG représentant des trajectoires sémantiques sont des KG à la fois temporels et spatiaux (STKG).
Les Réseaux de Neurones de Graphes (GNN) sont des modèles d'apprentissage profond qui permettent de traiter, notamment, les données des KG. Le principe central est la propagation de messages : chaque noeud met à jour sa représentation vectorielle en agrégeant l'information provenant de ses voisins. Ainsi, les GNN apprennent des représentations vectorielles (embeddings) des noeuds et des relations, en tenant compte de la structure du graphe. Ils sont utilisés pour diverses tâches sur des KG : la complétion de graphes, la classification des noeuds, ... Parmi les GNN, les GNN spatio-temporels combinent un module spatial et un module temporel et sont capables de réaliser de la prévision spatio-temporelle, de la détection d'événements ou de la simulation dynamique. Utilisés dans divers domaines (transports, environnement, santé, ...), leur conception et l'interprétation de leurs résultats se heurtent encore à des défis majeurs : le couplage de l'espace et du temps, la gestion de KG volumineux, la découverte de corrélations non locales, les échelles multiples dans le temps et l'espace...
Cependant, aucun des GNN spatio-temporels existants ne traite de STKG représentant des trajectoires sémantique. À ce titre, la thèse proposée constitue un travail original et exploratoire qui consiste à concevoir, implémenter, tester et rendre performants des GNN spatio-temporels afin d'enrichir et d'analyser des données de trajectoires sémantiques. Deux jeux de données disponibles serviront de cas d'étude : les données d'enquêtes biographiques menées par l'INED, et les données décrivant sur 40 ans les trajectoires environnementales de communes françaises et suisses. On développera une approche neuro-symbolique consistant à coupler le GNN avec un LMM et à intégrer, dans le processus d'apprentissage du modèle, des règles apprises par le LLM afin d'améliorer les résultats et leur explicabilité. Enfin, on cherchera à généraliser l'approche proposée à d'autres types de trajectoires sémantiques. Le concept de trajectoire sémantique est apparu dans les années 2000 en informatique dans le domaine de la représentation de connaissances [1]. Il fait référence aux travaux scientifiques qui consistent, à partir d'une séquence chronologique de positions d'un objet dans l'espace (positions caractérisées, par exemple, par des données GPS), à identifier, décrire, annoter, analyser, etc., la trajectoire de cet objet ou encore l'évolution dans le temps et l'espace de cet objet. Si les trajectoires sémantiques font majoritairement référence aux déplacements et activités d'objets mobiles (piétons, animaux, voitures, bateaux, avions...), notamment dans les domaines de la surveillance et de la sûreté publique [2] ou du tourisme, elles sont, en toute généralité, un moyen de représenter l'évolution dans le temps (passé, présent ou futur) de tout type d'être ou objet (être vivant, animal, végétal, matériel, immatériel, ...) ou phénomène (naturel, industriel, ...).
L'équipe STORIES du LIG, créée en 2025, mène des recherches sur deux types particuliers de trajectoire sémantique : les trajectoires de vie des individus et les trajectoires des territoires. Les premières sont alimentées par des données d'enquêtes biographiques réalisées à grande échelle et permettent aux sociologues ou démographes d'analyser l'évolution des pratiques et aspirations individuelles et collectives au sein de la population étudiée. Les secondes mobilisent différents types d'indicateurs (environnementaux, socio-économiques, politiques, ...) et permettent aux aménageurs du territoire, élus et citoyens de connaitre, mesurer ou prédire l'évolution dans le temps de leur juridiction ou de leur commune. Pour ce faire, l'équipe STORIES a conçu, à ce jour, deux modèles de représentation dédiés : SaLTo [4] pour les trajectoires de vie des individus, et SETT [5] pour les trajectoires de territoire. Le formalisme privilégié pour implémenter ces deux modèles et stocker des jeux de données de trajectoires sémantiques, est celui des graphes de connaissances.
Un graphe de connaissance (Knowledge Graph ou KG) [6] est une représentation structurée de la connaissance dans laquelle les noeuds sont des entités (personnes, lieux, concepts...) ou littéraux, et les arêtes des relations liant ces entités. Ainsi, un KG permet de relier des informations hétérogènes et de les exploiter de manière compréhensible par des machines. Le standard le plus utilisé pour représenter ces KG est Resource Description Framework (RDF) [7], qui décrit tout fait sous forme d'un triplet (sujet, prédicat, objet). Les entités dans les KG sont typées par des concepts définis dans des ontologies de domaine. Une ontologie de domaine [8] est une représentation formelle et structurée des concepts, relations et règles propres à un domaine de connaissance spécifique (médecine, droit, biologie...). Elle sert de vocabulaire partagé et non ambigu pour permettre à des systèmes ou des acteurs différents de communiquer et raisonner de façon cohérente dans ce domaine. Ces ontologies donnent une signification explicite aux données RDF et assurent l'interopérabilité. Ces formalismes et les langages et technologies associés, constituent le socle du Web sémantique [9] sur lequel s'appuie le Linked Open Data (LOD Cloud) [10], un écosystème mondial de jeux de données RDF interconnectés, publiés selon les principes du Web sémantique, formant un immense graphe de connaissances distribué à l'échelle du Web.
Dans ce contexte, un KG est dit temporel (TKG) lorsque chaque triplet est étendu par une information temporelle indiquant la période de validité du fait représenté. Un KG est dit spatial (SKG) lorsqu'il contient des coordonnées spatiales et/ou des relations topologiques. Parce qu'ils rendent compte de l'évolution d'un objet dans le temps et l'espace, les KG représentant des trajectoires sémantiques (Sem Traj KG), sont des KG à la fois temporels et spatiaux (STKG).
Depuis quelques années, des modèles d'apprentissage profond, appelés Réseaux de Neurones de Graphes (GNN) [11], sont apparus et permettent de traiter, notamment, les données des graphes de connaissances. Contrairement aux réseaux neuronaux classiques qui travaillent sur des données tabulaires ou des images, un GNN exploite explicitement la structure du graphe : les noeuds et les arêtes qui représentent respectivement les entités et les relations entre elles. Le principe central d'un GNN est la propagation de messages : chaque noeud met à jour sa représentation vectorielle en agrégeant l'information provenant de ses voisins. Ainsi, un noeud est décrit non seulement par ses propres attributs, mais aussi par son contexte relationnel. Les GNN apprennent des représentations vectorielles (embeddings) des noeuds et des relations, en tenant compte de la structure du graphe. Les réseaux neuronaux de graphes (GNN), appliqués à un graphe de connaissances (KG), constituent un domaine de recherche très actif à la croisée de l'apprentissage profond, du Web sémantique et du raisonnement symbolique. Les GNN peuvent être utilisés pour réaliser diverses tâches sur des KG : la complétion de graphes (prédiction d'entités et de liens), la classification des noeuds (prédiction de types), l'apprentissage d'embeddings d'entités/relations, des raisonnements et requêtes multi-sauts, l'alignement d'entités, etc.
Les GNN ont évolué vers des variantes capables de gérer la dimension temporelle des TKG, la dimension spatiale des SKG, et les deux simultanément pour les STKG. Les GNN temporels sont capables de traiter chaque snapshot temporel ou de modéliser l'évolution des embeddings dans le temps (approches de type R-GCN [12], Relational Graph Convolutional Networks), de pondérer les voisins d'un noeud selon leur récence, d'apprendre des dépendances temporelles longues (approches de type TGAN [13], Temporal Graph Attention Networks) pour de la prédiction temporelle de noeuds ou de liens, de la prévision, du raisonnement causal. Les GNN spatiaux sont adaptés à la prise en compte de la distance ou de la connectivité spatiale (approches de type SGCN [14], Spatial Graph Convolution Networks), de coordonnées ou métriques spatiales et de géométries (approches de type Geometric Deep Learning), de contraintes spatiales et de relations topologiques (approches de type Spatial Knowledge Graph Embedding [15]) pour du raisonnement spatial, de la prédiction spatiale ou de la recommandation géolocalisée. Les GNN spatio-temporels combinent un module spatial et un module temporel (approches de type STGNN [16], Spatio-Temporal Graph Neural Networks), la diffusion spatiale et l'évolution temporelle (approches de type Difusion-based STGNN [17]), l'attention globale et la structure relationnelle locale (approches de type Spatial-Temporal Graph Transformer [18]) pour de la prévision spatio-temporelle, de la détection d'événements ou de la simulation dynamique.
Les GNN spatio-temporels sont appliqués dans différents domaines : les transports [19] (trafic routier, congestion, mobilité urbaine, ...), l'environnement [20] (pollution, météo, climat, ...), la santé [21] (propagation épidémiologique), l'énergie [22] (consommation électrique, smart grids, ...). Leur conception, leur implémentation et l'interprétation de leurs résultats se heurtent encore à des défis majeurs : le couplage de l'espace et du temps, deux dimensions non indépendantes, l'explosion combinatoire qu'engendre des KG très volumineux, la découverte de corrélations non locales, les échelles multiples dans le temps et l'espace...
Les Sem Traj KG [23] sont des STKG avec une structuration particulière. Une trajectoire sémantique est un ensemble de trajectoires dimensionnelles ou thématiques, chacune de ces trajectoires thématiques étant une séquence chronologique où alternent événement et épisode (ou étape). Par un exemple, dans une trajectoire de vie, un épisode de la trajectoire résidentielle d'un individu débute et termine généralement par un événement de type déménagement. À notre connaissance, aucun des GNN spatio-temporels de la littérature ne traite de STKG ayant cette structure particulière de trajectoire sémantique. À ce titre, la thèse proposée ici constituera un travail original et exploratoire. Compte-tenu des capacités des GNN (complétion de graphes, classification de noeuds et de graphes, prédiction, ...), il apparait opportun de concevoir et d'implémenter des GNN dédiés aux graphes de connaissances de trajectoires sémantiques dans l'objectif général d'enrichir et d'analyser les données disponibles de trajectoires sémantiques. Ainsi, deux jeux de données déjà disponibles serviront de cas d'étude : les données issues d'enquêtes biographiques menées par l'INED auprès de milliers de personnes (projet ANR PRC TRAVERSÉES 2026-2029), et les données décrivant sur 40 ans les trajectoires environnementales de communes françaises et suisses (ANR PRCI TRACES 2022-2025). On développera une approche neuro-symbolique consistant à coupler le GNN avec un LMM et à intégrer dans le processus d'apprentissage du modèle des règles apprises par le LLM afin d'améliorer les résultats et leur explicabilité. Enfin, on cherchera à généraliser l'approche proposée à d'autres types de trajectoires sémantiques. Les objectifs principaux de la thèse sont de :
- concevoir des architectures de type GNN spatio-temporels afin de traiter des graphes de connaissances représentant des données de trajectoires sémantiques, notamment des données de trajectoires de vie et des données de trajectoires de territoire ;
- adapter ces GNN spatio-temporels aux fonctionnalités attendues : complétion de graphe, classification de noeuds, détection d'événements, prédictions spatiale et temporelle multi-échelles, ... ;
- tester et améliorer les performances des différents GNN proposés, construire et proposer des jeux de données tests de graphes de connaissances de trajectoires sémantiques ;
- développer une approche neuro-symbolique qui consistera à coupler le GNN avec un LMM et à fusionner ou intégrer dans le processus d'apprentissage du modèle des règles apprises par le LLM afin d'améliorer les résultats (prédiction et classification) et leur explicabilité.
L'un des principaux verrous de cette thèse réside dans la richesse et la complexité des données KG représentant des trajectoires sémantiques qui sont par nature multidimensionnelles, multithématiques, et multi-échelles. Les graphes de connaissances temporels (TKG) modélisent le temps de différentes manières : à l'aide d'horodatages, d'arêtes temporelles, d'instantanés ou de représentations basées sur les événements. Les graphes de connaissances spatiaux (SKG) diffèrent également dans la manière dont ils encodent la géométrie, la topologie, la distance et les relations spatiales. Lorsque ces deux dimensions sont combinées dans les STKG, la complexité augmente car le modèle doit préserver à la fois la cohérence sémantique, spatiale et temporelle.
La plupart des travaux proposant une application des GNN à des données de trajectoires les traitent comme des séquences ou suite de coordonnées, des réseaux de mobilité ou des structures de graphes simplifiées, plutôt que comme des STKG sémantiquement riches intégrant des entités, des relations, des informations spatiales, une évolution temporelle et des attributs thématiques. Les Sem Traj KG ne rendent pas seulement compte de déplacements ou de déformations d'un objet dans l'espace, mais aussi de séquences d'activités, d'événements, de lieux et d'informations contextuelles.
Après une étude critique des principaux travaux constituant l'état de l'art en matière de GNN temporels, spatiaux et spatio-temporels, il s'agira de proposer ou de généraliser un ou des modèles et architectures de GNN capable d'intégrer des Sem Traj KG, tout en préservant leur structure sémantique, spatiale et temporelle et en prenant en charge des tâches en aval telles que le regroupement, la classification, la prédiction, l'alignement d'entités et le raisonnement.
Une approche incrémentale sera adoptée, consistant à faire évoluer et tester progressivement les capacités et performances des GNN spatio-temporels proposés en les appliquant dans un premier temps à des Sem Traj KG simplifiés, puis à des Sem Traj KG sémantiquement plus riches.
Organisation de la thèse :
- En première année, le ou la doctorante réalisera un état de l'art approfondi sur les trajectoires sémantiques, les graphes de connaissances et les réseaux de neurones de graphes et, en particulier, sur les GNN dédiés aux graphes de connaissances spatio-temporels. Il ou elle prendra en main les deux jeux de données (graphes de connaissances de trajectoires de vie et de trajectoires de territoire) qui serviront de cas d'étude. À ce stade, les verrous scientifiques, méthodologiques et techniques de la thèse seront identifiés. Le ou la doctorante rejoindra les communautés de recherche en lien avec son sujet (notamment les GDR MADICS et MAGIS)
- En deuxième année, le ou la doctorante devra concevoir une architecture GNN pour les trajectoires sémantiques. Celle-ci devra être adaptée aux KG de trajectoires de vie et aux KG de trajectoires de territoire. Il ou elle implémentera alors les GNN proposés et procèdera à des expérimentations et à des mesures de performance sur les deux jeux de données (trajectoires de vie et trajectoires de territoires) disponibles. Les codes développés seront libres (open source) et partagés, les résultats des expérimentations seront diffusés dans le respect des principes de la science reproductible. Les premiers résultats seront publiés dans des conférences nationales et internationales.
- En troisième année, le ou la doctorante mettra en place une approche neuro-symbolique en couplant les GNN réalisés avec des LLM et en intégrant dans le modèle d'apprentissage des règles logiques visant à en contrôler et améliorer les capacités et performances. Les résultats seront publiés dans au moins une revue internationale. Le ou la doctorante rédigera son manuscrit de thèse.

Le profil recherché

Ce sujet s'adresse à une personne motivée, diplômée d'un master en informatique ou sciences des données.
Des compétences solides en apprentissage automatique, de bonnes connaissances en Machine Learning (plus particulièrement en Deep Learning et réseaux de neurones) sont attendues, ainsi qu'une bonne maîtrise des techniques de développement de code et des bibliothèques généralistes et spécialisées (en Python).
Une expérience en matière de publication scientifique serait un plus appréciable, ainsi qu'une première expérience en matière de développement de réseaux de neurones, et particulièrement de GNN.
Enfin, un réel intérêt pour les données SHS ou/et environnementales est souhaité.

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.