Thèse Graphes de Connaissances et Enrichissement par IA Agentique de Données d'Enquêtes Biographiques Rétrospectives H/F - Doctorat.Gouv.Fr

CDD
Doctorat.Gouv.Fr

Publié le 10 Juin 2026

Postuler sur le site du recruteur

Les missions du poste

Établissement : Université Grenoble Alpes École doctorale : MSTII - Mathématiques, Sciences et technologies de l'information, Informatique Laboratoire de recherche : Laboratoire d'Informatique de Grenoble Direction de la thèse : Marlène VILLANOVA OLIVER ORCID 0000000272426102 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-06-22T23:59:59 Les enquêtes biographiques ont pour objectif de recueillir de manière rétrospective les parcours de vie des individus selon différentes trajectoires (familiale, professionnelle, géographique, etc.). Ces enquêtes se sont progressivement imposées en SHS comme une approche méthodologique efficiente pour expliquer les transformations des structures sociales et familiales des sociétés et des territoires (Courgeau et Lelièvre, 1996). Les données biographiques sont collectées au moyen d'un questionnaire permettant le recueil des évènements qui jalonnent le parcours de l'enquêté.e selon différentes dimensions ciblées (GRAB, 2009).
Cette thèse s'inscrit dans le cadre du projet ANR TRAVERSÉES (TRAjectoires de Vie : Enrichissement, Requêtage SÉmantiques et Exploration Statistique) qui vise à explorer diverses possibilités offertes aujourd'hui, notamment par l'Intelligence Artificielle (IA), pour ouvrir de nouvelles perspectives d'analyse des données d'enquêtes biographiques.
L'hypothèse au coeur du projet ANR TRAVERSÉES est qu'il est pertinent de mobiliser un objet numérique 'Trajectoires de Vie Sémantisées' (TVS) pour rendre compte des multiples facettes des parcours de vie capturés par une enquête biographique et aller plus loin dans l'analyse des données biographiques.
L'approche consiste à combiner différentes techniques d'intelligence artificielle (IA symbolique, IA agentique et IA Générative) pour la représentation et l'enrichissement de données d'enquêtes bibliographiques. Les technologies d'IA symbolique seront utilisées dans un premier temps pour la modélisation de trajectoires de vie multi-dimensionnelles sous la forme d'une ontologie et d'un graphe de connaissances. Puis, l'IA agentique sera mobilisée pour la mise en oeuvre d'enrichissement de ces données à partir de sources variées (connexion à d'autres graphes de connaissances, données du web, tableurs, textes, etc.). Enfin, les LLM seront mobilisés exploités pour l'interrogation des bases de connaissances produites et la restitution de récits décrivant les trajectoires des individus en langue naturelle. Les enquêtes biographiques ont pour objectif de recueillir de manière rétrospective les parcours de vie des individus selon différentes trajectoires (familiale, professionnelle, géographique, etc.). Ces enquêtes se sont progressivement imposées en SHS comme une approche méthodologique efficiente pour expliquer les transformations des structures sociales et familiales des sociétés et des territoires (Courgeau et Lelièvre, 1996). Les données biographiques sont collectées au moyen d'un questionnaire permettant le recueil des évènements qui jalonnent le parcours de l'enquêté.e selon différentes dimensions ciblées (GRAB, 2009).
Cette thèse s'inscrit dans le cadre du projet ANR TRAVERSÉES qui vise à explorer diverses possibilités offertes aujourd'hui, notamment par l'Intelligence Artificielle (IA), pour ouvrir de nouvelles perspectives d'analyse des données d'enquêtes biographiques.
La thèse est organisée autour de deux axes principaux :
1. La modélisation de Trajectoires de Vie Sémantisées (TVS)
Cet axe consiste à proposer un méta-modèle pour les TVS, exprimé à la fois au moyen d'une formalisation UML (Unified Modeling Language) pour en faciliter la lisibilité, la compréhension, la diffusion et la valorisation, et d'une formalisation mathématique plus adaptée aux méthodes d'analyses statistiques. L'enjeu de ce méta-modèle est d'appréhender la complexité structurelle et sémantique d'un parcours de vie, quelle que soit l'enquête biographique considérée. Le méta-modèle, dans une partie qualifiée de Core (ou noyau), exprimera les différents éléments de représentation nécessaires pour représenter des TVS, et capables de couvrir les caractéristiques communes aux enquêtes biographiques. Puis, des extensions du noyau du méta-modèle seront proposées pour permettre la représentation d'éléments spécifiques. Par exemple, certaines enquêtes intègrent des dimensions subjectives, comme l'expression par l'enquêté de ce qu'il estime être les raisons d'un événement, ou encore son ressenti ou son appréciation sur son propre parcours.
Ensuite, il conviendra d'implémentation en OWL du méta-modèle développé. Une approche modulaire sera adoptée, favorisant notamment la réutilisabilité des ontologies créées et publiées. Pour chaque module ontologique proposé, la réutilisation d'ontologies existantes sera privilégiée. Les modules ontologiques développés, en leur qualité d'artefacts sémantiques structurant la connaissance, sont des éléments clés pour la mise en oeuvre des principes FAIR - Findable, Accessible, Interoperable, Reusable qui seront ici adoptés. Pour leur développement et leurs publications, nous suivrons les recommandations présentées dans (Le Franc et al., 2020).
Puis, l'ontologie sera instanciée sur le un cas d'étude (l'enquête biographique 3B, https://doi.org/10.48756/ined-IE0173-2085). Un graphe de connaissances sera produit à partir du modèle ontologique OWL.

2. L'enrichissement de ces TVS
Cet axe vise l'enrichissement du graphe de connaissance produit selon l'approche décrite ci-dessus afin d'accroître ex-post la qualité des données d'enquête et d'affiner les analyses qui en sont faites. Le choix d'une implémentation des données d'enquêtes biographiques dans les formats du Web Sémantique ouvre la voie à la découverte, l'exploration et l'exploitation de données ouvertes et liées, susceptibles d'enrichir les données collectées, sous réserve que ce processus soit facilité. Une méthodologie pour supporter ce processus sera définie. Des algorithmes et briques logicielles pour l'enrichissement seront développés en prenant appui sur les technologies d'IA agentique. L'ensemble de la démarche sera testé afin de produire le graphe de connaissances enrichi.
Le/la doctorant.e aura pour missions principales :
- La production d'états de l'art pour les deux axes mentionnés ci-dessus intégrant une étude comparative avec les modèles existants
- La formalisations UML et mathématique de la sémantique du méta-modèle de TVS
- L'implémentation du méta-modèle de TVS
- La création du modèle de TVS pour l'enquête 3B
- La création du KG de peuplement du modèle 3B par les données de l'enquête
- La création et implémentation d'une Méthodologie pour l'enrichissement des TVS (approche guidée par l'expert, approche basée sur les technologies d'IA agentique), puis des études comparatives et tests associés
- Le développement de Briques logicielles pour l'enrichissement (approche guidée par l'expert, approche basée sur les technologies d'IA agentique)
- La production d'un Graphe de connaissances enrichi.
Un 3ème axe porte sur l'interrogation en langage naturel du KG et sera abordé en fonction des avancées sur les deux autres points. Afin de produire des données FAIR issues d'enquêtes bibliographiques modélisées sous la forme de trajectoires de vie sémantisées, les technologies du Web sémantique et les graphes de connaissances (Knowledge Graphs, KGs) constituent une solution particulièrement adaptée. Ces derniers permettent de structurer les informations sous forme de noeuds reliés par des relations sémantiques, offrant un cadre pertinent pour représenter les dimensions temporelles, spatiales, sociales et biographiques des trajectoires étudiées. Les événements de vie, les acteurs, les lieux, les périodes ou encore les relations sociales peuvent ainsi être décrits de manière interconnectée et contextualisée.
Par ailleurs, l'intégration des KGs dans le Web des Données Ouvertes et Liées (Linked Open Data, LOD) ouvre des perspectives importantes d'enrichissement et d'analyse. Les trajectoires de vie peuvent être reliées à des référentiels externes tels que Wikidata, Geonames ou d'autres bases bibliographiques et historiques, afin d'enrichir les entités décrites par des informations contextuelles, géographiques ou encyclopédiques. Les ontologies et les logiques de description permettent également d'inférer des relations implicites entre événements, individus ou espaces, contribuant ainsi à améliorer la cohérence et la complétude des connaissances produites.
Enfin, l'articulation entre KGs et Large Language Models (LLM) ouvre de nouvelles perspectives pour l'enrichissement et l'exploration des TVS. Les LLM peuvent faciliter l'enrichissement par l'extraction, la normalisation et la structuration d'informations issues de corpus textuels, tels que des notices bibliographiques, des archives ou des récits biographiques. Cette complémentarité permet également de simplifier l'interrogation des graphes en autorisant des requêtes formulées en langue naturelle, rendant accessibles des données complexes à des utilisateurs non spécialistes. La combinaison du raisonnement symbolique porté par les KGs et des capacités de compréhension linguistique des LLM favorise ainsi le développement d'outils d'analyse avancés pour l'étude des trajectoires de vie, des dynamiques sociales et des contextes historiques.

Le profil recherché

Le candidat doit être titulaire d'un master en Informatique ou Data Science, Intelligence Artificielle ;
- Connaissances dans le domaine du Web sémantique et la représentation des connaissances (RDF, OWL, SPARQL) ;
- Solides connaissances en Python ;
- Connaissances en Web scraping ou alignement de données du web ;
- Connaissance en apprentissage automatique, IA Agentique et IA Générative par recours à des LLM ;
- Autonomie, rigueur, capacité d'analyse et appétence pour l'IA (symbolique, agentique)
- Aptitude à conceptualiser et à formaliser la connaissance
- Intérêt avéré pour la pluridisciplinarité, en particulier impliquant les SHS

Niveau de français requis : Intermédiaire supérieur (B2)
Niveau d'anglais requis : Intermédiaire supérieur (B2)

Postuler sur le site du recruteur

Thèse Graphes de Connaissances et Enrichissement par IA Agentique de Données d'Enquêtes Biographiques Rétrospectives H/F - Doctorat.Gouv.Fr

Les missions du poste

Le profil recherché

Ces offres pourraient aussi vous correspondre.

Data Analyst H/F

Data Analyst H/F

Data Analyst - Secteur Industrie H/F

L’emploi par métier dans le domaine Data et IA à Grenoble