Thèse sur les Fondements de l'Apprentissage Relationnel Neuro-Symbolique H/F - Doctorat.Gouv.Fr

CDD
Doctorat.Gouv.Fr

Publié le 22 Mai 2026

Postuler sur le site du recruteur

Les missions du poste

Établissement : Université Grenoble Alpes École doctorale : MSTII - Mathématiques, Sciences et technologies de l'information, Informatique Laboratoire de recherche : Laboratoire d'Informatique de Grenoble Direction de la thèse : Pierre GENEVES ORCID 0000000176762755 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-06-22T23:59:59 L'apprentissage sur données relationnelles (relational learning) est actuellement en plein essor, avec l'accélération du développement de modèles à base de réseaux de neurones sur les graphes, de méthodes d'apprentissage exploitant les liens dans les bases de données relationnelles, et l'émergence de transformeurs relationnels.

Des architectures basées sur GraphSAGE \cite{graphsage} telles que RelBench \cite{relbenchv2}, et des approches comme Rel-LLM \cite{rel-llm}, Rel-GNN \cite{rel-gnn}, Rel-GT \cite{rel-gt} montrent qu'il est désormais possible de traiter efficacement des bases relationnelles de grande taille pour des tâches de prédiction et d'analyse avancée. Cependant, ces approches restent principalement statistiques et exploitent peu la richesse sémantique des bases de données relationnelles : schémas, types, contraintes d'intégrité, dépendances fonctionnelles, règles logiques métiers ou connaissances expertes. Cette limitation conduit à des modèles parfois encore peu robustes, peu interprétables, sensibles au manque de données, et ayant des capacités de généralisation limitées hors de la distribution des données vue durant l'entraînement.

Parallèlement, le domaine de l'IA neurosymbolique a proposé des approches combinant apprentissage neuronal et raisonnement logique. Deux grandes familles de travaux se distinguent : d'une part la programmation probabiliste neurosymbolique (avec des systèmes comme DeepProbLog \cite{deepproblog}, Scallop \cite{scallop}, Dolphin \cite{dolphin}, DPNL \cite{dpnl}, etc.) et d'autre part les nombreuses méthodes traitant les graphes de connaissances (knowledge graphs) en mêlant règles logiques et réseaux de neurones (voir e.g. \cite{delplanque-nesy2025} pour un survey).
Néanmoins, toutes ces approches restent difficilement applicables à des bases relationnelles réelles de grande taille, soit en raison de problèmes de passage à l'échelle, soit parce qu'elles sont conçues spécifiquement pour le modèle de représentation de données particulier que constituent les knowledge graphs et qui se révèle peu adapté face à la richesse des données relationnelles qui peuvent comporter des attributs multiples, des types scalaires, des relations n-aires (elles mêmes attribuées), et des contraintes complexes.

L'objectif de cette thèse est de proposer les fondements théoriques, algorithmiques et systèmes nécessaires à l'introduction de mécanismes neurosymboliques dans le relational learning. La thèse étudiera comment la connaissance logique préalable (provenant des différents niveaux de règles qui gouvernent l'organisation des donnés, comme les schémas relationnels, les types, les contraintes, les règles logiques, les connaissances expertes, etc.) afin de concevoir des modèles plus robustes, plus économes en données, plus interprétables et plus conformes à des propriétés logiques ou métiers. Les approches neurosymboliques actuelles se répartissent en plusieurs grandes familles relativement cloisonnées.

D'une part, les approches de programmation probabiliste neurosymbolique (DeepProbLog \cite{deepproblog}, Scallop \cite{scallop}, Dolphin \cite{dolphin}, DPNL \cite{dpnl}, DeepGraphLog \cite{deepgraphlog}, DeepLog \cite{deeplog}, etc.) combinent raisonnement logique et apprentissage neuronal par le biais de la logique probabiliste. Bien que très élégantes sur le plan théorique dans la manière de coupler espaces euclidiens et logique computationnelle, elles passent très difficilement à l'échelle sur des grandes instances comme des bases relationnelles modernes.

D'autre part, de nombreuses méthodes exploitent des règles logiques et des contraintes symboliques sous forme d'ontologies pour les knowledge graphs (historiquement bien formalisées dans les domaines du web sémantique et de la représentation des connaissances). Cependant, ces approches supposent généralement des graphes de connaissances (sous forme d'un ensemble de triplets) et restent souvent difficilement transposables aux bases relationnelles, qui possèdent une structure de graphe bien plus riche, avec des listes d'attributs et de valeurs de différents types pouvant être associés aux entités, des attributs scalaires, des relations hétérogènes multiples (elles-mêmes attribuées) entre entités, une dimension temporelle, des schémas complexes, etc.

En parallèle, des architectures récentes telles que RelBench~\cite{relbenchv2} basées sur GraphSAGE~\cite{graphsage}, Rel-LLM~\cite{rel-llm}, et RelGT~\cite{rel-gt} permettent désormais un apprentissage directement sur bases relationnelles qui passe à l'échelle. Néanmoins, ces approches restent essentiellement statistiques et exploitent peu ou pas les connaissances métier explicites.

Des travaux récents montrent que l'apport d'une sémantique basique de plus haut niveau (via l'introduction de liens \cite{rel-gnn}, de noeuds \cite{cucumides25-nodes} ou de dépendances entre tuples \cite{cucumides25-grables}) permet des gains nets en précision. Ceci ouvre de nouvelles perspectives pour intégrer des connaissances structurées et des biais inductifs encore plus riches dans les architectures d'apprentissage.

Cette thèse se situe à l'intersection de ces différents domaines et vise à proposer une nouvelle génération de modèles de relational learning neurosymboliques et scalables.

Le profil recherché

Le/la candidat(e) devra avoir une formation solide en informatique, intelligence artificielle, science des données, ou dans un domaine connexe, avec de solides bases en apprentissage automatique et en intelligence artificielle. Une bonne connaissance des bases de données relationnelles, des graphes, ou des méthodes neurosymboliques sera particulièrement appréciée. Le poste requiert de bonnes compétences en programmation (notamment en Python et dans les frameworks de deep learning), ainsi qu'un intérêt pour les aspects théoriques et algorithmiques de l'apprentissage automatique. Une capacité à travailler de manière autonome, un goût pour la recherche fondamentale et appliquée, ainsi que de bonnes compétences en communication scientifique sont également attendus.

Postuler sur le site du recruteur

Thèse sur les Fondements de l'Apprentissage Relationnel Neuro-Symbolique H/F - Doctorat.Gouv.Fr

Les missions du poste

Le profil recherché

Ces offres pourraient aussi vous correspondre.

Cuisinier H/F

Conseiller d'Agence - Grenoble 38000 H/F

Ingénieur - Projeteur Conception Mecanique H/F

Recherches similaires