Les missions du poste

Établissement : Université Grenoble Alpes École doctorale : EEATS - Electronique, Electrotechnique, Automatique, Traitement du Signal Laboratoire de recherche : Grenoble Images Parole Signal Automatique Direction de la thèse : Thomas HUEBER ORCID 0000000282965177 Début de la thèse : 2027-10-01 Date limite de candidature : 2026-05-31T23:59:59 La dysarthrie est un trouble neuromoteur de la parole résultant d'une altération de la coordination des sous-systèmes respiratoire, phonatoire, articulatoire et prosodique impliqués dans la production de la parole. La parole dysarthrique se caractérise souvent par une intelligibilité réduite, une articulation altérée, une prosodie instable, un débit de parole irrégulier et un contrôle vocal diminué, entraînant d'importantes difficultés de communication dans la vie quotidienne. Malgré les progrès récents en rehaussement et en synthèse de la parole, la restauration de paroles pathologiques fortement dégradées demeure un défi scientifique majeur en raison de la forte variabilité des profils dysarthriques selon les locuteurs et les pathologies.

Les avancées récentes en apprentissage auto-supervisé (Self-Supervised Learning, SSL) et analyse-synthèse neuronale (codecs) ont profondément transformé le domaine du traitement automatique de la parole. Des modèles tels que HuBERT ou wav2vec~2.0 apprennent des représentations contextuelles riches de la parole en reconstruisant des portions masquées du signal à partir du contexte acoustique environnant. Parallèlement, les Speech Language Model (SpeechLM) - à savoir des grands modèles de langue traitant directement le signal de parole sans faire appel explicitement à son décodage sous forme textuelle - ont introduit un nouveau paradigme dans lequel la parole est représentée sous la forme de séquences discrètes d'unités acoustiques (tokens) modélisées de manière autorégressive. Ces approches permettent désormais le décodage, la compréhension et la génération de parole de haute qualité, et à faible latence.

L'objectif de cette thèse est d'étudier comment ces nouvelles approches peuvent être exploitées pour rehausser la parole dysarthrique et reconstruire des signaux de parole plus intelligibles et plus naturels à partir d'entrées pathologiques. Dans un premier temps, la thèse s'intéressera à des pipelines de reconstruction de parole dysarthrique (Dysarthric Speech Reconstruction, DSR) combinant des représentations SSL contextualisées et des approches neuronales de synthèse de la parole. En s'appuyant sur nos travaux récents sur l'inpainting de la parole basé sur des représentations SSL, nous faisons l'hypothèse que ces représentations capturent une information linguistique et phonétique suffisamment riche pour reconstruire une parole intelligible à partir de segments pathologiques localement dégradés. Dans un second temps, la thèse étudiera des approches de type SpeechLM opérant sur des tokens issus de codecs neuronaux. L'idée consistera à conditionner un SpeechLM par des séquences de tokens acoustiques extraites de parole dysarthrique afin d'apprendre à prédire des séquences de tokens correspondant à une parole plus intelligible et plus naturelle. De telles approches pourraient permettre de modifier non seulement le contenu segmental de la parole, mais également sa dynamique temporelle et prosodique.

La thèse explorera également l'utilisation d'un espace de représentation de type «articulatoires» pour la reconstruction de la parole. Bien que les représentations latentes modernes soient particulièrement performantes, elles demeurent difficiles à interpréter et à contrôler. L'introduction de représentations articulatoires explicites dans le processus génératif, comme dans nos travaux précédents sur la parole non pathologique, pourrait fournir des contraintes physiologiquement plausibles et faciliter le développement de stratégies de rehaussement de parole plus contrôlables.

Enfin, le projet étudiera la faisabilité de systèmes de rehaussement de parole dysarthrique fonctionnant en temps réel et à faible latence. Cela inclut l'étude d'architectures causales et de techniques de streaming, de modèles légers et de leur implémentation dans des systèmes embarqués pour des applications concrètes d'assistance à la communication. Self-supervised learning, neural speech codec and SpeechLM
Recent progress in self-supervised speech representation learning has opened new perspectives for speech
reconstruction tasks. Models such as wav2vec 2.0 [3], HuBERT [4] , or SpidR [5] learn contextualized
speech representations using masking strategies inspired by natural language processing. Interestingly,
this paradigm shares strong similarities with speech inpainting, where corrupted portions of speech are
reconstructed from surrounding acoustic context. In a recent study [2], we demonstrated that SSL representations combined with neural vocoders can successfully reconstruct missing speech segments in non-
pathological speech signals. These results suggest that contextual SSL representations may also provide
robust linguistic and phonetic information for reconstructing degraded dysarthric speech.
At the same time, neural speech codecs and Speech Language Models (SpeechLM) introduced a new
generative framework for speech processing. Instead of relying on continuous latent representations, neural
codecs encode speech into discrete acoustic token sequences that can be modeled autoregressively. Recent
codec-based autoregressive Text-to-speech (e.g. CosyVoice [10]) and SpeechLMs (e.g. see [6] for a review)
demonstrated the ability of autoregressive token modeling to decode, reason on and generate high-quality
speech signals. Such models are particularly promising for dysarthric speech enhancement since they
could potentially transform pathological acoustic token sequences into more intelligible and natural token
trajectories while modifying speaking rate and prosodic structure.
Recent low-latency SpeechLM architectures such as Moshi [11] demonstrate the feasibility of real-time
speech generation using autoregressive neural codec representations. These developments open promising
perspectives for future assistive communication systems operating in real-time conversational settings.
Another important limitation of modern generative speech systems lies in the lack of interpretability
of latent speech representations. Recent works on articulatory-aware speech modeling, including articula-
tory bottleneck approaches such as AR-VAE [7, 8] or SPARC architectures [9], suggest that introducing
explicit articulatory constraints may improve controllability and physiological plausibility of speech gen-
eration. Such approaches are particularly relevant in pathological speech applications where articulatory
impairments constitute one of the main sources of intelligibility degradation.

Most existing DSR systems are based on voice conversion paradigms and can generally be divided into
two main categories. The first category directly learn a mapping between dysarthric and healthy speech
domains [14, 15]. The second category relies on more recent encoder-decoder architectures that decom-
pose dysarthric speech reconstruction into several sub-modules dedicated to linguistic content extraction,
speaker identity preservation, and speech generation [16, 17, 18, 19, 20]. The DSR pipeline envisioned
in this PhD project belongs to this category. Existing approaches typically leverage auxiliary objectives
such as cross-modal knowledge distillation with text-to-speech models [16], ASR-based phonetic represen-
tations [17], or joint speech reconstruction and phoneme recognition objectives as in the Parrotron family
of models [18, 19, 20]. More recently, UNIT-DSR [23] introduced one of the first dysarthric speech recon-
struction systems explicitly based on discrete speech units extracted from a HuBERT model. Inspired by
[21] and in line with our previous work [2], the proposed pipeline combines SSL-based discrete units with
a HiFi-GAN vocoder to transform dysarthric speech unit sequences into healthy speech representations.
However, despite these promising results, the generated speech remains limited in terms of naturalness,
prosodic reconstruction, and robustness to highly degraded dysarthric speech.

Le profil recherché

Les candidat·es devront être titulaires d'un Master (ou diplôme équivalent) dans un ou plusieurs des domaines suivants : traitement automatique des langues, traitement du signal/audio/parole, informatique, science des données, linguistique. De bonnes compétences en programmation Python ainsi qu'une expérience des frameworks de deep learning tels que PyTorch sont attendues. La personne recrutée devra également démontrer un fort intérêt pour la recherche interdisciplinaire à l'intersection de l'intelligence artificielle, des sciences de la parole et des applications liées à la santé. De bonnes capacités de communication et d'organisation sont importantes, le ou la doctorant·e étant amené·e à travailler dans un environnement de recherche interdisciplinaire et à participer activement aux activités de diffusion scientifique. Une bonne maîtrise de l'anglais écrit et oral est requise, notamment la capacité à présenter clairement des résultats de recherche en conférence et à rédiger des publications scientifiques.

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.

L’emploi par métier dans le domaine Mode à Grenoble