Le Collège des Études Doctorales a le plaisir de vous informer que
Monsieur Ricard Pau MARXER PIÑÓN
Maître de conférences, rattaché au laboratoire LIS
soutiendra publiquement son Habilitation à Diriger des Recherches en vue de
l’obtention de l’HDR Informatique
sur le thème
Étude de la parole dans des conditions adverses. Vers des approches d’apprentissage auto-supervisé pour le traitement, la perception et la modélisation
Le mercredi 23 mars 2022 à 14h30
à l’Université de Toulon, Campus La Garde Bâtiment M – Amphi M.001
devant un jury composé de :
M. Jean-François BONASTRE, Professeur des Universités, Avignon Université, Rapporteur
M. François PELLEGRINO, Directeur de Recherche-CNRS, Université Lyon 2, Rapporteur
M. Anthony LARCHER, Professeur des Universités, Le Mans Université, Rapporteur
Mme Régine ANDRE-OBRECHT, Professeure Émérite, Université Toulouse 3, Examinatrice
Mme Cécile CAPPONI, Professeure des Universités, Aix-Marseille Université, Examinatrice
Résumé étendu
La parole joue un rôle crucial dans notre vie. Nous l’utilisons pour communiquer avec nos pairs, pour nous adresser à nos animaux domestiques et, plus récemment, grâce aux progrès du traitement automatique de la parole, même pour interagir avec des machines. Nous le faisons dans une grande variété de scénarios et d’environnements, du calme d’une salle de classe à une gare bruyante et fréquentée. La présence de bruit, de réverbération ou de voix concurrentes affecte considérablement notre perception et notre production de la parole. Il devient de plus en plus important de comprendre comment nous utilisons la parole dans de telles conditions d´défavorables et d’apprendre ce que nous pouvons faire pour surmonter les défis que présentent ces environnements.
Dans ce manuscrit, nous nous sommes concentrés sur les approches basées sur les données. Plus précisément, nous explorons les utilisations de l’apprentissage automatique et de l’apprentissage profond pour résoudre les problèmes de : i) traitement de la parole bruitée, ii) prédiction de sa perception humaine et iii) modélisation des signaux vocaux. L’apprentissage automatique a récemment excellé dans de nombreuses tâches de perception automatique, de la classification d’images à la reconnaissance vocale. Dans le traitement de la parole, ces techniques sont maintenant répandues, notamment dans la séparation et la reconnaissance de la parole. Notre travail s’est concentré sur l’augmentation du réalisme des scénarios qui sont couramment visés lors de l’exécution de ces tâches. Pour la perception de la parole humaine dans le bruit, nous faisons les premiers pas vers l’adoption de cette méthodologie dans un domaine où elle a rarement été appliquée. Dans le contexte de la modélisation, nous ne nous concentrons pas spécifiquement sur les données vocales bruitées. Nous étudions les thèmes de l’auto-supervision et des techniques faiblement supervisées, qui ont le potentiel de réduire la d´dépendance aux données étiquetées, une contrainte particulièrement lourde lorsqu’on traite la parole dans des conditions défavorables.
Dans le traitement de la parole bruitée, nous avons identité´ plusieurs aspects qui entravent la validité ´écologique de certaines études antérieures. Nous nous concentrons sur trois sujets principaux pour augmenter le réalisme dans les tâches de s´séparation et de reconnaissance automatique de la parole. Nous proposons d’abord l’utilisation de données réelles de parole dans le bruit, par opposition aux mélanges artificiels. Nous proposons une nouvelle itération de la campagne d’évaluation CHiME dans laquelle des enregistrements de la parole sont effectués dans des scénarios bruyants réels de la vie quotidienne tels que des cafés, une rue animée, un trajet en bus ou une gare. Nous analysons les caractéristiques des composantes de la parole et du bruit, et leur relation avec les performances de la reconnaissance automatique de la parole (RAP). En utilisant les mêmes données, nous nous concentrons ensuite sur la disparité entre les conditions d’entraînement et d’évaluation. Nous analysons plusieurs sources possibles d’inadéquation, telles que l’utilisation de données simulées, le type de bruits ou la configuration multi-microphones. En suivant la recherche de réalisme, nous ´étudions également comment l’acte réflexe d’un locuteur adaptant sa voix à des conditions d´défavorables peut affecter la performance ASR. De plus, nous prenons en compte la composante visuelle et acoustique de la parole. Nous recueillons des données audio-visuelles sur la parole en induisant un réflexe Lombard chez le locuteur par la présentation d’un bruit au casque. Nous analysons les caractéristiques de cette parole et les comparons aux résultats d’études antérieures. En fin, nous comparons les performances des systèmes ASR lorsque différentes composantes de l’effet Lombard sont prises en compte ou non lors de l’entraînement.
Nous établissons une base pour explorer l’utilisation de l’apprentissage automatique dans la perception de la parole humaine pour prédire l’intelligibilité à un niveau de détail fin. Les travaux existants sur l’estimation de l’intelligibilité visent à prédire les mesures macroscopiques du taux de reconnaissance, en établissant une moyenne sur de nombreux auditeurs et stimuli. Notre objectif est de prédire des erreurs précises dans la perception de la parole humaine, à la fois dans le temps et dans la façon dont la confusion se produit. À cette fin, nous créons un grand corpus de confusions systématiques de la parole en anglais par le biais de nombreux tests d’écoute. Nous nous concentrons sur la parole noyée dans du bruit qui produit la même confusion chez plusieurs auditeurs. Nous faisons une analyse comparative des erreurs de reconnaissance obtenues en anglais avec celles d’un corpus similaire en espagnol. Nous analysons également les facteurs lexicaux qui influencent ces confusions. En fin, nous proposons un cadre composé de tâches, de mesures d’évaluation et de modèles de référence qui facilitent le développement de la prédiction de la micro-intelligibilité à partir de données, en comparant les méthodes à ces données.
En ce qui concerne la modélisation, nous nous concentrons sur les méthodes d’apprentissage de la représentation de la parole qui fonctionnent sur un régime de peu de données labellisées. Nous identifions cette ligne de travail comme une opportunité d’exploiter de grandes quantités de données non étiquetées pour surmonter le coût élevé de l’annotation manuelle de la parole dans des conditions difficiles. Nous proposons plusieurs avancées indépendantes qui visent à produire des représentations de la parole permettant des tâches en aval telles que la reconnaissance avec de petites quantités de données étiquetées. Nous abordons des problèmes tels que la découverte d’unités acoustiques, la segmentation automatique non supervisée et la catégorisation des phonèmes. Quatre contributions concrètes sont présentées. ScribbleLens est un nouveau corpus d’anciens manuscrits qui sert de référence pour accélérer le développement d’idées dans l’apprentissage de séquences sur des signaux linguistiques. Nous présentons ensuite notre proposition de VQ-VAE segmentaire. Il s’agit d’un modèle d’apprentissage profond (DL) non supervisé pour effectuer la segmentation et l’étiquetage de données séquentielles, similaire aux résultats de l’alignement forcé supervisé en ASR ou en reconnaissance intelligente de caractères (ICR). Ce modèle exploite des informations sur la durée moyenne des segments, qu’il applique comme une contrainte dure pendant l’apprentissage et qu’il met en œuvre comme une contrainte souple lors de l’inférence. Nous proposons ensuite un modèle de Markov profond convolutif qui utilise des réseaux neuronaux pour estimer les transitions dans un modèle de Markov caché (HMM). Il en résulte une représentation continue de la parole qui présente des propriétés favorables à la reconnaissance des phonèmes. Nous terminons ce bloc de recherche par une étude sur les limites des couches de discrétisation telles que celles trouvées dans le modèle VQ-VAE. Nous proposons des solutions basées sur une initialisation et une réinitialisation appropriée des codes de quantification pour surmonter ces problèmes. Nous évaluons les changements proposés sur des signaux image et audio.
Nous concluons en présentant plusieurs directions de travail sur chacun des sujets de recherche présentés. Pour les trois axes, nous proposons de travailler sur la RAP robuste en champ lointain dans un environnement médical, de commencer le développement de modèles d’intelligibilité microscopique basés sur DL, de développer d’autres idées dans l’apprentissage non supervisé de la représentation de la parole et d’étudier son application à la bioacoustique.
Alors que la RAP a commencé à devenir une technologie mature dans de nombreux contextes, plusieurs aspects spécifiques liés à la RAP pour l’environnement médical ralentissent son adoption dans ces scénarios. Les bruits et les scènes acoustiques des résidences médicalisées ou des hôpitaux sont assez particuliers avec de nombreuses sources concurrentes et des temps de réverbération importants par rapport à de nombreux ménages. Le type d’utilisation est également très différent, la fiabilité et la sécurité étant de la plus haute importance. Enfin, la sensibilité des données rend impossible l’utilisation d’un traitement délocalisé de la parole dans le nuage et réduit la disponibilité de données réalistes existantes. Nous nous concentrons sur ces aspects en collaboration avec une entreprise privée afin de développer une solution pour ces scénarios et de la mettre à la disposition d’un public plus large. Ce travail en cours s’aligne sur les stratégies nationales et internationales visant à accroître l’adoption de l’IA dans le domaine de la santé.
Nous avons également déjà commencé à travailler sur le développement de modelés d’intelligibilité microscopique basés sur la DL. Une proposition ANR JCJC a été acceptée pour financement et a débuté en septembre 2021. Dans cette ligne de travail, nous visons à développer des modèles DL qui permettront de prédire la reconnaissance et les erreurs de reconnaissance de la parole dans le bruit par les humains. Contrairement aux méthodes existantes qui se concentrent sur les mesures macroscopiques de l’intelligibilité, nous visons à prédire les détails les plus fins de la parole reconnue. Notre objectif est d’identifier les segments d’un signal acoustique particulier qui produisent des confusions et le type de mauvaise perception induite dans un ensemble d’auditeurs à audition normale. Cette approche n’a attiré l’attention que récemment, mais l’impact de tels modèles pourrait ˆêtre précieux pour l’étude de la perception de la parole et le développement d’appareils auditifs.
Le dernier domaine de travail dans mes perspectives est l’application de l’apprentissage auto-supervisé de la représentation audio à la bioacoustique. En 2016, nous avons initié le projet Vocal interactivity in-and-between Humans, Animals and Robots (VIHAR) avec un papier de position sur l’intersection entre le travail scientifique sur l’interaction vocale dans trois communautés différentes : la parole, la bioacoustique et la robotique. Nous avons organisé un séminaire à Dagstuhl et continuons à organiser des ateliers bisannuels, dont le dernier a eu lieu en octobre 2021. Par ailleurs, dans l’équipe de recherche DYNI à l’UTLN, nous travaillons beaucoup sur les études acoustiques passives des grands mammifères marins. Dans ce contexte, j’ai co-encadré une thèse sur la caractérisation des vocalisations des cachalots et je co-encadre actuellement deux autres thèses sur la détection, la localisation et la classification de la mégafaune sous-marine par le son. Ces travaux nécessitent souvent l’utilisation de techniques non supervisées tout au long du pipeline. Le manque de données annotées, le coût de l’étiquetage manuel et l’arbitraire d’une telle catégorisation faite par des humains rendent souvent futile l’utilisation de méthodes supervisées traditionnelles. Nous développons et appliquons des outils d’IA auto-supervisés ou faiblement supervisés pour améliorer notre compréhension des vocalisations des animaux sous-marins et de leur comportement associé. Ces techniques nous permettent également de surveiller l’environnement marin et l’impact de l’homme sur celui-ci. Cette action est urgente avec le développement de l’économie de la croissance bleue et l’urgence climatique que nous connaissons.
Finalement, nous présentons les perspectives de l’activité pédagogique, en mettant l’accent sur l’EMJMD en robotique marine et maritime intelligente (MIR). MIR est un programme de master innovant que nous avons conçu et créé au cours des trois dernières années et qui vient de commencer avec le premier groupe d’étudiants en septembre 2021. À partir de maintenant, une grande partie des efforts sera consacrée à la stabilisation du programme et au développement de nouvelles collaborations de recherche avec les principaux partenaires et le vaste réseau de plus de 50 partenaires associés industriels et universitaires de plus de 20 pays différents.