APPROCHE BIMODALE DU TRAITEMENT AUTOMATIQUE DE LA PAROLE : APPLICATION A LA RECONNAISSANCE DU MESSAGE ET DU LOCUTEUR

Pierre Jourlin

Thèse Année : 1998

Bimodal Approach of Automatic Speech Processing : Application to speech and speaker recognition.

APPROCHE BIMODALE DU TRAITEMENT AUTOMATIQUE DE LA PAROLE : APPLICATION A LA RECONNAISSANCE DU MESSAGE ET DU LOCUTEUR

(1)

Pierre Jourlin

Fonction : Auteur
PersonId : 175244
IdHAL : pierre-jourlin
ORCID : 0000-0002-8857-5436

Laboratoire Informatique d'Avignon

Résumé

This work addresses the problem of integrating visual information about the lip movements into acoustic-based speech processing systems. In a first part, the different problems and methods related to this particular approach are discussed. The first chapter is dedicated to the asynchrony phenomenon (or temporal independence) of the two sources of information and to the different ways of handling it in HMM-based speech processing systems. The second chapter concerns the problem of combining two modalities which may have very different behaviours from a reliability point of view : Different methods for finding an optimal weighting are discussed. In the second part are reported the different experiments I have done in the acoustic-labial speech processing field. In the chapter 3 are reported my own experiments in the acoustic-labial speech recognition field and in the framework of AMIBE (French CNRS project). I also present in this chapter the results of the novel methods described in chapter 1 and 2. Chapter 4 is dedicated to acoustic-labial person authentication systems and experiments, in the framework of the European project M2VTS (program ACTS). These experiments are the very first conduced in the field of acoustic-labial speaker recognition and verification.

Ces travaux constituent une étude sur la possibilité d'intégrer les informations visuelles constituées par le mouvement et la forme des lèvres dans les systèmes de traitement automatique de la parole. Les différentes approches et méthodes relatives à cette problématique sont abordées d'une façon théorique et expérimentale. Une description technique des phénomènes d'asynchronie (ou d'indépendance temporelle) présents dans cette source d'information bimodale est tout d'abord établie. Différentes manières de gérer ces phénomènes dans les systèmes de reconnaissance de la parole sont étudiées et comparées. Nous définissons alors une nouvelle approche fondée sur un produit d'automates à transitions valuées. En outre, la combinaison de deux modalités, qui peuvent avoir des niveaux de fiabilité totalement différents, pose un certain nombre de problèmes relatifs à la pondération. Nous étudions donc les divers critères et méthodes permettant de trouver une pondération optimale. Il est également fait état de différentes expérimentations effectuées dans le domaine du traitement de la parole acoustico-labiale. Nos propres expérimentations dans le domaine de la reconnaissance de la parole bimodale et dans le projet AMIBE ( financé par le CNRS ) sont décrites. Les résultats des nouvelles méthodes développées dans ces travaux sont également présentées. Enfin, nous abordons également le domaine de la vérification d'identité acoustico-labiale. Nous présentons les résultats obtenus par le système que avons réalisé en collaboration avec l'IDIAP dans le cadre du projet européen M2VTS (programme ACTS). Ces expérimentations furent parmi les toutes premières réalisées dans le domaine de la reconnaissance et vérification acoustico-labiale du locuteur.

Mots clés

speech recognition speaker recognition speaker verification lip reading

reconnaissance de la parole verification du locuteur reconnaissance du locuteur lecture labiale

Domaines

Informatique et langage [cs.CL] Intelligence artificielle [cs.AI] Vision par ordinateur et reconnaissance de formes [cs.CV] Apprentissage [cs.LG] Multimédia [cs.MM]

Fichier principal

thesePJ98.pdf (996.64 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

pierre jourlin : Connectez-vous pour contacter le contributeur

https://univ-avignon.hal.science/tel-02152912

Soumis le : mardi 11 juin 2019-17:48:08

Dernière modification le : mercredi 16 juin 2021-18:14:01

Dates et versions

tel-02152912 , version 1 (11-06-2019)

Identifiants

HAL Id : tel-02152912 , version 1

Citer

Pierre Jourlin. APPROCHE BIMODALE DU TRAITEMENT AUTOMATIQUE DE LA PAROLE : APPLICATION A LA RECONNAISSANCE DU MESSAGE ET DU LOCUTEUR. Informatique et langage [cs.CL]. Université d'Avignon et des Pays de Vaucluse, 1998. Français. ⟨NNT : ⟩. ⟨tel-02152912⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-AVIGNON LIA

126 Consultations

145 Téléchargements

Bimodal Approach of Automatic Speech Processing : Application to speech and speaker recognition.

APPROCHE BIMODALE DU TRAITEMENT AUTOMATIQUE DE LA PAROLE : APPLICATION A LA RECONNAISSANCE DU MESSAGE ET DU LOCUTEUR

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager