Bimodal Approach of Automatic Speech Processing : Application to speech and speaker recognition. - Archive ouverte HAL Access content directly
Theses Year : 1998

Bimodal Approach of Automatic Speech Processing : Application to speech and speaker recognition.

APPROCHE BIMODALE DU TRAITEMENT AUTOMATIQUE DE LA PAROLE : APPLICATION A LA RECONNAISSANCE DU MESSAGE ET DU LOCUTEUR

(1)
1
Pierre Jourlin

Abstract

This work addresses the problem of integrating visual information about the lip movements into acoustic-based speech processing systems. In a first part, the different problems and methods related to this particular approach are discussed. The first chapter is dedicated to the asynchrony phenomenon (or temporal independence) of the two sources of information and to the different ways of handling it in HMM-based speech processing systems. The second chapter concerns the problem of combining two modalities which may have very different behaviours from a reliability point of view : Different methods for finding an optimal weighting are discussed. In the second part are reported the different experiments I have done in the acoustic-labial speech processing field. In the chapter 3 are reported my own experiments in the acoustic-labial speech recognition field and in the framework of AMIBE (French CNRS project). I also present in this chapter the results of the novel methods described in chapter 1 and 2. Chapter 4 is dedicated to acoustic-labial person authentication systems and experiments, in the framework of the European project M2VTS (program ACTS). These experiments are the very first conduced in the field of acoustic-labial speaker recognition and verification.
Ces travaux constituent une étude sur la possibilité d'intégrer les informations visuelles constituées par le mouvement et la forme des lèvres dans les systèmes de traitement automatique de la parole. Les différentes approches et méthodes relatives à cette problématique sont abordées d'une façon théorique et expérimentale. Une description technique des phénomènes d'asynchronie (ou d'indépendance temporelle) présents dans cette source d'information bimodale est tout d'abord établie. Différentes manières de gérer ces phénomènes dans les systèmes de reconnaissance de la parole sont étudiées et comparées. Nous définissons alors une nouvelle approche fondée sur un produit d'automates à transitions valuées. En outre, la combinaison de deux modalités, qui peuvent avoir des niveaux de fiabilité totalement différents, pose un certain nombre de problèmes relatifs à la pondération. Nous étudions donc les divers critères et méthodes permettant de trouver une pondération optimale. Il est également fait état de différentes expérimentations effectuées dans le domaine du traitement de la parole acoustico-labiale. Nos propres expérimentations dans le domaine de la reconnaissance de la parole bimodale et dans le projet AMIBE ( financé par le CNRS ) sont décrites. Les résultats des nouvelles méthodes développées dans ces travaux sont également présentées. Enfin, nous abordons également le domaine de la vérification d'identité acoustico-labiale. Nous présentons les résultats obtenus par le système que avons réalisé en collaboration avec l'IDIAP dans le cadre du projet européen M2VTS (programme ACTS). Ces expérimentations furent parmi les toutes premières réalisées dans le domaine de la reconnaissance et vérification acoustico-labiale du locuteur.
Fichier principal
Vignette du fichier
thesePJ98.pdf (996.64 Ko) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

tel-02152912 , version 1 (11-06-2019)

Identifiers

  • HAL Id : tel-02152912 , version 1

Cite

Pierre Jourlin. APPROCHE BIMODALE DU TRAITEMENT AUTOMATIQUE DE LA PAROLE : APPLICATION A LA RECONNAISSANCE DU MESSAGE ET DU LOCUTEUR. Informatique et langage [cs.CL]. Université d'Avignon et des Pays de Vaucluse, 1998. Français. ⟨NNT : ⟩. ⟨tel-02152912⟩

Collections

UNIV-AVIGNON LIA
99 View
116 Download

Share

Gmail Facebook Twitter LinkedIn More