Présentation
RÉSUMÉ
Des progrès importants ont été faits ces dernières années concernant les taux de reconnaissance de la parole (proches de ceux d’un être humain), mais le niveau de compréhension demeure très faible. Les systèmes sont fondés sur une modélisation statistique de la langue parlée: modèles acoustiques de Markov cachés (Hidden Markov Models, HMM) et modèles n-grammes mémorisant les probabilités conditionnelles de séquences d’unités linguistiques. Les progrès récents proviennent du couplage de ces modèles statistiques à des modèles neuronaux profonds, comportant un grand nombre de couches cachées, entraînés à l’aide d’énorme quantité de données. Les applications concernent la dictée vocale, la transcription de médias (radio, télévision) et surtout la télématique vocale (assistants vocaux).
ABSTRACT
Great progress has recently been made in speech recognition performance (close to that of humans), but the level of understanding of present systems remains very low. Such systems are based on statistical modeling of speech: Hidden Markov Models (HMM) for acoustics, and n-gram models storing the conditional probabilities of sequences of linguistic units. Recent progress has been achieved by coupling classical HMMs with deep neural networks that are made up of a large number of hidden layers and trained by deep learning algorithms using very large amounts of training data. Applications concern mainly text dictation, transcription of media (radio, television) and especially vocal telematics.
Auteur(s)
-
Jean-Paul HATON :
INTRODUCTION
1 Caractéristiques de la communication parlée homme-machine
2 Domaines de la reconnaissance automatique de la parole
2.1 Historique
2.2 Applications
3 Analyse du signal de parole
3.1 Méthodes générales
3.2 Méthodes avec modélisation
3.3 Tendances actuelles
4 Reconnaissance de mots
4.1 Principe général
4.2 Normalisation temporelle
4.3 Modélisation stochastique
4.4 Modèles neuromimétiques
5 Décodage acoustico-phonétique
6 Reconnaissance et compréhension de la parole continue
6.1 Position du problème
6.2 Modèles et architectures pour la reconnaissance de phrases
6.3 Approche bayésienne
6.4 Systèmes de dialogue
7 Méthodes robustes pour la reconnaissance
7.1 Position du problème
7.2 Méthodes de prétraitement du signal
7.3 Transformation de systèmes
7.4 Méthodes de paramétrisation robustes
8 Perspectives et conclusion
Pour en savoir plus
KEYWORDS
Hidden Markov Models (HMM) | deep neural networks | deep learning
VERSIONS
- Version archivée 2 de nov. 2012 par Jean-Paul HATON
- Version courante de oct. 2018 par Jean-Paul HATON
DOI (Digital Object Identifier)
CET ARTICLE SE TROUVE ÉGALEMENT DANS :
Accueil > Ressources documentaires > Archives > [Archives] Technologies logicielles et architecture des systèmes > Reconnaissance de la parole et dialogue oral homme-machine
Cet article fait partie de l’offre
Traçabilité
(51 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
Cet article fait partie de l’offre
Traçabilité
(51 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Cet article fait partie de l’offre
Traçabilité
(51 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive