Synthèse du signal de parole
Synthèse de la parole à partir du texte
H7288 v1 Archive

Synthèse du signal de parole
Synthèse de la parole à partir du texte

Auteur(s) : Gaël RICHARD, Olivier CAPPÉ

Date de publication : 10 nov. 2003

Logo Techniques de l'Ingenieur Cet article est réservé aux abonnés
Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?

Présentation

1 - Traitements linguistiques

2 - Synthèse du signal de parole

3 - Applications

4 - Produits

  • 4.1 - Elan Speech
  • 4.2 - Babel Technologies et Infovox
  • 4.3 - AT&T
  • 4.4 - Fonix DECtalk
  • 4.5 - ScanSoft
  • 4.6 - Loquendo
  • 4.7 - Autres produits

5 - Conclusion

Sommaire

Présentation

Auteur(s)

  • Gaël RICHARD : Maître de conférences, École nationale supérieure des télécommunications (ENST, Télécom Paris)

  • Olivier CAPPÉ : Ingénieur de l’École supérieure d’électricité, - docteur en traitement du signal Chargé de recherche CNRS, ENST

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

Parallèlement à l’accroissement de la puissance de calcul des ordinateurs, on observe une tendance à la généralisation de modes d’interface de plus en plus conviviaux et naturels. À l’heure actuelle, les progrès réalisés dans le domaine des interfaces graphiques et des périphériques (souris, écran tactile) permettent à des néophytes d’utiliser des applications évoluées comme les bornes de réservation automatiques dans les gares ou les logiciels éducatifs dans les musées. Cependant, force est de constater que la plupart des interfaces courantes privilégient essentiellement le visuel et l’écrit alors même que la parole constitue un élément primordial de la communication humaine. Dans ces conditions, on conçoit aisément l’enjeu que représente la mise au point de technologies permettant de dialoguer oralement avec un ordinateur.

De manière un peu schématique, il est possible de considérer qu’un véritable dialogue oral doive faire intervenir trois éléments essentiels qui sont la capacité d’entendre et de reconnaître, celle de comprendre et de réagir et, enfin, celle de s’exprimer. La synthèse de parole correspond au troisième de ces éléments. Plus précisément, nous considérons ici la tâche qui consiste à produire, par le truchement d’un ensemble d’algorithmes, un signal acoustique intelligible par un auditeur humain (et de préférence, de qualité aussi naturelle que possible), ce à partir d’un message enregistré dans la mémoire de l’ordinateur, en général sous une forme orthographique.

Tout système de synthèse de parole à partir du texte (dit également TTS, de l’anglais « text-to-speech ») est amené à répondre, de manière plus ou moins précise et développée selon sa qualité et sa finalité, à deux types de problèmes de natures différentes :

  • les traitements linguistiques : cette première étape vise à analyser et à structurer le texte afin de déterminer un mode de prononciation cohérent, puis à transformer le texte analysé en une suite de sons de parole accompagnée d’indications concernant leur agencement ;

  • la synthèse proprement dite : cette seconde étape consiste à générer un signal acoustique qui « retranscrit » cette suite de sons tout en possédant les caractéristiques apparentes de la parole naturelle.

L’architecture générale d’un système de synthèse se compose ainsi de ces deux parties essentielles (figure 1). Les principaux modules de ces traitements sont décrits dans cet article. Bien que tous les exemples cités dans la suite soient extraits du français, il est important de souligner que les problèmes posés sont similaires pour la plupart des langues romanes, anglo-saxonnes et slaves. Les solutions retenues pour toutes ces langues s’inspirent des mêmes principes et ne diffèrent que dans le contenu linguistique des lexiques et des heuristiques contextuelles.

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


VERSIONS

Il existe d'autres versions de cet article :

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h7288

Lecture en cours
Présentation

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

2. Synthèse du signal de parole

Il existe trois grandes classes de méthodes pour réaliser la synthèse sonore à partir des informations phonético-prosodiques : la synthèse articulatoire, la synthèse par règles 2.1 et la synthèse par concaténation d’unités acoustiques 2.2. De par sa plus grande complexité, la première approche est essentiellement une voie de recherche et ne sera pas discutée ici.

2.1 Synthèse par règles

Cette approche est fondée sur un modèle de production du signal vocal, modèle commandé par un nombre restreint de paramètres. La synthèse se décompose en deux étapes : on transforme les informations phonético-prosodiques, à l’aide de règles contextuelles, en commandes permettant de spécifier l’évolution temporelle des paramètres du modèle de synthèse ; on utilise ensuite les valeurs des paramètres ainsi déterminées pour synthétiser le signal acoustique. Historiquement, cette technique a été la première à émerger, à la fin des années 1950. Elle reste toujours assez répandue, bien que les développements les plus récents soient plutôt en faveur des techniques par concaténation d’unités.

HAUT DE PAGE

2.1.1 Modèle paramétrique

La parole résulte de l’excitation des cavités supraglottiques (conduit oral, conduit nasal) par un signal acoustique créé par le flux d’air en provenance des poumons et modulé par les cordes vocales. Les modèles les plus classiques de représentation du signal de parole (modèles de type source-filtre) s’inspirent de ce mode de production en distinguant deux éléments : une source qui représente la génération du flux d’air et un filtre (au sens large) qui modélise la contribution de la partie articulatoire.

  • Caractéristiques du filtre : les cavités supraglottiques...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Lecture en cours
Synthèse du signal de parole

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - BOËFFARD (O.), D’ALESSANDRO (C.) -   *  -  « Synthèse de la parole » dans Analyse, Synthèse et codage de la parole, sous la direction de J. Mariani, Hermès (2002).

  • (2) - BOITE (R.), BOURLARD (H.), DUTOIT (T.), HANCQ (J.), LEICH (H.) -   Traitement de la parole.  -  Presses polytechniques et universitaires romandes, Lausanne (2000).

  • (3) - CHOMSKY (N.) -   Structure syntaxique.  -  Collection Point Sciences Humaines, Le Seuil (1979).

  • (4) - SPROAT (R.), MOEBIUS (B.), MAEDA (K.), TZOUKERMANN (E.) -   *  -  « Multilingual Text analysis » dans Multilingual Text-To-Speech Synthesis - The Bell Labs Approach, R. Sproat et coll. éd., Kluwer Academic Publishers (1998).

  • (5) - HARDCASTLE (W.T.), MARCHAL (A.) -   Speech Production and Speech Modeling.  -  Kluwer Academic Publishers (1990).

  • (6) - MOULINES (E.), LAROCHE (J.) -   Non-parametric...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Ressources documentaires

Modèles de Markov cachés pour l’étiquetage de séquences

Les modèles markoviens cachés sont un outil essentiel pour le traitement, l’exploration, la ...

Reconnaissance en-ligne d'écriture manuscrite

Dans cet article, est exposé un panorama de la recherche sur la reconnaissance de l'écriture manuscrite, ...

Traitement automatique des textes - Techniques linguistiques

Cet article est consacré à la présentation des techniques de traitement automatique des textes qui sont ...

Capture et analyse d’images sous Android

Les smartphones et tablettes sous Android intègrent aujourd’hui plusieurs capteurs photographiques. ...