Applications de la synthèse de parole
Synthèse de la parole à partir du texte

H7288 v2 Article de référence

Applications de la synthèse de parole
Synthèse de la parole à partir du texte

Auteur(s) : Christophe D'ALESSANDRO, Gaël RICHARD

Date de publication : 10 nov. 2013 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - Histoire de la synthèse de la parole

2 - Analyses et traitements linguistiques

2.1 - Normalisation et prétraitement
2.2 - Analyse lexicale
2.3 - Analyse morpho-syntaxique
2.4 - Analyse syntaxique
2.5 - Transcription graphème-phonème

Tableau 1

3 - Signal de parole et modèle source-filtre

3.1 - Modèle paramétrique de synthèse de parole
3.2 - Caractéristiques du filtre
3.3 - Caractéristiques de la source

4 - Prosodie

4.1 - Prosodie et syntaxe
4.2 - Calcul du rythme
4.3 - Calcul de l'intonation

5 - Synthèse acoustique

5.1 - Synthèse à formants par règles
5.2 - Synthèse non paramétrique par concaténation d'unités acoustiques
5.3 - Synthèse par diphones
5.4 - Synthèse par sélection et concaténation

Tableau 2
5.5 - Synthèse paramétrique statistique
5.6 - Construction du corpus textuel et sonore

6 - Applications de la synthèse de parole

6.1 - Exemples d'applications
6.2 - Interfaces de programmation
6.3 - Produits

7 - Évaluation de la synthèse

7.1 - Boîte noire ou boîte de verre
7.2 - Évaluation de qualité globale

8 - Conclusion

8.1 - Bilan
8.2 - Perspectives

NOTE DE L'ÉDITEUR

Cet article est la réédition actualisée de l'article du même titre, paru en 2003 et rédigé par Gaël RICHARD et Olivier CAPPÉ.

22/10/2013

RÉSUMÉ

L’objet de cet article est de proposer une vue d’ensemble de la synthèse de la parole à partir du texte (ou TTS, Text-To-Speech en Anglais), le but étant de calculer automatiquement le signal de parole correspondant à un texte donné. Les différentes étapes permettant de réaliser un tel système sont décrites tout en incluant les techniques les plus récentes, dont celles exploitant les modèles de Markov cachés. Les différentes applications de la synthèse vocale ainsi que l’offre des principaux acteurs du domaine sont également discutées.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Christophe D'ALESSANDRO : Directeur de Recherches LIMSI-CNRS, Orsay, France
Gaël RICHARD : Professeur Institut Mines-Télécom, Télécom ParisTech, CNRS-LTCI, Paris, France -

INTRODUCTION

L'objet de la synthèse de la parole à partir du texte (ou TTS, Text-To-Speech) est de calculer automatiquement le signal de parole correspondant à un texte donné. Le texte lui-même peut provenir de diverses sources : journaux, livres, systèmes de réponse vocale, de dialogue ou traduction automatique (borne interactive, assistant personnel), base de données d'un système d'information, jeu vidéo, courriers électroniques, SMS, documents butinés sur la toile, ou tout simplement texte saisi au clavier d'un ordinateur.

La réponse vocale sous sa forme la plus simple peut être un ensemble de messages préenregistrés (ou « prompts »). L'ambition de la synthèse de la parole à partir du texte est plus grande : il s'agit de calculer automatiquement les échantillons sonores correspondant à un énoncé écrit quelconque, qui n'est pas connu d'avance et qui peut être de grande taille.

Les deux versants de la synthèse de la parole sont d'une part, l'analyse et l'interprétation du texte, d'autre part, la prédiction des paramètres acoustico- phonétiques du son et la synthèse du signal proprement dite :

Analyse du texte : la première étape de la transformation d'un texte en parole implique la capacité d'analyser, de comprendre le texte écrit, ses nuances et ses connotations, la situation du discours et l'acte de parole à effectuer. En plus du texte, le contexte peut être spécifié (style de parole, émotion, attitude, type de personnage, voix spécifique...) ;
Synthèse du signal : une fois le texte analysé, il s'agit de calculer le signal acoustique qui interprète au mieux le contenu linguistique, avec une voix aussi naturelle que possible, ressemblant à un locuteur particulier, et avec les nuances d'attitude, voire d'émotion que le texte réclame. En plus du signal audio, le synthétiseur peut fournir des indications pour synchroniser le mouvement des lèvres d'un avatar ou personnage vidéo, ou les mouvements d'un robot.

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

MOTS-CLÉS

Traitement du signal linguistique

VERSIONS

Il existe d'autres versions de cet article :

Version archivée 1 de nov. 2003 par Gaël RICHARD, Olivier CAPPÉ

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v2-h7288

Lecture en cours
Présentation

Page
suivante

Évaluation de la synthèse

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

6. Applications de la synthèse de parole

6.1 Exemples d'applications

De nombreuses applications commerciales intègrent des systèmes de synthèse de parole. À l'heure actuelle, le marché principal de ce type de technique est celui des services de télécommunications. Ces services constituent l'exemple typique de situations dans lesquelles la synthèse de parole est le seul moyen par lequel un système informatique peut transmettre des informations à ses utilisateurs. Parmi les applications de la synthèse à partir du texte dans le domaine des services de télécommunications, citons :

les services de réservation ou de prise de commandes téléphoniques ;
les services d'information téléphonique pour lesquels le recours à la synthèse de parole se justifie, surtout lorsque l'information est amenée à évoluer vite, ce qui est notamment le cas pour les services bancaires (avec la fourniture, entre autres de l'état des comptes), les annonces météorologiques et routières, la lecture de mails ou de pages Internet. La synthèse de parole est aussi utilisée dans des contextes où le nombre des réponses potentielles du système est très important comme dans les applications de renseignements téléphoniques ;
les majordomes, assistants personnels, pour les téléphones mobiles ou autres terminaux, qui peuvent lire des messages reçus ou des courriers électroniques ;
une application ambitieuse est envisagée à l'heure actuelle avec la téléphonie interprétée qui devrait permettre à deux correspondants ne parlant pas la même langue de dialoguer par téléphone. Cette application fait intervenir plusieurs des grandes problématiques du traitement de la parole – reconnaissance, synthèse, et bien sûr traduction automatique.

La synthèse de la parole est aussi couramment employée dans des situations où l'utilisateur d'un système informatique n'a pas le loisir de consulter un écran, ou bien en complément de l'écran (cabine de pilotage d'un avion, systèmes industriels de fabrication, appareillage médical, etc.). Dans ce type d'applications, le rôle de la synthèse de la parole consiste principalement à faire passer des informations brèves comme les messages d'erreurs du système. Les applications dans les systèmes d'information, fixes ou mobiles sont également nombreuses :

portail vocaux d'application libre service ou de sites Internet ;
systèmes...

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.