Conclusion
Synthèse de la parole à partir du texte

H7288 v1 Archive

Conclusion
Synthèse de la parole à partir du texte

Auteur(s) : Gaël RICHARD, Olivier CAPPÉ

Date de publication : 10 nov. 2003

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - Traitements linguistiques

1.1 - Traitements syntaxiques

Tableau 1
1.2 - Transcription orthographique-phonétique
1.3 - Traitements prosodiques

2 - Synthèse du signal de parole

2.1 - Synthèse par règles
2.2 - Synthèse par concaténation d’unités acoustiques
2.3 - Modification des paramètres prosodiques

3 - Applications

4 - Produits

4.1 - Elan Speech
4.2 - Babel Technologies et Infovox
4.3 - AT&T
4.4 - Fonix DECtalk
4.5 - ScanSoft
4.6 - Loquendo
4.7 - Autres produits

5 - Conclusion

Auteur(s)

Gaël RICHARD : Maître de conférences, École nationale supérieure des télécommunications (ENST, Télécom Paris)
Olivier CAPPÉ : Ingénieur de l’École supérieure d’électricité, - docteur en traitement du signal Chargé de recherche CNRS, ENST

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

Parallèlement à l’accroissement de la puissance de calcul des ordinateurs, on observe une tendance à la généralisation de modes d’interface de plus en plus conviviaux et naturels. À l’heure actuelle, les progrès réalisés dans le domaine des interfaces graphiques et des périphériques (souris, écran tactile) permettent à des néophytes d’utiliser des applications évoluées comme les bornes de réservation automatiques dans les gares ou les logiciels éducatifs dans les musées. Cependant, force est de constater que la plupart des interfaces courantes privilégient essentiellement le visuel et l’écrit alors même que la parole constitue un élément primordial de la communication humaine. Dans ces conditions, on conçoit aisément l’enjeu que représente la mise au point de technologies permettant de dialoguer oralement avec un ordinateur.

De manière un peu schématique, il est possible de considérer qu’un véritable dialogue oral doive faire intervenir trois éléments essentiels qui sont la capacité d’entendre et de reconnaître, celle de comprendre et de réagir et, enfin, celle de s’exprimer. La synthèse de parole correspond au troisième de ces éléments. Plus précisément, nous considérons ici la tâche qui consiste à produire, par le truchement d’un ensemble d’algorithmes, un signal acoustique intelligible par un auditeur humain (et de préférence, de qualité aussi naturelle que possible), ce à partir d’un message enregistré dans la mémoire de l’ordinateur, en général sous une forme orthographique.

Tout système de synthèse de parole à partir du texte (dit également TTS, de l’anglais « text-to-speech ») est amené à répondre, de manière plus ou moins précise et développée selon sa qualité et sa finalité, à deux types de problèmes de natures différentes :

les traitements linguistiques : cette première étape vise à analyser et à structurer le texte afin de déterminer un mode de prononciation cohérent, puis à transformer le texte analysé en une suite de sons de parole accompagnée d’indications concernant leur agencement ;
la synthèse proprement dite : cette seconde étape consiste à générer un signal acoustique qui « retranscrit » cette suite de sons tout en possédant les caractéristiques apparentes de la parole naturelle.

L’architecture générale d’un système de synthèse se compose ainsi de ces deux parties essentielles (figure 1). Les principaux modules de ces traitements sont décrits dans cet article. Bien que tous les exemples cités dans la suite soient extraits du français, il est important de souligner que les problèmes posés sont similaires pour la plupart des langues romanes, anglo-saxonnes et slaves. Les solutions retenues pour toutes ces langues s’inspirent des mêmes principes et ne diffèrent que dans le contenu linguistique des lexiques et des heuristiques contextuelles.

Cet article est réservé aux abonnés.
Il vous reste 94 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

VERSIONS

Il existe d'autres versions de cet article :

Version courante de nov. 2013 par Christophe D'ALESSANDRO, Gaël RICHARD

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h7288

Lecture en cours
Présentation

Page
suivante

Traitements linguistiques

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

5. Conclusion

Bien que la liste des applications actuelles des systèmes de synthèse de parole soit assez conséquente, il serait faux de croire que celle-ci constitue une technique entièrement maîtrisée. Cependant, les travaux de recherche menés depuis des années ont permis d’atteindre une qualité qui se rapproche de celle de la voix naturelle.

La qualité de synthèse est un problème crucial. Il se manifeste essentiellement par le fait que la compréhension de la parole synthétique exige, de la part de l’auditeur, un effort plus important que pour la parole naturelle. Cet effort supplémentaire est rendu nécessaire par les artefacts éventuels du traitement, les erreurs de prononciation, la prosodie insuffisamment expressive, ou de manière plus générale, par le manque de naturel de l’élocution. Si la qualité des systèmes de synthèse par sélection d’unités non uniformes est suffisante pour de nombreuses applications (lecture de mails, de messages d’information météo ou de navigation, etc.) elle reste encore trop faible pour permettre une utilisation « prolongée » de la parole de synthèse ou pour des tâches demandant une plus grande expressivité (lecture de livres par exemple).

Un exemple du type de problèmes qui restent associés à la synthèse de parole est le pourcentage important de prononciation incorrecte pour les noms propres. Ce problème n’est pas totalement inconnu dans le cas de la parole naturelle (il est même familier pour les enseignants confrontés à l’épreuve de l’appel en début d’année) ; toutefois, un locuteur humain est capable d’éliminer une proportion importante des erreurs potentielles en faisant appel à ses connaissances culturelles (notamment à celles qui concernent l’origine géographique du nom).

Les travaux en cours s’attachent ainsi à améliorer la variabilité de la voix de synthèse au cours du temps, à lui ajouter des possibilités d’expressivité accrue (voix joyeuse/triste, voix en colère/ calme, etc.) et à développer des méthodes de conversion de voix permettant de créer rapidement de nouvelles voix de synthèse.

HAUT DE PAGE

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.