Vers le multilinguisme
Transformer : des réseaux de neurones pour le traitement automatique des langues

H3735 v1 Article de référence

Vers le multilinguisme
Transformer : des réseaux de neurones pour le traitement automatique des langues

Auteur(s) : François YVON

Date de publication : 10 avr. 2026 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - Machines à écrire : modèles de langue

1.1 - Filtrage des pourriels
1.2 - Ordre des mots
1.3 - Modélisations neuronales : les contextes deviennent numériques
1.4 - Questions de vocabulaire

2 - Le Modèle Transformer

2.1 - L’attention, un mécanisme fondamental
2.2 - Le Transformer causal comme pur modèle de langue
2.3 - BERT et ses clones
2.4 - Calculs du Transformer

Tableau 1
2.5 - Conclusion

3 - Vers le multilinguisme

3.1 - Traduction automatique neuronale : génération conditionnelle de textes
3.2 - Représentations multilingues, traductions multilingues
3.3 - Traduire toutes les langues
3.4 - La traduction comme modèle

4 - Des « modèles de fondation » aux « dialogueurs »

4.1 - Instructions et démonstrations : élaboration de la requête
4.2 - Après le pré-apprentissage
4.3 - Stratégies d’inférence et algorithmes de génération

5 - Conclusion

6 - Glossaire

7 - Sigles, notations et symboles

Bibliographie & annexes

Présentation

RÉSUMÉ

Cet article présente un survol de l'état de l'art en traitement automatique des langues, en explorant une architecture computationnelle, le modèle Transformer, qui joue un rôle central dans une large gamme d'applications. Cette architecture condense de nombreuses avancées des méthodes d'apprentissage neuronales et peut être exploitée de multiples manières : pour apprendre à représenter les entités linguistiques ; pour générer des énoncés cohérents et répondre à des questions ; pour réaliser des transformations des énoncés, une illustration étant la traduction automatique ; pour développer des agents conversationnels capables de répondre à des questions et d’accomplir, à la demande, des tâches diverses. Ces facettes de l'architecture seront successivement présentées, ce qui permettra également d'évoquer ses limitations.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

François YVON : Directeur de recherche, Sorbonne Université, CNRS, ISIR, France

INTRODUCTION

Les technologies linguistiques figurent en bonne place parmi les applications de l’intelligence artificielle (IA) et touchent aujourd’hui le grand public. Elles sont essentielles pour accéder efficacement aux informations textuelles disponibles sur le Web ou dans les grandes bases documentaires. Elles permettent de nouvelles formes d’interactions avec la machine, par la voix ou par le biais de dispositifs d’aide à la saisie ou à la rédaction. Elles facilitent aussi la communication avec d’autres humains, par exemple avec les systèmes de traduction automatique. De manière plus souterraine, ces algorithmes organisent et sélectionnent la masse de textes et d’enregistrements audio qui circulent sur la toile et sur les réseaux sociaux. Elles transforment ainsi la gestion de ces données.

Cette transition s’est accélérée au fur et à mesure que ces technologies devenaient plus performantes, pour des utilisations toujours plus larges et variées. Ces progrès résultent de la conjonction de plusieurs facteurs : d’une part, le développement d’algorithmes d’apprentissage automatique de plus en plus sophistiqués, capables de tirer profit de l’amélioration des dispositifs matériels (hardware) de calcul ; d’autre part, la possibilité d’accéder à de très grandes masses de données textuelles, annotées ou non annotées, pour réaliser ces apprentissages.

Parmi les algorithmes, les algorithmes neuronaux, en particulier l’architecture Transformer, figurent au premier rang. Cette architecture est devenue centrale pour réaliser trois types de traitements qui jusqu’alors nécessitaient des composants dédiés. En premier lieu, les algorithmes de fouille de texte et de recherche d’information bénéficient de la richesse des représentations internes calculées par ce modèle. Ensuite, les algorithmes d’analyse linguistique tirent parti de la capacité des Transformers à prendre en compte des dépendances à très longue distance. Enfin, les algorithmes de génération de texte utilisent ces modèles, principalement pour leur capacité prédictive.

De plus, cette architecture se prête au traitement de données orales, voire multimodales, et permet des calculs efficaces à très grande échelle. On comprend mieux pourquoi ce modèle s’est imposé comme le véritable couteau suisse de l’ingénieur linguiste.

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

MOTS-CLÉS

Traitement automatique des langues apprentissage automatique Modèles de langue Traduction automatique neuronale

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h3735

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

Accueil > Ressources documentaires > Technologies de l'information > Technologies logicielles Architectures des systèmes > Intelligence artificielle : concepts et méthodes d'apprentissage > Transformer : des réseaux de neurones pour le traitement automatique des langues > Vers le multilinguisme

Accueil > Ressources documentaires > Innovation > Innovations technologiques > Innovations en électronique et TIC > Transformer : des réseaux de neurones pour le traitement automatique des langues > Vers le multilinguisme

Lecture en cours
Présentation

Page
suivante

Des « modèles de fondation » aux « dialogueurs »

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(65 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

3. Vers le multilinguisme

3.1 Traduction automatique neuronale : génération conditionnelle de textes

HAUT DE PAGE

3.1.1 Modèle encodeur-décodeur simple

Le modèle Transformer est initialement présenté dans un contexte de traduction automatique (TA) . Cette application correspond formellement à la génération (en langue cible) d’une phrase $e$ traduisant la phrase source $f$ en entrée. Exprimé comme une décision probabiliste, ce problème consiste à trouver la meilleure sortie étant donné $f$ , soit :

e * = {argmax}_{e} P (e | f) = {argmax}_{e} Π_{t} P (e_{t ...}

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

Lecture en cours
Vers le multilinguisme

Page
précédenteLe Modèle Transformer

Page
suivante

Des « modèles de fondation » aux « dialogueurs »

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(65 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

BIBLIOGRAPHIE

(1) - JELINEK (F.) - Statistical methods for speech recognition. - The MIT Press (1997).
(2) - JELINEK (F.), MERCER (M.) - Interpolated estimation of Markov source parameters from sparse data. - Proceedings of the workshop on pattern recognition in practice, p. 381-397 (1980).
(3) - ROSENFELD (R.) - Two decades of statistical language modeling: Where do we go from here? - Proceedings of the IEEE, 88(8), p. 1270-1278 (2000).
(4) - CHARNIAK (E.) - Statistical language learning. - The MIT Press (1993).
(5) - EISENSTEIN (J.) - Natural language processing. - The MIT Press (2019).
(6) - JURAFSKY (D.), MARTIN (J.H.) - Speech and language processing. - Prentice Hall (2000).
...

DANS NOS BASES DOCUMENTAIRES

ANNEXES

1 Annuaire

1 Annuaire

Principaux acteurs français

Centres de compétence

INRIA Centre de Paris

https://www.inria.fr/fr/centre-inria-de-paris

Institut des Systèmes Intelligents et de Robotique (Sorbonne Université et CNRS)

https://www.isir.upmc.fr/

Laboratoire d'Informatique de Grenoble (université Grenoble Alpes et CNRS)

https://www.liglab.fr/fr

Laboratoire interdisciplinaire des Sciences du Numérique (université Paris Saclay et CNRS)

https://www.lisn.upsaclay.fr/

Laboratoire Informatique et Systèmes (université Aix-Marseille et CNRS)

https://www.lis-lab.fr/

Laboratoire Lorrain de Recherche en Informatique et ses Applications (université de Lorraine et CNRS)

https://www.loria.fr/

Laboratoire des Sciences du Numérique de Nantes (université de Nantes et CNRS)

https://www.ls2n.fr/

Industriels

Facebook AI Research (Paris)

https://ai.meta.com/research/fair-paris/

Linagora (Toulouse)

https://linagora.com/

Lighton (Paris)

https://www.lighton.ai/fr/home

Mistral AI (Paris)

https://mistral.ai/fr

Naver Labs (Grenoble)

https://europe.naverlabs.com/

Pleias (Paris)

https://pleias.fr/

Systran by Chapsvision (Paris)

https://www.chapsvision.com/

Autres acteurs dans le monde

Alibaba (Hangzhou, Chine)

https://www.alibabacloud.com/

Anthrop/c (San Francisco, USA)

https://www.anthropic.com/

Cohere (Toronto, Canada)

https://cohere.com/

DeepSeek (Hangzhou, Chine)

https://www.deepseek.com/

Google (Mountain View, USA)

https://www.google.com

Huawei (Shenzhen, Chine)

https://www.huawei.com/en/

HuggingFace (New York, USA)

https://huggingface.co/

Microsoft (Redmond, USA)

https://copilot.microsoft.com/

Nvidia (Santa Clara, USA)

https://www.nvidia.com/

Open AI (Seattle, USA)

https://openai.com/

Tencent (Shenzhen, Chine)

https://tencent.com

...

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(65 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Contenus associés

Vers le multilinguisme Transformer : des réseaux de neurones pour le traitement automatique des langues

RÉSUMÉ

Auteur(s)

INTRODUCTION

MOTS-CLÉS

DOI (Digital Object Identifier)

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

3. Vers le multilinguisme

BIBLIOGRAPHIE

DANS NOS BASES DOCUMENTAIRES

ANNEXES

Vers le multilinguisme
Transformer : des réseaux de neurones pour le traitement automatique des langues