Contactez-nous
Glossaire
Transformer : des réseaux de neurones pour le traitement automatique des langues
H3735 v1 Article de référence

Glossaire
Transformer : des réseaux de neurones pour le traitement automatique des langues

Auteur(s) : François YVON

Date de publication : 10 avr. 2026

Logo Techniques de l'Ingenieur Cet article est réservé aux abonnés
Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?

Présentation

1 - Machines à écrire : modèles de langue

2 - Le Modèle Transformer

3 - Vers le multilinguisme

4 - Des « modèles de fondation » aux « dialogueurs »

5 - Conclusion

6 - Glossaire

7 - Sigles, notations et symboles

Sommaire

Présentation

Auteur(s)

  • François YVON : Directeur de recherche, Sorbonne Université, CNRS, ISIR, France

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

Les technologies linguistiques figurent en bonne place parmi les applications de l’intelligence artificielle (IA) et touchent aujourd’hui le grand public. Elles sont essentielles pour accéder efficacement aux informations textuelles disponibles sur le Web ou dans les grandes bases documentaires. Elles permettent de nouvelles formes d’interactions avec la machine, par la voix ou par le biais de dispositifs d’aide à la saisie ou à la rédaction. Elles facilitent aussi la communication avec d’autres humains, par exemple avec les systèmes de traduction automatique. De manière plus souterraine, ces algorithmes organisent et sélectionnent la masse de textes et d’enregistrements audio qui circulent sur la toile et sur les réseaux sociaux. Elles transforment ainsi la gestion de ces données.

Cette transition s’est accélérée au fur et à mesure que ces technologies devenaient plus performantes, pour des utilisations toujours plus larges et variées. Ces progrès résultent de la conjonction de plusieurs facteurs : d’une part, le développement d’algorithmes d’apprentissage automatique de plus en plus sophistiqués, capables de tirer profit de l’amélioration des dispositifs matériels (hardware) de calcul ; d’autre part, la possibilité d’accéder à de très grandes masses de données textuelles, annotées ou non annotées, pour réaliser ces apprentissages.

Parmi les algorithmes, les algorithmes neuronaux, en particulier l’architecture Transformer, figurent au premier rang. Cette architecture est devenue centrale pour réaliser trois types de traitements qui jusqu’alors nécessitaient des composants dédiés. En premier lieu, les algorithmes de fouille de texte et de recherche d’information bénéficient de la richesse des représentations internes calculées par ce modèle. Ensuite, les algorithmes d’analyse linguistique tirent parti de la capacité des Transformers à prendre en compte des dépendances à très longue distance. Enfin, les algorithmes de génération de texte utilisent ces modèles, principalement pour leur capacité prédictive.

De plus, cette architecture se prête au traitement de données orales, voire multimodales, et permet des calculs efficaces à très grande échelle. On comprend mieux pourquoi ce modèle s’est imposé comme le véritable couteau suisse de l’ingénieur linguiste.

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


6. Glossaire

Affinage ; fine-tuning

Méthode d’apprentissage par transfert. Un modèle entraîné pour une tâche particulière (ex. : une tâche de modèle de langue) peut être transféré vers une autre tâche en prolongeant l’apprentissage avec d’autres types de données ou d’annotations.

Annotation ; labeling

Métadonnée pouvant porter sur un texte, une phrase, ou encore des mots isolés. Elle peut être de nature linguistique (morphologique, syntaxique, sémantique), ou représenter la sortie d’une tâche de traitement (par exemple la polarité d’un texte, ou encore l’équivalence sémantique entre deux phrases). Les données annotées sont nécessaires pour guider l’apprentissage supervisé.

Apprentissage par transfert ; transfer learning

Apprentissage d’un modèle probabiliste ou neuronal avec des textes annotés pour une tâche, un domaine ou une langue A, suivi de son exploitation pour traiter des textes d’un autre domaine ou d’une autre langue B.

Apprentissage avec quelques exemples ; few-shot learning

Apprentissage par entraînement minimal avec quelques exemples, en exploitant des mécanismes de transfert. Un cas extrême (zero-shot) est quand aucun exemple de la tâche n’a été présenté lors de l’apprentissage.

Modèle de langue ; language model

Distribution de probabilité sur des séquences composées d’unités prises dans un inventaire fini.

Plongement (lexical) ; (lexical) embedding

Vecteur numérique représentant un mot pour les calculs des réseaux neuronaux. Il en existe des versions non contextualisées (le même vecteur pour tous les contextes d’occurrence) et des versions contextualisées (le vecteur dépend des mots voisins).

Tâche ; task

En traitement des langues, définie par un ensemble de couples (entrée, sortie) illustrant les objectifs du traitement.

Tâche finale ; final task

Tâches permettant de satisfaire des besoins applicatifs : corriger la grammaire, répondre à des questions, générer un énoncé, en utilisant le cas échéant les résultats de tâches intermédiaires.

Tâche intermédiaire ; intermediary task

Tâche (par exemple, l’analyse syntaxique) qui permet...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Lecture en cours
Glossaire

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(68 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - JELINEK (F.) -   Statistical methods for speech recognition.  -  The MIT Press (1997).

  • (2) - JELINEK (F.), MERCER (M.) -   Interpolated estimation of Markov source parameters from sparse data.  -  Proceedings of the workshop on pattern recognition in practice, p. 381-397 (1980).

  • (3) - ROSENFELD (R.) -   Two decades of statistical language modeling: Where do we go from here?  -  Proceedings of the IEEE, 88(8), p. 1270-1278 (2000).

  • (4) - CHARNIAK (E.) -   Statistical language learning.  -  The MIT Press (1993).

  • (5) - EISENSTEIN (J.) -   Natural language processing.  -  The MIT Press (2019).

  • (6) - JURAFSKY (D.), MARTIN (J.H.) -   Speech and language processing.  -  Prentice Hall (2000).

  • ...

ANNEXES

  1. 1 Annuaire

    1 Annuaire

    Principaux acteurs français

    Centres de compétence

    INRIA Centre de Paris

    https://www.inria.fr/fr/centre-inria-de-paris

    Institut des Systèmes Intelligents et de Robotique (Sorbonne Université et CNRS)

    https://www.isir.upmc.fr/

    Laboratoire d'Informatique de Grenoble (université Grenoble Alpes et CNRS)

    https://www.liglab.fr/fr

    Laboratoire interdisciplinaire des Sciences du Numérique (université Paris Saclay et CNRS)

    https://www.lisn.upsaclay.fr/

    Laboratoire Informatique et Systèmes (université Aix-Marseille et CNRS)

    https://www.lis-lab.fr/

    Laboratoire Lorrain de Recherche en Informatique et ses Applications (université de Lorraine et CNRS)

    https://www.loria.fr/

    Laboratoire des Sciences du Numérique de Nantes (université de Nantes et CNRS)

    https://www.ls2n.fr/

    Industriels

    Facebook AI Research (Paris)

    https://ai.meta.com/research/fair-paris/

    Linagora (Toulouse)

    https://linagora.com/

    Lighton (Paris)

    https://www.lighton.ai/fr/home

    Mistral AI (Paris)

    https://mistral.ai/fr

    Naver Labs (Grenoble)

    https://europe.naverlabs.com/

    Pleias (Paris)

    https://pleias.fr/

    Systran by Chapsvision (Paris)

    https://www.chapsvision.com/

    Autres acteurs dans le monde

    Alibaba (Hangzhou, Chine)

    https://www.alibabacloud.com/

    Anthrop/c (San Francisco, USA)

    https://www.anthropic.com/

    Cohere (Toronto, Canada)

    https://cohere.com/

    DeepSeek (Hangzhou, Chine)

    https://www.deepseek.com/

    Google (Mountain View, USA)

    https://www.google.com

    Huawei (Shenzhen, Chine)

    https://www.huawei.com/en/

    HuggingFace (New York, USA)

    https://huggingface.co/

    Microsoft (Redmond, USA)

    https://copilot.microsoft.com/

    Nvidia (Santa Clara, USA)

    https://www.nvidia.com/

    Open AI (Seattle, USA)

    https://openai.com/

    Tencent (Shenzhen, Chine)

    https://tencent.com

    ...
    Logo Techniques de l'Ingenieur

    Cet article est réservé aux abonnés.
    Il vous reste 94 % à découvrir.

    Pour explorer cet article Consulter l'extrait gratuit

    Déjà abonné ?


    Article inclus dans l'offre

    "Documents numériques Gestion de contenu"

    (68 articles)

    Une base complète d’articles

    Actualisée et enrichie d’articles validés par nos comités scientifiques.

    Des contenus enrichis

    Quiz, médias, tableaux, formules, vidéos, etc.

    Des modules pratiques

    Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

    Des avantages inclus

    Un ensemble de services exclusifs en complément des ressources.

    Voir l'offre