Les technologies linguistiques figurent en bonne place parmi les applications de l’intelligence artificielle (IA) et touchent aujourd’hui le grand public. Elles sont essentielles pour accéder efficacement aux informations textuelles disponibles sur le Web ou dans des grandes bases documentaires ; elles permettent de nouvelles formes d’interactions avec la machine, par la voix ou par le biais de dispositifs d’aide à la saisie ou à la rédaction ; elles nous aident à communiquer avec d’autres humains, par exemple par le biais de systèmes de traduction automatique ; de manière plus souterraine, ces algorithmes structurent, organisent, filtrent, sélectionnent, transforment et rendent possible la gestion des monceaux de textes et d’enregistrements audio qui circulent continuellement sur la toile ou sur les réseaux sociaux.
Cette transition s’est accélérée au fur et à mesure que ces technologies devenaient progressivement plus performantes pour des utilisations toujours plus larges et variées. Ces progrès résultent de la conjonction de plusieurs facteurs : d’une part le développement d’algorithmes d’apprentissage automatique de plus en plus sophistiqués, capables de tirer profit de l’amélioration des dispositifs matériel (hardware) de calcul ; d’autre part la possibilité d’accéder à de très grandes masses de données textuelles, annotées ou non annotées, pour réaliser ces apprentissages. Parmi les algorithmes, les algorithmes neuronaux et en particulier l’architecture Transformer figurent au premier rang. Cette architecture est en effet devenue centrale pour réaliser trois types de traitements qui jusqu’alors nécessitaient des architectures dédiées : d’une part les algorithmes de fouille de texte et de recherche d’information, qui bénéficient de la richesse des représentations internes calculées par ce modèle, ensuite les algorithmes d’analyse linguistique qui tirent parti de la capacité des Transformers à prendre en compte des dépendances à très longue distance, enfin les algorithmes de génération de texte, qui utilisent ces modèles principalement pour leur capacité prédictive. Si l’on ajoute que cette même architecture se prête également au traitement de données orales, voire multimodales, et qu’elle permet des calculs efficaces à très grande échelle, on comprend mieux pourquoi ce modèle s’est imposé comme le véritable couteau suisse de l’ingénieur linguiste.
Points clés
Domaine : Transformers pour le traitement automatique des langues et de la parole
Degré de diffusion de la technologie : Croissance
Technologies impliquées : Apprentissage automatique, réseaux neuronaux
Domaines d'application : Traduction automatique, recherche d'information, systèmes de dialogue, transcription vocale, etc.
Principaux acteurs français :
Centres de compétence : INRIA Centre de Paris, laboratoire d'Informatique de Grenoble (université Grenoble Alpes et CNRS), laboratoire interdisciplinaire des Sciences du Numérique (université Paris Saclay et CNRS), LIP6 (Sorbonne Université et CNRS), laboratoire Informatique et Systèmes (université Aix-Marseille et CNRS)
Industriels : Facebook AI Research (Paris), Naver Labs (Grenoble), Systran (Paris)
Autres acteurs dans le monde : Google (Mountain View, USA), Huawei (Shenzhen, Chine), HuggingFace (New York, USA), Microsoft (Redmond, USA), Nvidia (Santa Clara, USA), Open AI (Seattle, USA), Tencent (Shenzhen, Chine)
Contact : [email protected]