Quand les probabilités font progresser l’analyse sémantique des textes

[Tribune] Jérôme Mainka - Antidot

En à peine dix ans, les techniques probabilistes ont propulsé les capacités des systèmes de traduction automatiques. Ces résultats ont encouragé les chercheurs à appliquer cette approche à d’autres tâches au sein du traitement automatisé du langage. Selon Jérôme Mainka, directeur de la recherche chez Antidot, le LDA (Latent Dirichlet Allocation) est l’un des concepts les plus prometteurs.

« Au commencement était le Verbe… et le Verbe s’est fait chair. » Et les hommes ont assemblé des mots pour s’exprimer. Le langage est une fonction qui nous semble tellement élémentaire qu’elle a été l’un des premiers grands chantiers de l’Intelligence Artificielle. En effet, dès la fin des années cinquante, l’expérience de Georgetown, menée notamment par IBM, a suscité un espoir démesuré : « within three or five years, machine translation would be a solved problem ». Cet espoir fut à la hauteur de la désillusion provoquée par les faibles résultats constatés.

Cinquante ans plus tard, où en sommes-nous ?

Depuis ses débuts, la description formelle des langues en vue de leur utilisation dans des systèmes automatisés a montré ses limites. L’utilisation exclusive de grammaires formelles est en effet incapable de saisir la complexité et les nuances d’une langue. La principale difficulté réside en un seul mot : ambiguïté. Les rustines techniques ne manquent pas pour tenter de contourner le problème et les années soixante-dix et quatre-vingt ont été particulièrement riches dans la mise en place de systèmes de règles sémantiques, supposées permettre une plus grande précision dans l’analyse de la langue. Ces systèmes n’ont pourtant apporté que des améliorations marginales dans le traitement automatisé de la langue.

L’arme fatale

En fait, la « balle d’argent » semble avoir été tirée par un curieux fusil que le monde de l’informatique et de l’Intelligence Artificielle semblait avoir jusque-là négligé : la théorie des probabilités. Avec l’introduction de modèles de langue probabilistes, Google, pour sa première participation en 2008, a classé son système de traduction automatique à la première place de toutes les tâches de la campagne Open Machine Translation du NIST : il s’agissait de réaliser des traductions de l’arabe vers l’anglais, du chinois vers l’anglais, de l’ourdou vers l’anglais, de l’anglais vers le chinois. En à peine dix ans, les techniques probabilistes ont propulsé les capacités des systèmes de traduction automatiques à des hauteurs que quarante ans de systèmes formels n’avaient fait qu’entrevoir.

Le LDA pour les nuls

Ces résultats ont encouragé les chercheurs à appliquer l’approche probabiliste à d’autres tâches au sein du traitement automatisé du langage. Et l’un des concepts les plus prometteurs dans ce domaine est le LDA, ou Latent Dirichlet Allocation. Nous nous plaçons cette fois-ci dans le cadre d’un grand nombre de documents, ce qu’on appelle un corpus.Chaque document est vu comme un « sac de mots ». Le paragraphe précédent peut par exemple être vu comme un document dans lequel le mot « automatisé » apparaît 1 fois, et le mot « systèmes », 2 fois. On voit qu’il est assez trivial de considérer un document comme une distribution de probabilité sur l’ensemble des mots du corpus. Si j’ai le document « a b a c », je peux considérer ce document comme une distribution des mots « a », « b », « c » et « d » avec les probabilités 2/4, 1/4, 1/4 et 0.Cette approche est la base des algorithmes de pertinence des moteurs de recherche en texte intégral. Mais l’idée de LDA est qu’au lieu de considérer un document comme une distribution sur des mots, on le considère comme une distribution de probabilités sur des topics (sujets), eux-mêmes vus comme des distributions sur les mots. Vu ainsi, un document est alors un « sac de sujets » dont chacun est lui-même un « sac de mots ».

L’originalité du LDA réside dans le fait qu’il s’agit d’un modèle génératif. Etant donné un certain nombre de paramètres, on est capable de générer une distribution particulière (que ce soit pour la distribution de topics dans un document, ou pour la distribution de termes dans un topic). Cet aspect génératif est important car il permet d’effectuer très rapidement l’analyse d’un nouveau document à partir d’un modèle existant, sans avoir à recalculer les paramètres du modèle.

Par Jérôme Mainka, Directeur de la Recherche chez Antidot