Conclusion
Optimiser l’IA générative avec le RAG - La génération de réponses à partir de LLMs, augmentée par la recherche d’information

H6042 v1 Article de référence

Conclusion
Optimiser l’IA générative avec le RAG - La génération de réponses à partir de LLMs, augmentée par la recherche d’information

Auteur(s) : Patrice BELLOT

Date de publication : 10 oct. 2025 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - Recherche d’information classique

1.1 - Modèles « sacs de mots » et BM-25
1.2 - Indexation

2 - (Grands) modèles de langue

2.1 - Modèles encodeurs pour la compréhension et la représentation de textes
2.2 - Modèles décodeurs pour la génération de textes
2.3 - Entrepôts de LLMs

3 - Processus génératif augmenté par la recherche d’information

3.1 - Architecture d’un système RAG de base
3.2 - Module de récupération Retriever
3.3 - Augmentation et génération via un prompt avec un contexte enrichi

4 - Architectures RAG avancées

4.1 - Stratégies dynamiques selon la nature des questions
4.2 - RAG agentique adaptatif
4.3 - GraphRAG : le RAG graphique

5 - Évaluation d’une solution RAG

5.1 - Évaluation des pré-traitements
5.2 - Évaluation du module Retriever
5.3 - Évaluation de la réponse générée
5.4 - Des collections de test adaptées au RAG

6 - Solutions logicielles et exemples

6.1 - Plateformes SaaS et solutions complètes
6.2 - Environnements et bibliothèques pour un RAG sur mesure
6.3 - Exemples

7 - Conclusion

Bibliographie & annexes

Présentation

RÉSUMÉ

La recherche d’information couvre de nombreuses applications qui vont de la recherche documentaire à partir de requêtes booléennes à celle de la génération et l’extraction de réponses précises à des questions en langue naturelle. Elle s’applique à des textes, des images ou de l’audio et peut-être interactive, sous forme de dialogues avec un agent conversationnel. Cet article s’intéresse au croisement de la recherche d’information avec l’IA générative, ce que l’on nomme génération augmentée (de réponses) par la recherche d’information (RAG). Le RAG permet d’assister la génération de réponses à partir d’un grand modèle de langue et de sources d’informations qui peuvent être privées. Les grands modèles de langue et les architectures RAG sont présentées (RAG agentique, GraphRAG...), tout comme les nombreuses stratégies pouvant être suivies. Ce couplage entre apprentissage machine neuronal, traitement automatique des langues et recherche d’information traditionnelle nécessite de repenser les processus de recherche, d’indexation et de stockage des données au moyen d’entrepôts de données, d’APIs et d’environnements logiciels ad-hoc. Même si elles demeurent perfectibles dans certaines situations et si leur déploiement est rarement aisé, ces solutions sont désormais matures. Elles sont discutées sous un angle scientifique et technologique.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Patrice BELLOT : Professeur des Universités - Aix-Marseille Université, CNRS, Polytech, Marseille, France

INTRODUCTION

Sans l’IA générative et la génération de réponses assistée, la recherche d’information est réalisable à l’aide de moteurs de recherche qui, à partir de documents non structurés, répondent aux requêtes seulement par des listes de documents, ou bien par l’interrogation de bases de données, qui nécessitent une organisation complexe et coûteuse des données sources. Le RAG (Retrieval Augmented Generation) est une troisième voie, qui permet d’intégrer la recherche d’information aux usages majeurs des agents conversationnels.

Les années 2010-2020 ont vu l’émergence d’approches de l’apprentissage machine neuronal et du traitement automatique des langues, qui ont rapidement été exploitées pour la recherche et l’extraction d’information et, plus largement encore, pour l’ingénierie des connaissances. Les grands modèles de langue aident non seulement à obtenir des représentations sémantiques de documents, mais aussi, sous leur forme générative, à créer des réponses fluides et compréhensibles à des questions complexes, exprimées sous forme de « prompts ».

Malheureusement, le coût d’entraînement des grands modèles de langue limite cette opération à une poignée d’acteurs de l’IA qui, outre le fait de disposer d’infrastructures de calcul hors normes, exploitent des données qui s’étendent bien au-delà du seul Web public. Même si l’affinage des grands modèles de langue pré-entraînés et diffusés librement est une opération moins coûteuse qu’un entraînement complet, et permet une adaptation à des domaines de spécialité ou à des données privées, il n’est pas suffisant pour déployer des moteurs de recherche sûrs. En effet, l’affinage doit demeurer léger, sous peine de rendre le modèle incapable de générer du texte compréhensible. Un modèle, même affiné, reste tributaire de ses données d’entraînement d’origine. Prétendre vouloir répondre à des questions précises à l’aide d’un modèle génératif seul entraîne ainsi un risque grand d’obtenir des réponses obsolètes, erronées (hallucinations), ou confuses, du seul fait de la présence d’informations contradictoires dans les données d’entraînement. En outre, exploitées sans précaution, ces masses de données reflètent des biais sociétaux majeurs, et mélangent sans discernement opinions et fausses informations.

À défaut d’être une solution miracle et universelle, le RAG permet de réduire les risques qui viennent d’être énoncés. L’idée principale est de forcer le grand modèle de langue à générer des réponses dont les informations proviennent d’un ensemble de données présélectionnées à la volée en fonction de la requête. Les connaissances générales du modèle ne doivent servir qu’à assurer la compétence linguistique utile à la génération d’une réponse compréhensible.

La majeure partie de cet article est consacrée à la description d’un système RAG, de manière à permettre la création de prototypes logiciels fonctionnels, à partir d’une bonne compréhension des principes théoriques, et de la connaissance des solutions réutilisables disponibles librement. Les solutions décrites dans cet article se concentrent sur l’usage du RAG pour des documents textuels, mais la disponibilité de modèles fondation et de modèles multimodaux assure un transfert vers des données comprenant des données orales, des vidéos ou des codes sources.

Le § 1 introduit la recherche d’information sous sa forme traditionnelle, de manière à pouvoir comprendre son rôle dans un système RAG, et comment ce dernier peut être intégré à une solution de recherche existante. Le § 2 concerne les grands modèles de langue et les familles de modèles. Elle permet d’introduire le § 3 , consacré à l’emploi de ces modèles, non seulement pour représenter les documents sous une forme compatible avec une recherche dite sémantique, mais aussi pour générer les réponses. Le § 4 présente des architectures plus avancées. Elles concernent des stratégies et des architectures dynamiques tenant compte de la nature des questions posées : le RAG agentique, qui assure flexibilité et extensibilité au système de recherche, et le RAG graphique (GraphRAG), qui exploite des bases de données orientées graphe, et peut identifier des relations lointaines entre entités dans les documents. Le § 5 est consacré à l’évaluation du RAG, et le § 6 présente des solutions logicielles, des plateformes SaaS et des environnements et bibliothèques Python pour un RAG sur mesure.

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

MOTS-CLÉS

Recherche d’information IA RAG RAG agentique GraphRAG Grand modèle de langue LLM Système question-réponse Prompt Plongement Base de données vectorielle Agent conversationnel

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h6042

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

Accueil > Ressources documentaires > Technologies de l'information > Technologies logicielles Architectures des systèmes > Intelligence artificielle : concepts et méthodes d'apprentissage > Optimiser l’IA générative avec le RAG - La génération de réponses à partir de LLMs, augmentée par la recherche d’information > Conclusion

Lecture en cours
Présentation

Page
suivante

Recherche d’information classique

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

7. Conclusion

Le RAG constitue une solution majeure de la recherche d’information à l’heure de l’IA générative. Permettant de faire en sorte qu’un grand modèle de langue génère des réponses à partir de connaissances et de documents précis, ciblés ou privés, le RAG comble les lacunes d’un LLM entraîné sur des données dont on ne maîtrise pas l’origine, et qui peuvent être inexactes, ou avoir perdu leur validité. Face aux coûts importants pour entraîner ou affiner un grand modèle de langue, le RAG permet d’exploiter des modèles pré-entraînés et affinés. Il autorise une injection rapide et continue de nouvelles connaissances, dont pourra tirer profit un LLM génératif, dans l’optique de fournir des réponses fluides, ciblées et motivées.

Malgré les avancées des performances des modèles génératifs et des solutions RAG, plusieurs défis demeurent. Il est tout d’abord illusoire d’imaginer un système parfait, qui ne générerait jamais de mauvaises réponses, et qui serait sans biais. Les grands modèles de langue, entraînés sur des données qui se doivent d’être massives, afin de voir émerger des capacités de raisonnement et d’expression suffisantes, sont, par nature, sujets à des hallucinations, et pourront toujours produire des erreurs. Le RAG agentique, du fait de l’usage flexible et dynamique d’agents logiciels et d’outils IA, est une voie vers des systèmes autorisant un apprentissage continu et l’exploitation de modèles d’origines variées, simulant ainsi des communautés d’experts.

De très nombreux travaux scientifiques étudient ces questions et se penchent sur une hybridation des modèles statistiques avec des approches de raisonnement vérifiables, sur la réduction des biais d’apprentissage et la robustesse des modèles, ou encore sur l’interprétabilité humaine des réponses fournies. Il est certain que les grands modèles pré-entraînés doivent être diffusés avec la plus grande transparence possible sur la nature et l’origine des données utilisées pour leur entraînement, mais il est tout aussi indispensable que la génération de réponses s’accompagne de citations vers les sources utilisées (et que ces citations ne soient pas inventées comme c’est parfois le cas), et que l’ergonomie même des systèmes soit conçue pour permettre une maîtrise du processus et un choix...

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.