Évaluation d’une solution RAG
Optimiser l’IA générative avec le RAG - La génération de réponses à partir de LLMs, augmentée par la recherche d’information

H6042 v1 Article de référence

Évaluation d’une solution RAG
Optimiser l’IA générative avec le RAG - La génération de réponses à partir de LLMs, augmentée par la recherche d’information

Auteur(s) : Patrice BELLOT

Date de publication : 10 oct. 2025 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - Recherche d’information classique

1.1 - Modèles « sacs de mots » et BM-25
1.2 - Indexation

2 - (Grands) modèles de langue

2.1 - Modèles encodeurs pour la compréhension et la représentation de textes
2.2 - Modèles décodeurs pour la génération de textes
2.3 - Entrepôts de LLMs

3 - Processus génératif augmenté par la recherche d’information

3.1 - Architecture d’un système RAG de base
3.2 - Module de récupération Retriever
3.3 - Augmentation et génération via un prompt avec un contexte enrichi

4 - Architectures RAG avancées

4.1 - Stratégies dynamiques selon la nature des questions
4.2 - RAG agentique adaptatif
4.3 - GraphRAG : le RAG graphique

5 - Évaluation d’une solution RAG

5.1 - Évaluation des pré-traitements
5.2 - Évaluation du module Retriever
5.3 - Évaluation de la réponse générée
5.4 - Des collections de test adaptées au RAG

6 - Solutions logicielles et exemples

6.1 - Plateformes SaaS et solutions complètes
6.2 - Environnements et bibliothèques pour un RAG sur mesure
6.3 - Exemples

7 - Conclusion

Bibliographie & annexes

Présentation

RÉSUMÉ

La recherche d’information couvre de nombreuses applications qui vont de la recherche documentaire à partir de requêtes booléennes à celle de la génération et l’extraction de réponses précises à des questions en langue naturelle. Elle s’applique à des textes, des images ou de l’audio et peut-être interactive, sous forme de dialogues avec un agent conversationnel. Cet article s’intéresse au croisement de la recherche d’information avec l’IA générative, ce que l’on nomme génération augmentée (de réponses) par la recherche d’information (RAG). Le RAG permet d’assister la génération de réponses à partir d’un grand modèle de langue et de sources d’informations qui peuvent être privées. Les grands modèles de langue et les architectures RAG sont présentées (RAG agentique, GraphRAG...), tout comme les nombreuses stratégies pouvant être suivies. Ce couplage entre apprentissage machine neuronal, traitement automatique des langues et recherche d’information traditionnelle nécessite de repenser les processus de recherche, d’indexation et de stockage des données au moyen d’entrepôts de données, d’APIs et d’environnements logiciels ad-hoc. Même si elles demeurent perfectibles dans certaines situations et si leur déploiement est rarement aisé, ces solutions sont désormais matures. Elles sont discutées sous un angle scientifique et technologique.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Patrice BELLOT : Professeur des Universités - Aix-Marseille Université, CNRS, Polytech, Marseille, France

INTRODUCTION

Sans l’IA générative et la génération de réponses assistée, la recherche d’information est réalisable à l’aide de moteurs de recherche qui, à partir de documents non structurés, répondent aux requêtes seulement par des listes de documents, ou bien par l’interrogation de bases de données, qui nécessitent une organisation complexe et coûteuse des données sources. Le RAG (Retrieval Augmented Generation) est une troisième voie, qui permet d’intégrer la recherche d’information aux usages majeurs des agents conversationnels.

Les années 2010-2020 ont vu l’émergence d’approches de l’apprentissage machine neuronal et du traitement automatique des langues, qui ont rapidement été exploitées pour la recherche et l’extraction d’information et, plus largement encore, pour l’ingénierie des connaissances. Les grands modèles de langue aident non seulement à obtenir des représentations sémantiques de documents, mais aussi, sous leur forme générative, à créer des réponses fluides et compréhensibles à des questions complexes, exprimées sous forme de « prompts ».

Malheureusement, le coût d’entraînement des grands modèles de langue limite cette opération à une poignée d’acteurs de l’IA qui, outre le fait de disposer d’infrastructures de calcul hors normes, exploitent des données qui s’étendent bien au-delà du seul Web public. Même si l’affinage des grands modèles de langue pré-entraînés et diffusés librement est une opération moins coûteuse qu’un entraînement complet, et permet une adaptation à des domaines de spécialité ou à des données privées, il n’est pas suffisant pour déployer des moteurs de recherche sûrs. En effet, l’affinage doit demeurer léger, sous peine de rendre le modèle incapable de générer du texte compréhensible. Un modèle, même affiné, reste tributaire de ses données d’entraînement d’origine. Prétendre vouloir répondre à des questions précises à l’aide d’un modèle génératif seul entraîne ainsi un risque grand d’obtenir des réponses obsolètes, erronées (hallucinations), ou confuses, du seul fait de la présence d’informations contradictoires dans les données d’entraînement. En outre, exploitées sans précaution, ces masses de données reflètent des biais sociétaux majeurs, et mélangent sans discernement opinions et fausses informations.

À défaut d’être une solution miracle et universelle, le RAG permet de réduire les risques qui viennent d’être énoncés. L’idée principale est de forcer le grand modèle de langue à générer des réponses dont les informations proviennent d’un ensemble de données présélectionnées à la volée en fonction de la requête. Les connaissances générales du modèle ne doivent servir qu’à assurer la compétence linguistique utile à la génération d’une réponse compréhensible.

La majeure partie de cet article est consacrée à la description d’un système RAG, de manière à permettre la création de prototypes logiciels fonctionnels, à partir d’une bonne compréhension des principes théoriques, et de la connaissance des solutions réutilisables disponibles librement. Les solutions décrites dans cet article se concentrent sur l’usage du RAG pour des documents textuels, mais la disponibilité de modèles fondation et de modèles multimodaux assure un transfert vers des données comprenant des données orales, des vidéos ou des codes sources.

Le § 1 introduit la recherche d’information sous sa forme traditionnelle, de manière à pouvoir comprendre son rôle dans un système RAG, et comment ce dernier peut être intégré à une solution de recherche existante. Le § 2 concerne les grands modèles de langue et les familles de modèles. Elle permet d’introduire le § 3 , consacré à l’emploi de ces modèles, non seulement pour représenter les documents sous une forme compatible avec une recherche dite sémantique, mais aussi pour générer les réponses. Le § 4 présente des architectures plus avancées. Elles concernent des stratégies et des architectures dynamiques tenant compte de la nature des questions posées : le RAG agentique, qui assure flexibilité et extensibilité au système de recherche, et le RAG graphique (GraphRAG), qui exploite des bases de données orientées graphe, et peut identifier des relations lointaines entre entités dans les documents. Le § 5 est consacré à l’évaluation du RAG, et le § 6 présente des solutions logicielles, des plateformes SaaS et des environnements et bibliothèques Python pour un RAG sur mesure.

Cet article est réservé aux abonnés.
Il vous reste 94 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

MOTS-CLÉS

Recherche d’information IA RAG RAG agentique GraphRAG Grand modèle de langue LLM Système question-réponse Prompt Plongement Base de données vectorielle Agent conversationnel

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h6042

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

Accueil > Ressources documentaires > Technologies de l'information > Technologies logicielles Architectures des systèmes > Intelligence artificielle : concepts et méthodes d'apprentissage > Optimiser l’IA générative avec le RAG - La génération de réponses à partir de LLMs, augmentée par la recherche d’information > Évaluation d’une solution RAG

Lecture en cours
Présentation

Page
suivante

Solutions logicielles et exemples

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

5. Évaluation d’une solution RAG

L’évaluation automatisée du RAG est une tâche d’autant plus délicate que l’architecture adoptée est complexe. Tout d’abord, chaque module peut faire l’objet d’une évaluation indépendante. Ensuite, la réponse elle-même, générée par le LLM, peut être évaluée, selon plusieurs dimensions informationnelles (pertinence, exactitude, complétude) et linguistiques (lisibilité, fluidité, complexité). Il s’agit alors de vérifier que les réponses fournies sont présentes dans les documents du contexte, ou qu’elles peuvent en être déduites, et qu’elles sont suffisamment concises, se limitant à ce qui est recherché, et qui est utile pour la compréhension, et la validation, de la réponse.

Il est aussi intéressant d’estimer l’utilité du système du point de vue de l’utilisateur : temps nécessaire pour trouver une réponse satisfaisante, temps gagné par rapport à l’usage d’un moteur de recherche classique. Une bonne évaluation devra obligatoirement être réalisée en multipliant les tests (questions), qui doivent être en quantité suffisante pour refléter la capacité de généralisation des modèles et la diversité des usages.

5.1 Évaluation des pré-traitements

La première évaluation concerne l’analyse des documents et leur découpage en passages. Il faut vérifier dans quelle mesure il est opportun d’établir des recouvrements, et si le découpage respecte la structure logique des documents (chapitres, sections, etc.). Dans le cas où les documents sont issus de fichiers PDF ou d’images, la conversion devra faire l’objet d’une évaluation selon la nature des éléments présents (paragraphes, colonnes, tableaux, etc.). Étant donné que chaque étape nécessite d’optimiser les valeurs de nombreux (hyper)paramètres, il est important de pouvoir garder une trace aussi complète que possible de l’ensemble des évaluations réalisées.

Des bibliothèques et des services d’observation des applications LLMs sont proposés pour cela (ex. : LangSmith de LangChain , et WandDB ...