Paradigme de la recherche booléenne
Ce paradigme, développé initialement à l’usage des documentalistes, repose sur la formulation claire et précise d’une question utilisateur et sa traduction en une requête booléenne intelligible par les bases de données, en utilisant habilement filtres et mots clés issus de thésaurus, combinés avec des opérateurs booléens : ET, OU, NON.
Ce processus n’est possible que si la base de documents a fait l’objet d’une indexation préalable.
Une bonne maîtrise des techniques d’interrogation, ou l’aide d’un documentaliste, est indispensable pour la construction d’une requête de qualité :
Construire la requête
Après évaluation par le scientifique de l’information collectée, le processus peut être relancé pour affiner ou élargir la recherche.
Ce processus est recommandé par les documentalistes pour interroger PubMed, interface de Medline. On obtient alors :
- la formulation du besoin utilisateur : par exemple « Recherche de résultats d’essais cliniques sur l’utilisation de chloroquine pour la prévention du paludisme »
- la traduction booléenne : « Malaria / prevention and control » [Mesh] AND « Chloroquine » [Mesh] AND « Clinical Trial » [pt]
Exemple de requête
La requête ainsi construite présente un double avantage :
- la suppression du silence informationnel : en permettant la collecte de tous les articles indexés par le descripteur MeSH « malaria » ou par l’un de ses fils dans l’arborescence du thésaurus MeSH (comme « Blackwater fever » ; « Malaria, Cerebral » ; etc.) ;
- la suppression du bruit informationnel : en évitant la collecte d’articles mentionnant, de manière anecdotique, le terme « malaria » sans que ce soit le cœur du sujet.
Paradigme de la recherche en langage naturel
L’ouverture aux scientifiques d’interfaces de recherche « à la Google » a profondément ébranlé ce paradigme de recherche booléenne : dorénavant le chercheur peut, seul et de manière quasi instantanée, effectuer une recherche d’information à partir d’une requête en langage naturel.
Celle-ci est alors analysée et traitée de manière automatique par le moteur de recherche.
Requête en langage naturel
Différents algorithmes sont utilisés pour interpréter la requête. Nous en présentons deux : traduction automatique de la requête et approche vectorielle.
Traduction automatique de la requête : certains algorithmes tentent de reconnaître dans la requête utilisateur des mots clés ou synonymes issus d’un thésaurus.
PubMed : traduction automatique de la requête
Par exemple, avec l’interface PubMed de Medline, la requête utilisateur : « paludism » est traduite par PubMed en « malaria » [MeSH Terms] OR « malaria » [All Fields] OR « paludism » [All Fields].
Cette traduction automatique limite le silence informationnel en suggérant le descripteur « malaria » [MeSH], issu du thésaurus MeSH, synonyme du terme « paludism ».
En revanche, elle ne limite pas le bruit informationnel : en effet, tous les articles mentionnant « malaria » ou « paludism », même de manière anecdotique, seront collectés. Il suffit pour cela que le document contienne l’un ou l’autre des termes, n’importe où dans le titre, le résumé ou les mots clés.
Autre problème : la traduction n’est possible que si le synonyme d’un terme MeSH est reconnu.
Approche vectorielle : elle se base sur le calcul d’une « distance » entre la requête formulée par l’utilisateur et chaque document candidat, en plongeant requête et documents dans un
espace vectoriel de termes. Au final, un score de
similarité ou de
pertinence peut être déterminé pour chaque document. C’est ce qu’utilise, par exemple, EM-Premium d’Elsevier Masson pour identifier et classer les documents traitant de « malaria » et « hiv ».
EM-Premium : approche vectorielle
Cette méthode ne nécessite aucune indexation « manuelle » préalable par des mots clés issus de thésaurus, ce qui explique sa large utilisation par les moteurs de recherche généralistes de type Google pour le traitement de documents web.
Limites des recherches par interrogation
Les interfaces de recherche d’information en langage naturel, qui ont pris un essor considérable avec les moteurs de recherche grand public, peuvent donner l’illusion à l’utilisateur de maîtriser pleinement sa recherche.
En réalité, les processus complexes et souvent occultes de traduction et traitement automatique de la question donnent des résultats parfois très éloignés de ceux attendus : il en résulte souvent beaucoup de bruit et de silence informationnels. Le temps gagné par l’utilisateur à formuler sa requête est perdu lors de l’étape fastidieuse de tri des résultats.
Les interfaces de recherches booléennes, en revanche, donnent des résultats de bien meilleure qualité, à condition de maîtriser le langage d’interrogation et le vocabulaire d’indexation. Ce qui est loin d’être le cas des chercheurs : en pratique, selon une étude publiée par Medline [1], seul 1 % des recherches menées avec PubMed utilisent des termes du thésaurus MeSH. Par ailleurs, ce paradigme suppose la définition claire et précise dès le départ de la question de recherche, ce qui ne correspond pas toujours à une réalité sur le terrain.
Existe-t-il des interfaces conciliant à la fois simplicité des recherches en langage naturel et rigueur des recherches booléennes ? C’est ce que nous allons étudier dans les deux prochaines étapes.