Recherche et extraction d'informations textuelles
Traitement automatique des textes - Techniques linguistiques

H7258 v2 Article de référence

Recherche et extraction d'informations textuelles
Traitement automatique des textes - Techniques linguistiques

Auteur(s) : Cécile FABRE

Date de publication : 10 mai 2012 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - Enjeux et difficultés de l'accès aux contenus textuels

1.1 - Accéder aux connaissances contenues dans les documents
1.2 - Difficultés du traitement automatique de données textuelles

Tableau 1
1.3 - Appréhender les différents niveaux de l'analyse linguistique

2 - Recherche et extraction d'informations textuelles

2.1 - Recherche de documents ou recherche d'information
2.2 - Extraction d'informations

3 - Techniques de base du traitement automatique des textes

3.1 - Identifier les « mots » : segmenter
3.2 - Identifier les propriétés grammaticales des mots : étiqueter
3.3 - Analyser les relations syntaxiques entre les mots : parseur
3.4 - Analyser les relations de sens entre les mots

4 - Ressources pour le traitement automatique des textes

4.1 - Ressources textuelles
4.2 - Ressources lexicales
4.3 - Ressources logicielles

5 - Conclusion

Bibliographie & annexes

Présentation

RÉSUMÉ

Cet article est consacré à la présentation des techniques de traitement automatique des textes qui sont utilisées aujourd’hui pour permettre de gérer de façon plus pertinente et plus efficace l’information qu’ils contiennent. Sont tout d'abord présentés les besoins qui se manifestent actuellement dans les activités professionnelles pour des modes d’accès fins et variés au contenu des documents. Ensuite, sont abordées les applications, les méthodes et les ressources linguistiques qui sont mobilisées pour mener à bien ces procédures d’analyse de l’information textuelle.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Cécile FABRE : Professeur en sciences du langage Université Toulouse 2 - Le Mirail et laboratoire CLLE-ERSS (UMR 5263)

INTRODUCTION

Les documents disponibles sous forme électronique constituent une source d"informations majeure et suscitent le développement d"applications visant à faciliter leur gestion et leur exploitation. Ces données textuelles sont de natures très diverses :

documentation produite par l'entreprise, ses partenaires et ses clients (rapports techniques, documentation de maintenance, contrats, compte rendu de réunion, messages électroniques, etc.) ;
informations de nature technologique et économique que les entreprises doivent collecter et exploiter dans un environnement documentaire large et diversifié (brevets, rapports d'étude, littérature grise, actualités commerciales et techniques accessibles sur le web, etc.).

C'est par le biais de ces documents que l'essentiel des informations circule et il est donc crucial pour les organisations de disposer de techniques pour accéder aux connaissances métier qui sont contenues dans ces données. De fait, l"information stratégique est en grande partie de nature textuelle. Il est indispensable d'en prendre connaissance et de l'analyser pour :

assurer des tâches de veille scientifique et technologique, de gestion et de transfert de connaissances ;
assister la prise de décision, l'identification des risques, etc.

Or, ces données ont pour caractéristique d'être volumineuses et non structurées. Elles sont de natures très hétérogènes. Leur rédaction est rarement soumise à des normes explicites et peut être effectuée sous contrainte temporelle (production de rapports, de notes, de compte rendu, de courriers). Ces caractéristiques en font un matériau très difficile à traiter : les informations pertinentes doivent être extraites du flot textuel ; cette extraction est complexe du fait de l'ambiguïté et de la variabilité qui caractérisent l'expression langagière. L"exploitation de ces textes tout-venant est donc devenue un enjeu technologique majeur. De nouvelles solutions techniques, souvent qualifiées de « sémantiques » et d'« intelligentes » sont proposées aux entreprises pour :

maîtriser la profusion des documents électroniques – procédures pour classer les documents, les sélectionner, les synthétiser, les structurer ;
extraire et organiser les informations qu'ils contiennent.

Ces solutions font appel à des techniques de traitement automatique des langues TAL. L'objectif de ce dossier est de faire le point sur les traitements linguistiques automatisés qui sont mis en œuvre, et, en facilitant la compréhension de ces traitements, de permettre un choix raisonné parmi les solutions proposées dans le domaine du traitement de l'information.

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

VERSIONS

Il existe d'autres versions de cet article :

Version archivée 1 de févr. 2001 par Cécile FABRE

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v2-h7258

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

Accueil > Ressources documentaires > Technologies de l'information > Technologies logicielles Architectures des systèmes > Big Data > Traitement automatique des textes - Techniques linguistiques > Recherche et extraction d'informations textuelles

Lecture en cours
Présentation

Page
suivante

Techniques de base du traitement automatique des textes

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(65 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

2. Recherche et extraction d'informations textuelles

Le champ du traitement automatique des langues (TAL) est connu du grand public à travers deux applications phares : la traduction automatique et la correction orthographique et grammaticale de documents . De fait, l'une et l'autre sont intégrées, avec des succès divers, dans les environnements de travail quotidien (moteurs de recherche, traitements de textes). À côté de ces tâches traditionnelles se sont développées d'autres applications visant à répondre aux besoins que nous venons de mentionner, et que l'on peut résumer par la nécessité de permettre un accès plus intelligent à l'information textuelle. On distingue à l'intérieur de ce champ deux grands types d'objectifs :

identifier des documents pertinents dans une base de textes : cet objectif est pris en charge par les applications de recherche documentaire, appelée également recherche d'information dans le champ du TAL ;
identifier et typer des fragments d'information pertinents au sein des textes : ce besoin donne lieu à une large gamme de tâches d'extraction d'information, qui traitent des segments informationnels de nature diverse.

2.1 Recherche de documents ou recherche d'information

L'objectif de la recherche d'information (RI) est de faciliter l'interrogation de textes regroupés en bases de données. Les interfaces en langage naturel dont nous allons parler ici ont été popularisées pour permettre l'accès au web. Elles sont une alternative à l'indexation dite contrôlée. Celle-ci consiste à utiliser un langage d'indexation spécifique à la base de textes à traiter et constitué de mots-clés prédéfinis et normalisés ; la requête est elle-même exprimée dans ce langage documentaire contraignant, et l'indexation est soumise à une nomenclature fixée a priori par une ressource terminologique de type thésaurus. À l'inverse, la recherche d'informations non contrôlée consiste à formuler la requête librement, en langage naturel, et à effectuer l'indexation de manière automatique à partir des mots du...

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.