Enjeux et difficultés de l'accès aux contenus textuels
Traitement automatique des textes - Techniques linguistiques
H7258 v2 Article de référence

Enjeux et difficultés de l'accès aux contenus textuels
Traitement automatique des textes - Techniques linguistiques

Auteur(s) : Cécile FABRE

Date de publication : 10 mai 2012 | Read in English

Logo Techniques de l'Ingenieur Cet article est réservé aux abonnés
Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?

Présentation

1 - Enjeux et difficultés de l'accès aux contenus textuels

  • 1.1 - Accéder aux connaissances contenues dans les documents
  • 1.2 - Difficultés du traitement automatique de données textuelles
  • 1.3 - Appréhender les différents niveaux de l'analyse linguistique

2 - Recherche et extraction d'informations textuelles

3 - Techniques de base du traitement automatique des textes

  • 3.1 - Identifier les « mots » : segmenter
  • 3.2 - Identifier les propriétés grammaticales des mots : étiqueter
  • 3.3 - Analyser les relations syntaxiques entre les mots : parseur
  • 3.4 - Analyser les relations de sens entre les mots

4 - Ressources pour le traitement automatique des textes

  • 4.1 - Ressources textuelles
  • 4.2 - Ressources lexicales
  • 4.3 - Ressources logicielles

5 - Conclusion

Sommaire

Présentation

RÉSUMÉ

Cet article est consacré à la présentation des techniques de traitement automatique des textes qui sont utilisées aujourd’hui pour permettre de gérer de façon plus pertinente et plus efficace l’information qu’ils contiennent. Sont tout d'abord présentés les besoins qui se manifestent actuellement dans les activités professionnelles pour des modes d’accès fins et variés au contenu des documents. Ensuite, sont abordées les applications, les méthodes et les ressources linguistiques qui sont mobilisées pour mener à bien ces procédures d’analyse de l’information textuelle.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

  • Cécile FABRE : Professeur en sciences du langage Université Toulouse 2 - Le Mirail et laboratoire CLLE-ERSS (UMR 5263)

INTRODUCTION

Les documents disponibles sous forme électronique constituent une source d"informations majeure et suscitent le développement d"applications visant à faciliter leur gestion et leur exploitation. Ces données textuelles sont de natures très diverses :

  • documentation produite par l'entreprise, ses partenaires et ses clients (rapports techniques, documentation de maintenance, contrats, compte rendu de réunion, messages électroniques, etc.) ;

  • informations de nature technologique et économique que les entreprises doivent collecter et exploiter dans un environnement documentaire large et diversifié (brevets, rapports d'étude, littérature grise, actualités commerciales et techniques accessibles sur le web, etc.).

C'est par le biais de ces documents que l'essentiel des informations circule et il est donc crucial pour les organisations de disposer de techniques pour accéder aux connaissances métier qui sont contenues dans ces données. De fait, l"information stratégique est en grande partie de nature textuelle. Il est indispensable d'en prendre connaissance et de l'analyser pour :

  • assurer des tâches de veille scientifique et technologique, de gestion et de transfert de connaissances ;

  • assister la prise de décision, l'identification des risques, etc.

Or, ces données ont pour caractéristique d'être volumineuses et non structurées. Elles sont de natures très hétérogènes. Leur rédaction est rarement soumise à des normes explicites et peut être effectuée sous contrainte temporelle (production de rapports, de notes, de compte rendu, de courriers). Ces caractéristiques en font un matériau très difficile à traiter : les informations pertinentes doivent être extraites du flot textuel ; cette extraction est complexe du fait de l'ambiguïté et de la variabilité qui caractérisent l'expression langagière. L"exploitation de ces textes tout-venant est donc devenue un enjeu technologique majeur. De nouvelles solutions techniques, souvent qualifiées de « sémantiques » et d'« intelligentes » sont proposées aux entreprises pour :

  • maîtriser la profusion des documents électroniques – procédures pour classer les documents, les sélectionner, les synthétiser, les structurer ;

  • extraire et organiser les informations qu'ils contiennent.

Ces solutions font appel à des techniques de traitement automatique des langues TAL. L'objectif de ce dossier est de faire le point sur les traitements linguistiques automatisés qui sont mis en œuvre, et, en facilitant la compréhension de ces traitements, de permettre un choix raisonné parmi les solutions proposées dans le domaine du traitement de l'information.

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


VERSIONS

Il existe d'autres versions de cet article :

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v2-h7258

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(236 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

1. Enjeux et difficultés de l'accès aux contenus textuels

1.1 Accéder aux connaissances contenues dans les documents

De nombreuses tâches nécessitent le traitement de données textuelles. Étant donné le volume des données à prendre en compte, des procédures automatisées ou semi-automatisées d'analyse sont requises pour les réaliser.

– Veille stratégique et technologique. Les entreprises doivent suivre les évolutions technologiques et commerciales dans leur secteur et repérer les innovations. Cette activité s'appuie sur la surveillance d'un ensemble de sources d'informations impliquant la collecte et l'analyse de documents pertinents. Le recours à des techniques de visualisation et d'analyse de contenu permet de faciliter la navigation dans ces ensembles. Il s'agit en particulier de détecter des termes nouveaux ou fréquents dans le domaine d'activité concerné et d'étudier la façon dont ils sont utilisés, autrement dit leurs contextes d'occurrence.

– Analyse d'opinion et de réputation. Cas particulier de veille stratégique, l'analyse de l'e-reputation consiste à s'appuyer sur l'information textuelle pour analyser la réception de certains produits, l'image de l'entreprise, celle des concurrents. Il s'agit là encore de collecter des sources textuelles, principalement sur le web, et d'en faire l'analyse. Celle-ci se pratique encore généralement de façon manuelle, mais des procédures de visualisation et d'extraction de l'information permettent d'automatiser partiellement le repérage d'informations pertinentes.

– Gestion des connaissances métier. Les textes produits au sein de l'entreprise constituent un gisement d'informations, largement sous-exploité, dans lequel sont explicitées l'ensemble des connaissances partagées dans l'organisation. Ces textes constituent en effet la verbalisation et donc la trace des connaissances métier. Rassemblés en corpus, ils peuvent alimenter des programmes de constitution de ressources terminologiques (thésaurus), et faciliter les procédures de transfert de connaissances et de formation des personnels.

– Gestion des risques. Dans le domaine de l'aéronautique en particulier, les réglementations internationales rendent obligatoire la production de rapports d'incidents pour permettre un meilleur suivi des événements et fournir ainsi de meilleures garanties de sécurité. Dans certaines grandes organisations, ces rapports constituent une masse d'informations non structurées dont l'exploitation pose problème. Des procédures de codage de l'information et d'analyse doivent être...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Lecture en cours
Enjeux et difficultés de l'accès aux contenus textuels

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(236 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - JURAFSKY (D.), MARTIN (J.H.) -   Speech and language processing – An introduction to natural language processing, computational linguistics, and speech recognition.  -  (2009).

  • (2) - LALLICH-BOIDIN (G.), MARET (D.) -   Recherche d'information et traitement de la langue. : fondements linguistiques et applications.  -  Les Cahiers de l'ENSSIB, no 3, Les Presses de l'ENSSIB, Lyon (2005).

  • (3) - MANNING (C.), SCHÜTZE (H.) -   Foundations of statistical natural language processing.  -  MIT Press, Cambridge, MA (1999).

  • (4) - MITKOV (R.) (Éd.) -   The Oxford Handbook of Computational Linguistics.  -  Oxford University Press, Oxford (2002).

  • (5) - PIERREL (J.-M.) (Éd.) -   Ingénierie des langues.  -  Hermès, Paris (2000).

  • (6) - POIBEAU (T.) -   Traitement automatique du contenu textuel.  -  Lavoisier,...

DANS NOS BASES DOCUMENTAIRES

1 Outils logiciels

Références des outils et ressources cités dans l'article :

TreeTagger : étiquetage morpho-syntaxique et lemmatization. Université de Stuttgart http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/

Lexico : outil de statistique textuelle. Université Paris 3 http://www.tal.univ-paris3.fr/lexico/

GATE : plate-forme pour l'analyse de textes. Université de Sheffield http://gate.ac.uk/

Lexique-grammaire : lexique syntaxique, l'équipe LIGM, Université Paris Est, Marne-la-Vallée http://infolingu.univ-mlv.fr/

WORDNET : Cognitive Science Laboratory, Princeton University http://wordnet.princeton.edu/

HAUT DE PAGE

2 Sites...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 94 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(236 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Ressources documentaires

Génération automatique de résumés

Souvent, les humains doivent lire des documents dont les contenus sont complexes et longs à assimiler. ...

Reconnaissance en-ligne d'écriture manuscrite

Dans cet article, est exposé un panorama de la recherche sur la reconnaissance de l'écriture manuscrite, ...

Visualisation d'information

Les traces de l'activité du monde socio-économique sont l'objet d'analyse de toutes sortes pour mesurer ...