Utilisation du Web comme corpus pour des tâches de classification conceptuelle
Utilisation des ressources du Web pour la classification conceptuelle

H7420 v1 Article de référence

Utilisation du Web comme corpus pour des tâches de classification conceptuelle
Utilisation des ressources du Web pour la classification conceptuelle

Auteur(s) : Mathieu ROCHE

Date de publication : 10 mai 2007 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - Motivations de l’utilisation des classifications conceptuelles

1.1 - Extraction d’information dans les textes
1.2 - Classification conceptuelle et extraction d’information
1.3 - Découverte de règles d’association entre concepts

2 - Du corpus à la classification conceptuelle

2.1 - Chaîne globale de fouille de textes
2.2 - Approches pour la classification conceptuelle à partir de textes

Figure 3 - Mesure entre les objets Figure 4 - Classification des attributs

3 - Utilisation du Web comme corpus pour des tâches de classification conceptuelle

3.1 - Acquisition d’un corpus à partir du Web
3.2 - Le Web, un corpus à part entière

4 - Conclusion

RÉSUMÉ

La masse des informations textuelles disponibles, notamment sur le Web, nécessite un traitement automatique pour une analyse pertinente de ces données. La veille, technologique ou économique, consiste à rechercher, traiter et diffuser des renseignements utiles à l’entreprise. Toutes les méthodes de veille appliquées aux données textuelles utilisent des systèmes de traitement automatique des langues, dit TAL, et de fouille de textes. Pour rendre ces outils plus efficaces, l’utilisation de connaissances du domaine telles que des classifications conceptuelles se révèle essentielle.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Mathieu ROCHE : Maître de conférences à l’université de Montpellier-2Laboratoire d’informatique, de robotique et de microélectronique de Montpellier (LIRMM)

INTRODUCTION

La masse des informations textuelles disponibles, notamment sur le Web, nécessite un traitement automatique pour une analyse pertinente de ces données. Cela s’avère particulièrement utile pour découvrir les informations stratégiques afin d’anticiper et de prendre des décisions sur les environnements socio-économiques. On utilise alors le terme de veille technologique pour l’étude de l’évolution des données techniques et scientifiques (articles scientifiques, brevets technologiques, etc.). Un domaine de veille en développement croissant concerne la veille économique (ou intelligence économique). Elle consiste à rechercher, traiter et diffuser des renseignements utiles à l’entreprise. La veille économique comprend notamment la veille à la concurrence et au marché. L’ensemble de ces méthodes de veille appliquées aux données textuelles utilise des systèmes de TAL (traitement automatique des langues) et de fouille de textes décrits ici. Pour rendre ces outils plus efficaces, l’utilisation de connaissances du domaine telles que des classifications conceptuelles se révèle essentielle. Nous verrons en particulier de quelle manière les ressources du Web peuvent aider à la construction automatique ou semi-automatique de classifications conceptuelles.

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h7420

Lecture en cours
Présentation

Page
suivante

Conclusion

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

3. Utilisation du Web comme corpus pour des tâches de classification conceptuelle

3.1 Acquisition d’un corpus à partir du Web

L’exploitation des pages Web peut se révéler particulièrement appropriée pour constituer des corpus spécialisés. Les méthodes de construction de classifications conceptuelles 2 peuvent alors être appliquées sur les corpus issus du Web.

Une manière de constituer un corpus consiste à exploiter les innombrables ressources textuelles disponibles à partir du Web. En 2003, les auteurs de estiment que la taille des pages Web accessibles représente deux mille milliards de mots. La prédominance des textes en langue anglaise est incontestable en représentant, à eux seuls, près de 70 % des textes du Web (en 2002). Les textes en français représentent, quant à eux, seulement 3 % du Web . Entre 1998 et 2002, outre la croissance importante du nombre de pages Web accessibles

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.