9. Données spécifiques
Les données textuelles en format « libre » disponibles sur support informatique représentent 70 % des données numériques et se retrouvent sous forme de rapports, de courriers, de publications, de manuels, etc. Les textes contiennent des informations et des connaissances utiles et parfois critiques pour la gestion et la prise de décision dans les entreprises.
La fouille de données textuelles, ou text mining, vise à définir des stratégies pour exploiter les textes en format libre. On y distingue deux niveaux de traitement.
Le premier niveau porte sur la recherche d’information dans les bases de données textuelles. On y trouve essentiellement des outils de requête en langage naturel (par exemple, rechercher les textes qui contiennent tel ou tel mot). Grâce au développement des technologies du traitement de la langue naturelle, on peut également formuler des requêtes plus complexes contenant des expressions ou même des textes en exemple. Les techniques de recherche d’information disponibles permettent l’accès aux textes par les contenus à la fois lexicaux et sémantiques.
Le second niveau porte plus spécifiquement sur l’extraction de connaissances à...
La suite de cet article est réservée aux abonnés
Vous n'êtes pas abonné ?
Consultez gratuitement cet article.
votre période de consultation gratuite
Découvrez le plus important corpus scientifique et technique francophone
Plus de 8 000 articles, 13 univers, 400 bases documentaires, les plus grands auteurs, un enrichissement permanent et un éventail de services associés.

