Glossaire
Analyse automatique d’opinions - États des lieux et perspectives

H7270 v1 Article de référence

Glossaire
Analyse automatique d’opinions - États des lieux et perspectives

Auteur(s) : Farah BENAMARA ZITOUNE

Date de publication : 10 nov. 2016 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - Définition de la notion d’opinion

1.1 - Multiples facettes de l’opinion
1.2 - Opinion vue comme un modèle structuré
1.3 - Exemple

2 - Extraction automatique de l’opinion

2.1 - Extraction du sujet et de l’émetteur
2.2 - Extraction des aspects
2.3 - Extraction du sentiment
2.4 - Présentation des résultats de l’extraction à l’utilisateur

3 - Vers une extraction plus fine des opinions

3.1 - Analyse de l’opinion au-delà de la phrase

Figure 3 - Analyse RST d’un document
3.2 - Opinions implicites
3.3 - Opinion et langage figuratif : cas de l’ironie et du sarcasme
3.4 - Rôle des informations extra-linguistiques
3.5 - Analyse des intentions

4 - Conclusion

5 - Glossaire

Bibliographie & annexes

Présentation

RÉSUMÉ

Le Web est devenu une source d’information incontournable grâce à la quantité et à la diversité des contenus textuels porteurs d’opinions générés par les internautes. Ces contenus sont multiples : blogs, commentaires, forums, réseaux sociaux, etc. Devant cette abondance de données, le développement d’outils pour extraire, synthétiser et comparer les opinions exprimées sur un sujet donné devient crucial. Cet article dresse un panorama des principales approches en analyse automatique d’opinions. Trois questions fondamentales sont abordées : comment reconnaître les portions de textes qui renseignent l’utilisateur sur l’opinion qu’il recherche ? Comment évaluer la polarité des opinions qui en ressortent ? Comment présenter le résultat de manière pertinente à l’utilisateur ?

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Farah BENAMARA ZITOUNE : Maître de conférences en informatique à l’Université Paul Sabatier de Toulouse, - Institut de Recherche en Informatique de Toulouse (IRIT), Toulouse, France

INTRODUCTION

Aujourd’hui, le Web est devenu une source d’information incontournable grâce à la quantité et à la diversité des contenus textuels porteurs d’opinions exprimés par les internautes. Ces contenus sont multiples : blogs, commentaires, forums, réseaux sociaux, réactions ou avis, de plus en plus centralisés par les moteurs de recherche. Devant cette abondance de données et de sources, le développement d’outils pour extraire, synthétiser et comparer les opinions exprimées sur un sujet donné devient crucial. L’intérêt de ce type d’outils est considérable, pour les sociétés qui souhaitent obtenir un retour client sur leurs produits ou leur image de marque comme pour les particuliers souhaitant se renseigner pour un achat, une sortie ou un voyage.

C’est dans ce contexte que l’analyse d’opinions (communément appelée sentiment analysis ou opinion mining en anglais) a vu le jour. Les premiers travaux en extraction automatique d’opinions remontent à la fin des années 1990 avec, en particulier, des études traitant de la détermination de la polarité des adjectifs dans les documents, c’est-à-dire la détermination du caractère positif ou négatif de l’opinion véhiculée par les adjectifs. Depuis les années 2000, un grand nombre de travaux ont été publiés sur le sujet, faisant de l’extraction d’opinions l’un des domaines les plus actifs en Traitement Automatique des Langues (TAL) [H7258] et en fouille de données, avec plus de 26 000 publications recensées sur Google Scholar. Il est important de noter qu’avant d’être un domaine de recherche en informatique, l’analyse d’opinions a été largement étudiée en linguistique , psychologie , sociologie et en économie . C’est donc un domaine multidisciplinaire nécessitant des outils et techniques diverses comme nous le verrons tout au long de cet article.

Le développement de systèmes d’analyse d’opinions n’est pas simple et nécessite de se confronter à plusieurs difficultés : comment reconnaître les parties des textes qui renseignent l’utilisateur sur l’opinion qu’il recherche ? Comment évaluer la qualité des opinions qui en ressort : sont-elles plutôt positives, plutôt négatives ? Comment présenter le résultat de manière pertinente à l’utilisateur ?

Cet article a pour objectif de répondre à ces questions en dressant un panorama des principales approches actuelles en analyse d’opinions. Après une définition de la notion d’opinion et de ses principales caractéristiques, nous présentons les méthodes d’extraction les plus populaires. Par des exemples concrets, nous verrons que ces méthodes atteignent vite leurs limites car elles ne prennent pas en compte la notion de contexte, pourtant primordiale à une analyse fine des opinions. Nous verrons alors les nouvelles méthodes qui ont été proposées dans la littérature scientifique pour incorporer cette notion. Nous terminons cet article par une discussion sur les perspectives de recherche dans le domaine.

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

MOTS-CLÉS

Traitement automatique des langues analyse d'opinions extraction d'information apprentissage automatique

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h7270

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

Accueil > Ressources documentaires > Technologies de l'information > Technologies logicielles Architectures des systèmes > Big Data > Analyse automatique d’opinions - États des lieux et perspectives > Glossaire

Lecture en cours
Présentation

Page
suivante

Définition de la notion d’opinion

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(65 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

5. Glossaire

Traitement Automatique des Langues (TAL) ; natural language processing

Le TAL est une branche de l’intelligence artificielle qui a pour but l’analyse (mais aussi la génération) de données textuelles, généralement non structurées, par le biais de traitements linguistiques à plusieurs niveaux :

le niveau du mot. On parle alors d’analyse morphologique et lexicale ;
le niveau de la proposition ou de la phrase. On parle alors d’analyse syntaxique ;
le niveau du texte ou du document. C’est l’analyse de discours ;
le niveau pragmatique, qui permet d’appréhender le sens des mots/phrases/textes en contexte.

Le lecteur peut se référer à l’article [H7258] qui présente une description complète des enjeux et techniques du TAL.

Fouille de données textuelle ; text mining

La fouille de données textuelles consiste en l’analyse de gros volumes de corpus textuels en considérant chaque texte comme un ’’sacs de mots”. L’objectif est d’extraire à partir de ces corpus de nouvelles connaissances en effectuant des calculs et des analyses statistiques comme des mesures de fréquences, la construction d’index ou encore la classification de corpus.

Entités nommées (EN) ; named entity

Une entité nommée est un mot ou un groupe de mots qui correspond à un nom propre. Une EN est associée à une catégorie sémantique suivant une classification souvent dépendante du domaine d’application, comme la catégorie personne (e.g., Président Hollande), organisation (e.g., ONU), ou encore date (e.g., le 9 octobre 2008).

Relation paradigmatique ; paradigmatic relation

Une relation paradigmatique est une relation entre deux mots ou concepts qui sont sémantiquement proches, comme la relation de synonymie (e.g., voiture et automobile), de composition (e.g., voiture et chassis), d’hyperonymie ou générique-spécifique (e.g., animal et chat).

Apprentissage...

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

Lecture en cours
Glossaire

Page
précédenteConclusion

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(65 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

BIBLIOGRAPHIE

(1) - ABBASI (A.), CHEN (H.), SALEM (A.) - Sentiment analysis in multiple languages: Feature selection for opinion classification in web forums. - ACM Transactions on Information Systems, 26(3):1–34 (2008).
(2) - AUE (A.), GAMON (M.) - Customizing sentiment classifiers to new domains: A case study. - In Proceedings of Recent Advances in Natural Language Processing, RANLP (2005).
(3) - BENAMARA (F.), ASHER (N.), MATHIEU (Y.), POPESCU (V.), CHARDON (B.) - Evaluation in discourse: a corpus-based study. - Dialogue and Discourse, 7(1):1–49 (2016).
(4) - BENAMARA (F.), TABOADA (M.), MATHIEU (Y.) - Evaluative language beyond bags of words: Linguistic insights and computational applications. - Computational Linguistics, in press (2016).
(5) - BHATIA (P.), JI (Y.), EISENSTEIN (J.) - Better document-level sentiment analysis from RST discourse parsing. - In Proceedings of the Conference on Empirical Methods in Natural Language Processing, EMNLP, pages 2212–2218 (2015).
...

DANS NOS BASES DOCUMENTAIRES

Traitement automatique des textes. Techniques linguistiques.

ANNEXES

1 Pour en savoir plus

1 Pour en savoir plus

Lexiques de subjectivité

Lexique pour la langue anglais
- SentiWordnet : http://sentiwordnet.isti.cnr.it/
- WordNetAffect : http://wndomains.fbk.eu/wnaffect.html
- MPQA : http://mpqa.cs.pitt.edu/lexicons/subj-lexicon/
- Sentiment and emotion lexicon : http://saifmohammad.com/ WebPages/lexicons.html
Lexique pour la langue français
- Blogoscopy : http://www.lina.univ-nantes.fr/? Ressources-disponibles-sous.html
- Casoar : disponible sur demande à http://[email protected]
Lexique multilingue : https://sites.google.com/site/datascienceslab/ projects/multilingualsentiment

Ressources annotées en subjectivité

Les chercheurs ont mis à disposition un très grand nombre de ressources annotées en opinions afin d’aider la communauté TAL à améliorer les performances de leurs systèmes. En voici une courte liste :

Ressources en anglais
- Corpus de commentaires de produits : https://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html
- Corpus d’opinions sur des domaines divers : http://www.cs. cornell.edu/home/llee/data/
Ressources en français
- Corpus de blogs : ...