Article de référence | Réf : H7260 v1

Techniques de génération de résumé pour le texte
Génération automatique de résumés

Auteur(s) : Jean-Yves DELORT

Date de publication : 10 mai 2007

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Sommaire

Présentation

RÉSUMÉ

Souvent, les humains doivent lire des documents dont les contenus sont complexes et longs à assimiler. L’objectif d’un résumé est de réduire la quantité d’effort nécessaire à l’acquisition des connaissances contenues dans un document. Un résumé peut être défini comme une représentation condensée, intelligible par un humain et non critique du contenu d’un autre document. La génération automatique de résumé (GAR) est utilisée pour répondre à ce besoin, et également plus largement pour synthétiser plusieurs textes. Elle s’applique également à des documents dans d’autres formats que le texte : les images, les sons et les vidéos.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

ABSTRACT

Human beings often have to read documents whose content is complex and long to assimilate. The aim of a summary is to reduce the quantity of necessary efforts in order to assimilate the knowledge contained within a document. A summary can be defined as a representation which is condensed, understandable by human beings and not critical of the content of another document. The automatic summary generation is used to meet such needs and more generally to synthesize several texts. It also applies to documents with different formats such as images, sounds and videos.

Auteur(s)

  • Jean-Yves DELORT : Maître de conférences à l’université de Montpellier-2 , laboratoire d’informatique, de robotique et de microélectronique de Montpellier (LIRMM)

INTRODUCTION

Pour satisfaire leurs besoins en information ou acquérir des connaissances, les humains doivent souvent lire des documents dont les contenus sont complexes et longs à assimiler. L’objectif d’un résumé est de réduire la quantité d’effort nécessaire à l’acquisition des connaissances contenues dans un document. Un résumé peut être défini comme une représentation condensée, intelligible par un humain et non critique du contenu d’un autre document :

  • représentation condensée : un résumé permet de se faire rapidement une idée du contenu du document initial ;

  • intelligible par un humain : un résumé permet de diminuer les efforts nécessaires à un humain pour acquérir les connaissances contenues dans un document. L’humain est l’utilisateur direct d’un résumé. De ce fait, un résumé diffère d’une indexation ou d’une représentation servant à l’extraction ou au raisonnement à partir de connaissances ;

  • non critique : un résumé ne contient pas de commentaires ou de points de vue sur le document initial.

Nous démontrons ici l’intérêt de la génération automatique de résumé de documents avant d’analyser le problème et enfin de donner les principales solutions actuellement utilisées. Nous nous intéressons aux principales applications et aux concepts de la génération automatique de résumé (GAR). Après avoir expliqué le principe de la GAR, nous exposons les différents types d’améliorations qui peuvent être apportées. Les problématiques et les méthodes utilisées pour la GAR peuvent s’appliquer à la synthèse de plusieurs textes. Enfin, nous détaillons les problématiques et les méthodes de GAR de documents dans d’autres formats que le texte : les images, les sons et les vidéos.

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h7260


Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(74 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

4. Techniques de génération de résumé pour le texte

La plupart des méthodes actuelles de GAR produisent des extraits car ceux-ci sont faciles à construire et à adapter. Le développement de méthodes de génération d’abstrait est bridé par la complexité des problèmes de la compréhension automatique du discours ou de génération de langage naturel.

Dans la suite, nous commençons par expliquer le principe de fonctionnement des méthodes de génération de résumé par extraction. Ensuite, nous présentons quelques outils de génération automatique d’extrait existants qui ont la forme d’un logiciel fini et qui peuvent être utilisés directement, ou qui sont des bibliothèques logicielles qui peuvent être liées à des applications. Nous analysons alors les limites des méthodes de GAR par extraction, ce qui nous conduit à faire un état de l’art des techniques de GAR par abstraction.

4.1 Génération d’extraits

Les méthodes de génération d’extrait construisent des résumés par assemblage d’éléments sélectionnés.

HAUT DE PAGE

4.1.1 Segmentation

En général, on segmente les textes en phrases ou en passages.

Nota :

un passage est un groupe constitué d’au minimum deux phrases. Lorsqu’un document est segmenté en passages, par exemple si on prend comme taille du segment le paragraphe, on préserve un maximum de cohésion mais on augmente beaucoup la taille du résumé.

L’intérêt de cela est d’assurer un niveau minimal de cohésion au résumé ; les phrases sont au moins correctes grammaticalement. Ainsi, un texte peut être automatiquement découpé en cherchant les positions dans le texte des symboles « . ». Notons que cette approche est trop simple et ne parvient pas à découper correctement des textes contenant des symboles « . » qui ne signifient pas la terminaison d’une phrase, comme par exemple dans le cas d’abréviations (« IBM Corp. »), de nombres (« 12.60 _ »), etc. Le problème de la segmentation de phrase n’est pas spécifique au résumé automatique et il existe un grand nombre de travaux qui proposent...

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(74 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Techniques de génération de résumé pour le texte
Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) -   *  -  Start, Natural Language Question Answering System. http://start.csail.mit.edu

  • (2) - ZHANG (Y.), ZINCIR-HEYWOOD (N.), MILIOS (E.) -   World wide web site summarization  -  . Web Intelligence and Agent Systems, 2, no 1, 39-53 (2004).

  • (3) - RADEV (D.R.), OTTERBACHER (J.), WINKEL (A.), BLAIR-GOLDENSOHN (S.) -   NewsInEssence: summarizing online news topics  -  . Communications of the ACM, 48 (10), 95-98 (2005).

  • (4) - BARD (S.) -   Méthodes d’évaluation de la qualité de données géographiques généralisées  -  . Thèse de doctorat, université Paris-6 (2004).

  • (5) - PASSONNEAU (R.), KUKICH (K.), HATZIVASSILOGLOU (V.), LEFKOWITZ (L.), JING (H.) -   Generating summaries of work flow diagrams  -  . Proceedings of the International Conference on Natural Language Processing and Industrial Applications, 204-210, New Brunswick, Canada (1996).

  • (6)...

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(74 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS