Modèles de documents
Analyse et reconnaissance d’images de documents

H7020 v1 Article de référence

Modèles de documents
Analyse et reconnaissance d’images de documents

Auteur(s) : Rolf INGOLD

Date de publication : 10 août 2002 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - Problématique générale

1.1 - Contenu
1.2 - Complexité
1.3 - Qualité des images
1.4 - Domaines d’application

2 - Systèmes de reconnaissance de documents

2.1 - Chaîne de traitement
2.2 - Acquisition d’images
2.3 - Prétraitement
2.4 - Segmentation
2.5 - Reconnaissance de caractères
2.6 - Reconnaissance de fontes
2.7 - Vectorisation
2.8 - Reconnaissance de graphiques
2.9 - Reconnaissance structurelle
2.10 - Classification de documents

3 - Modèles de documents

3.1 - Rôle des modèles
3.2 - Contenu des modèles de structuration
3.3 - Rôle de l’apprentissage
3.4 - Illustrations

4 - Discussion finale

Bibliographie & annexes

Présentation

Auteur(s)

Rolf INGOLD : Professeur - Département d’informatique, université de Fribourg (Suisse)

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

L’analyse et la reconnaissance d’images de documents désignent une discipline scientifique qui regroupe un ensemble de techniques informatiques dont le but est de reconstituer le contenu d’un document à partir de son image. Alors qu’elle est longtemps restée cantonnée dans la problématique de la reconnaissance de caractères, elle vise aujourd’hui des objectifs beaucoup plus larges, allant de la simple classification de documents à l’interprétation complète du contenu en passant par l’indexation ou la réédition. Ainsi, le but ultime de la reconnaissance d’images de documents est de générer une représentation de haut niveau sous la forme de documents structurés, selon une forme adéquate pour l’application visée.

À titre introductif, considérons par exemple une page tirée d’un livre scientifique (figure 1 a ) qu’il s’agirait d’« hypertextualiser », c’est-à-dire d’en produire une version électronique munie des liens hypertexte pour la navigation. Dans une telle application, il est impératif de déterminer la structure logique de l’ouvrage, c’est-à-dire son organisation hiérarchique en chapitres, sections et paragraphes, d’identifier les définitions, les énoncés d’exercices, les descriptions d’expériences, les formules, etc. La figure 1 b reflète visuellement cette structure au niveau de la page alors que la figure 1 c illustre la structure hiérarchique qui en découle. C’est cette structure qui pourra être exploitée lors de la navigation dans l’hypertexte.

Traditionnellement, la reconnaissance de documents s’est avant tout appliquée aux documents papier pour lesquels aucune forme électronique n’était disponible. Aujourd’hui, on reconnaît l’intérêt de ces techniques pour la restructuration de documents électroniques, non ou mal structurés, en se servant de l’image produite de manière synthétique, par exemple à l’aide d’un moteur d’impression Postscript.

Sur le plan historique, il est intéressant de remarquer que la lecture optique de caractères est bien antérieure au développement de l’informatique puisque des brevets ont déjà été déposés au XIX^e siècle et qu’un prototype de démonstration a été signalé en 1916. Les premières approches informatiques de la reconnaissance de caractères remontent au début des années 1960 ; ainsi, la première machine à trier le courrier (limitée aux adresses dactylographiées) a été installée aux États-Unis en 1965. Cependant, les développements importants remontent à l’avènement de la bureautique dans les années 1980 [1], avec l’apparition des ordinateurs personnels, des écrans graphiques, des imprimantes à laser et surtout les scanners plats. Depuis, les applications pratiques n’ont cessé de croître ; l’augmentation considérable des capacités de stockage d’information et, parallèlement, la réduction de leur coût a créé des besoins gigantesques pour la constitution de bibliothèques numériques, de systèmes documentaires en ligne [2] ou, plus simplement, pour l’archivage.

Malgré l’intérêt pratique du domaine, les résultats obtenus à ce jour sont loin d’être parfaits. La reconnaissance de documents reste un problème complexe qui bute sur des difficultés encore non résolues et faisant actuellement encore l’objet de nombreuses recherches.

Plusieurs facteurs sont à l’origine de ces difficultés. Pour commencer, il faut mentionner l’absence d’un objectif universel, simple à formuler, ainsi que l’insuffisance des modèles de représentation de connaissances permettant d’orienter l’analyse. En effet, les résultats souhaités dépendent fortement de l’application visée, et des connaissances spécifiques à la classe de documents

considérée sont nécessaires. La formalisation du problème joue un rôle capital ; il s’agit d’établir de manière précise les structures à déterminer et leurs caractéristiques. Mais elles sont en général difficiles à formuler et, par manque d’outils adéquats, la constitution de ces connaissances s’avère trop coûteuse dans beaucoup de cas. De plus, la pratique montre que les systèmes de reconnaissance doivent presque toujours faire face à des situations exceptionnelles, non formalisées.

À ces difficultés conceptuelles s’ajoute le traitement de l’incertitude, due au fait que les algorithmes d’analyse d’image de bas niveau chargés de l’extraction des entités élémentaires produisent souvent des résultats imparfaits. Cette situation peut être critique lorsque la résolution de l’image est insuffisante ou lorsque l’image provient d’une saisie optique de mauvaise qualité due, par exemple, à l’état dégradé du document papier.

Cet article fait un bilan critique des possibilités et des limites de la reconnaissance de documents au stade actuel des recherches.

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h7020

Lecture en cours
Présentation

Page
suivante

Discussion finale

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(65 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

3. Modèles de documents

Nous avons vu dans le paragraphe précédent l’extrême complexité d’un système de reconnaissance de documents. La plupart des traitements nécessitent pour leur bon fonctionnement un apport d’informations contextuelles, dépendantes du type du document analysé. Ces informations sont fournies par ce que nous convenons d’appeler globalement les modèles de documents.

En réalité, plusieurs étapes de la reconnaissance nécessitent ce genre de connaissances : un logiciel de reconnaissance de caractères utilisera par exemple une base de données de spécimens (caractères de référence) ou des dictionnaires linguistiques ; la reconnaissance de fontes aura besoin d’une base de connaissance des caractéristiques des fontes considérées et la segmentation utilisera des valeurs de seuils adaptées à la taille d’écriture.

Nous allons nous focaliser ici sur les connaissances contextuelles nécessaires à la reconnaissance structurelle.

3.1 Rôle des modèles

Un modèle doit représenter de manière générique les caractéristiques d’une classe de documents de manière à faciliter l’analyse de documents spécifiques appartenant à cette classe. Plus précisément, il doit décrire les contraintes sur les structures possibles permettant ainsi de restreindre les hypothèses pour l’étiquetage logique.

Nous pouvons tout d’abord constater qu’il serait illusoire de construire un modèle universel applicable à tous les documents ; inversement, restreindre un modèle à un document unique ne serait guère utile. Ainsi, un modèle se référera à un ensemble de documents potentiellement analysables que nous conviendrons d’appeler classe de documents. Le degré de généricité visé par une classe de documents dépendra de l’application et notamment de la variabilité des documents spécifiques pris en compte. Un modèle trop générique sera difficile à établir ou fournira des résultats insatisfaisants ; à l’inverse, un modèle trop spécifique aura une applicabilité insuffisante.

En première approximation, la phase de reconnaissance structurelle peut être considérée comme la fonction inverse du formatage d’un document structuré. Or, le formatage peut être guidé par une feuille de styles qui définit les caractéristiques physiques...

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.