Reconnaissance de l’imprimé : Domaine d’intérêt, types de documents et applications

Sommaire
Médias

Présentation

1 - Domaine d’intérêt, types de documents et applications

1.1 - Domaine d’intérêt
1.2 - Supports et formes de documents
1.3 - Formes images
1.4 - Formes électroniques codées
1.5 - Reconnaissance de documents
1.6 - Avantages des formes électroniques codées par rapport aux formes image
1.7 - Applications

2 - Documents imprimés : contenu et structure

2.1 - Mise en page
2.2 - Zones présentes dans un document
2.3 - Notions de typographie
2.4 - Structure physique et structure logique

3 - Composantes d’un système de reconnaissance

3.1 - Acquisition ou numérisation
3.2 - Redressement
3.3 - Binarisation
3.4 - Segmentation des pages
3.5 - Reconnaissance des caractères
3.6 - Reconnaissance de la structure logique
3.7 - Transcodage

4 - Traitements préliminaires

4.1 - Variété et encombrement des images de documents

Figure 3 - Exemples de tramage
4.2 - Acquisition des images et choix des modes de travail
4.3 - Redressement

SL4398587-web
4.4 - Binarisation
4.5 - Segmentation des pages à partir du texte
4.6 - Détection et localisation des tableaux
4.7 - Détection et localisation des formules mathématiques
4.8 - Détection et localisation des graphiques

5 - Reconnaissance des caractères (OCR)

5.1 - Structure des caractères et variété
5.2 - Déformations dues à l’impression, la reproduction, la numérisation
5.3 - Erreurs de reconnaissance et mesure des performances
5.4 - Définition de la reconnaissance de caractères
5.5 - Processus mis en œuvre
5.6 - Les trois générations de logiciels d’OCR. Typologie des méthodes

Tableau 1
5.7 - Extraction des caractéristiques et primitives

Figure 15 - Squelette d’un caractère
5.8 - Décision et classement
5.9 - Classification et apprentissage
5.10 - Combinaison de plusieurs méthodes de reconnaissance
5.11 - Posttraitements : levées d’ambiguïtés et utilisation de lexiques
5.12 - Reconnaissance des fontes

6 - Reconnaissance des zones non textuelles

6.1 - Tableaux
6.2 - Formules mathématiques
6.3 - Graphiques et schémas

7 - Reconnaissance industrielle et voies d’évolution

8 - Conclusion

Bibliographie & annexes

Présentation

Auteur(s)

Philippe LEFÈVRE : Ingénieur ESE - Direction des Études et Recherches d’EDF

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

L’invention du procédé d’impression typographique par Gutenberg vers 1440 a transformé radicalement notre société par une diffusion plus large et plus rapide des connaissances. L’avènement actuel des réseaux et la dématérialisation de l’information, qui devient électronique et numérique, constituent une révolution de même importance.

Le rêve d’un monde sans papier, qui hante les professionnels de l’informatique et de la documentation depuis bientôt quatre décennies, semble sur le point de devenir une réalité : on ne peut plus ouvrir une revue informatique sans y trouver plusieurs articles sur Internet, les bases de données en ligne, les CD-ROM... L’information est devenue aujourd’hui omniprésente, et sa maîtrise est considérée comme un facteur essentiel de réussite. Or cette information est constituée à 80 % de données textuelles. Les connaissances, qu’elles soient techniques, scientifiques, historiques, économiques, juridiques, médicales... sont en majorité mémorisées et véhiculées par des textes. Celles qui ont été publiées récemment sont directement accessibles sous forme électronique. Par contre, la majorité du patrimoine culturel et technique de l’humanité n’est encore disponible que sous forme de documents papier. Les entreprises et les collectivités sont ainsi confrontées à un besoin énorme de retraitement, dit aussi conversion rétrospective, pour passer à un format électronique.

Ce besoin, en plus du défi de faire lire l’ordinateur comme un être humain, a motivé de nombreuses études depuis les années 1960. Elles ont produit de multiples logiciels de reconnaissance de caractères. Les résultats ont souvent été décevants, car la complexité du problème avait été largement sous-estimée au départ, et les puissances informatiques nécessaires à l’accomplissement d’une telle tâche avec une productivité suffisante ne sont disponibles que depuis peu.

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h1348

Lecture en cours
Présentation

Page
suivante

Documents imprimés : contenu et structure

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(65 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

1. Domaine d’intérêt, types de documents et applications

1.1 Domaine d’intérêt

Le domaine étudié ici concerne la reconnaissance des documents dactylographiés et imprimés sur support papier : livres, journaux, revues, notes techniques, imprimés divers... qui sont de nature majoritairement textuelle. En sont exclus tous les documents manuscrits, ainsi que les formulaires, plans, schémas, dessins, photos... c’est-à-dire les documents à dominante graphique ou photographique.

HAUT DE PAGE

1.2 Supports et formes de documents

Du fait des progrès techniques, la notion de document a évolué au cours du temps. Elle recouvre aujourd’hui plusieurs supports et formes (ou formats) qui coexistent. Nous distinguerons :

les documents imprimés sur support papier, que nous appellerons forme papier d’un document ;
les documents électroniques, ou numériques, stockés sur support informatique, qui se divisent eux-mêmes en :
- documents électroniques en mode image, que nous appellerons forme image,
- documents électroniques codés, par exemple en ASCII, dits forme codée,
- documents électroniques codés et structurés (avec des marques de titre, paragraphe...), ou forme structurée.

HAUT DE PAGE

1.3 Formes images

Du fait de la complexité de la reconnaissance, la gestion électronique de documents (GED) a jusqu’ici principalement utilisé la forme image, ou image numérique, obtenue après numérisation des documents à l’aide d’un scanner. Celle-ci est une représentation de la page par une succession de pixels, ou points élémentaires, qui sont l’équivalent des grains d’une photographie. Plusieurs codages des images sont utilisés. En GED, on utilise essentiellement un codage biniveau : chaque pixel est représenté par un seul bit qui prend deux valeurs : 1 ou 0 (noir ou blanc). Cependant, la reproduction fidèle des photos et des documents de qualité dégradée nécessite un codage en niveaux de gris, voire en couleurs (§ ...

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

Lecture en cours
Domaine d’intérêt, types de documents et applications

Page
précédentePrésentation

Page
suivante

Documents imprimés : contenu et structure

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(65 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

BIBLIOGRAPHIE

(1) - VAN HERWIJNEN (E.) - Practical SGML. - Kluwer Academic Publishers (1992).
(2) - LEFÈVRE (P.), FELTER (C.), LOBBRECHT (P.) - Reconnaissance de documents : passage du document papier à l’information électronique. - Revue Epure, EDF Direction des Études et Recherches no 58 (1998).
(3) - DREYFUS (J.), RICHAUDEAU (F.) - La chose imprimée. - Retz (1985).
(4) - INGOLD (R.) - Structures de documents et lecture optique : une nouvelle approche. - Presses polytechniques romandes (1990).
(5) - SGML-ODA : Présentation des concepts et comparaison fonctionnelle. - Afnor (1991).
(6) - JACNO (M.) - Anatomie de la lettre. - Compagnie française d’éditions (1978).
...