Présentation

Article

1 - DOMAINE D’INTÉRÊT, TYPES DE DOCUMENTS ET APPLICATIONS

  • 1.1 - Domaine d’intérêt
  • 1.2 - Supports et formes de documents
  • 1.3 - Formes images
  • 1.4 - Formes électroniques codées
  • 1.5 - Reconnaissance de documents
  • 1.6 - Avantages des formes électroniques codées par rapport aux formes image
  • 1.7 - Applications

2 - DOCUMENTS IMPRIMÉS : CONTENU ET STRUCTURE

  • 2.1 - Mise en page
  • 2.2 - Zones présentes dans un document
  • 2.3 - Notions de typographie
  • 2.4 - Structure physique et structure logique

3 - COMPOSANTES D’UN SYSTÈME DE RECONNAISSANCE

  • 3.1 - Acquisition ou numérisation
  • 3.2 - Redressement
  • 3.3 - Binarisation
  • 3.4 - Segmentation des pages
  • 3.5 - Reconnaissance des caractères
  • 3.6 - Reconnaissance de la structure logique
  • 3.7 - Transcodage

4 - TRAITEMENTS PRÉLIMINAIRES

5 - RECONNAISSANCE DES CARACTÈRES (OCR)

6 - RECONNAISSANCE DES ZONES NON TEXTUELLES

  • 6.1 - Tableaux
  • 6.2 - Formules mathématiques
  • 6.3 - Graphiques et schémas

7 - RECONNAISSANCE INDUSTRIELLE ET VOIES D’ÉVOLUTION

8 - CONCLUSION

| Réf : H1348 v1

Documents imprimés : contenu et structure
Reconnaissance de l’imprimé

Auteur(s) : Philippe LEFÈVRE

Date de publication : 10 mai 1999

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Sommaire

Présentation

Auteur(s)

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

L’invention du procédé d’impression typographique par Gutenberg vers 1440 a transformé radicalement notre société par une diffusion plus large et plus rapide des connaissances. L’avènement actuel des réseaux et la dématérialisation de l’information, qui devient électronique et numérique, constituent une révolution de même importance.

Le rêve d’un monde sans papier, qui hante les professionnels de l’informatique et de la documentation depuis bientôt quatre décennies, semble sur le point de devenir une réalité : on ne peut plus ouvrir une revue informatique sans y trouver plusieurs articles sur Internet, les bases de données en ligne, les CD-ROM... L’information est devenue aujourd’hui omniprésente, et sa maîtrise est considérée comme un facteur essentiel de réussite. Or cette information est constituée à 80 % de données textuelles. Les connaissances, qu’elles soient techniques, scientifiques, historiques, économiques, juridiques, médicales... sont en majorité mémorisées et véhiculées par des textes. Celles qui ont été publiées récemment sont directement accessibles sous forme électronique. Par contre, la majorité du patrimoine culturel et technique de l’humanité n’est encore disponible que sous forme de documents papier. Les entreprises et les collectivités sont ainsi confrontées à un besoin énorme de retraitement, dit aussi conversion rétrospective, pour passer à un format électronique.

Ce besoin, en plus du défi de faire lire l’ordinateur comme un être humain, a motivé de nombreuses études depuis les années 1960. Elles ont produit de multiples logiciels de reconnaissance de caractères. Les résultats ont souvent été décevants, car la complexité du problème avait été largement sous-estimée au départ, et les puissances informatiques nécessaires à l’accomplissement d’une telle tâche avec une productivité suffisante ne sont disponibles que depuis peu.

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h1348


Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(74 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

2. Documents imprimés : contenu et structure

2.1 Mise en page

Les pages constituent les unités physiques de base des documents papier, que ce soit pour la composition ou la lecture. Les dimensions acceptées par les logiciels de reconnaissance sont au maximum les formats letter ou A4 en bureautique, exceptionnellement le format A3 pour certains systèmes industriels. Ces pages sont constituées d’un fond blanc ou de couleur, sur lequel sont imprimées les informations utiles. En général, des marges sont laissées entre le bord de la page et le cadre qui entoure ces informations. La mise en page obéit à des règles typographiques précises.

HAUT DE PAGE

2.2 Zones présentes dans un document

Les informations imprimées sont de plusieurs natures, qui correspondent la plupart du temps à des zones distinctes dans les pages — mais on peut aussi avoir imbrication ou recouvrement de ces zones.

  • Texte

    Il constitue la partie la plus importante dans le cadre de cet article. L’information textuelle est par nature biniveau.

  • Dessins, graphiques et schémas

    Il s’agit de tous les éléments graphiques constitués majoritairement de traits et de points : dessins, schémas, plans, etc. La plupart, même s’ils incluent des couleurs, peuvent se réduire à une information biniveau.

  • Tableaux

    Ils sont constitués d’informations textuelles ou numériques présentées en lignes et en colonnes. Leur structure est régulière ou non, avec ou sans présence de filets qui délimitent les cellules contenant l’information élémentaire. L’information est biniveau.

  • Formules mathématiques

    Elles se distinguent du texte par la présence d’opérateurs arithmétiques, algébriques, logiques... ainsi que d’indices ou exposants, et l’utilisation de caractères tirés de l’alphabet grec, en plus des chiffres et des caractères latins. La nature de cette information est biniveau.

  • Photographies

    Elles sont caractérisées par le fait qu’elles incluent des plages de couleur ou des dégradés de gris. En imprimerie, la plupart des photographies sont restituées par un tramage de points noirs ou colorés ...

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(74 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Documents imprimés : contenu et structure
Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - VAN HERWIJNEN (E.) -   Practical SGML.  -  Kluwer Academic Publishers (1992).

  • (2) - LEFÈVRE (P.), FELTER (C.), LOBBRECHT (P.) -   Reconnaissance de documents : passage du document papier à l’information électronique.  -  Revue Epure, EDF Direction des Études et Recherches no 58 (1998).

  • (3) - DREYFUS (J.), RICHAUDEAU (F.) -   La chose imprimée.  -  Retz (1985).

  • (4) - INGOLD (R.) -   Structures de documents et lecture optique : une nouvelle approche.  -  Presses polytechniques romandes (1990).

  • (5) -   SGML-ODA : Présentation des concepts et comparaison fonctionnelle.  -  Afnor (1991).

  • (6) - JACNO (M.) -   Anatomie de la lettre.  -  Compagnie française d’éditions (1978).

  • ...

1 Thèses

* - Le catalogue du système universitaire de documentation peut être consulté en ligne : http://www.sudoc.abes.fr

BEHEIM (L.) - Coopération entre segmentation et reconnaissance des caractères imprimés dégradés. - Université de Paris-6 (2001).

LAVIROTTE (S.) - Reconnaissance structurelle de formules mathématiques typographiées et manuscrites. - Université de Nice (2000).

HAUT DE PAGE

2 Revues spécialisées

En français :

Traitement du Signal http://www.lis.inpg.fr/revue

En anglais :

IEEE...

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(74 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS