Contactez-nous
Reconnaissance des caractères (OCR)
Reconnaissance de l’imprimé
H1348 v1 Archive

Reconnaissance des caractères (OCR)
Reconnaissance de l’imprimé

Auteur(s) : Philippe LEFÈVRE

Date de publication : 10 mai 1999

Logo Techniques de l'Ingenieur Cet article est réservé aux abonnés
Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?

Présentation

1 - Domaine d’intérêt, types de documents et applications

  • 1.1 - Domaine d’intérêt
  • 1.2 - Supports et formes de documents
  • 1.3 - Formes images
  • 1.4 - Formes électroniques codées
  • 1.5 - Reconnaissance de documents
  • 1.6 - Avantages des formes électroniques codées par rapport aux formes image
  • 1.7 - Applications

2 - Documents imprimés : contenu et structure

  • 2.1 - Mise en page
  • 2.2 - Zones présentes dans un document
  • 2.3 - Notions de typographie
  • 2.4 - Structure physique et structure logique

3 - Composantes d’un système de reconnaissance

  • 3.1 - Acquisition ou numérisation
  • 3.2 - Redressement
  • 3.3 - Binarisation
  • 3.4 - Segmentation des pages
  • 3.5 - Reconnaissance des caractères
  • 3.6 - Reconnaissance de la structure logique
  • 3.7 - Transcodage

4 - Traitements préliminaires

5 - Reconnaissance des caractères (OCR)

6 - Reconnaissance des zones non textuelles

  • 6.1 - Tableaux
  • 6.2 - Formules mathématiques
  • 6.3 - Graphiques et schémas

7 - Reconnaissance industrielle et voies d’évolution

8 - Conclusion

Sommaire

Présentation

Auteur(s)

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

L’invention du procédé d’impression typographique par Gutenberg vers 1440 a transformé radicalement notre société par une diffusion plus large et plus rapide des connaissances. L’avènement actuel des réseaux et la dématérialisation de l’information, qui devient électronique et numérique, constituent une révolution de même importance.

Le rêve d’un monde sans papier, qui hante les professionnels de l’informatique et de la documentation depuis bientôt quatre décennies, semble sur le point de devenir une réalité : on ne peut plus ouvrir une revue informatique sans y trouver plusieurs articles sur Internet, les bases de données en ligne, les CD-ROM... L’information est devenue aujourd’hui omniprésente, et sa maîtrise est considérée comme un facteur essentiel de réussite. Or cette information est constituée à 80 % de données textuelles. Les connaissances, qu’elles soient techniques, scientifiques, historiques, économiques, juridiques, médicales... sont en majorité mémorisées et véhiculées par des textes. Celles qui ont été publiées récemment sont directement accessibles sous forme électronique. Par contre, la majorité du patrimoine culturel et technique de l’humanité n’est encore disponible que sous forme de documents papier. Les entreprises et les collectivités sont ainsi confrontées à un besoin énorme de retraitement, dit aussi conversion rétrospective, pour passer à un format électronique.

Ce besoin, en plus du défi de faire lire l’ordinateur comme un être humain, a motivé de nombreuses études depuis les années 1960. Elles ont produit de multiples logiciels de reconnaissance de caractères. Les résultats ont souvent été décevants, car la complexité du problème avait été largement sous-estimée au départ, et les puissances informatiques nécessaires à l’accomplissement d’une telle tâche avec une productivité suffisante ne sont disponibles que depuis peu.

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 94 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h1348

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

5. Reconnaissance des caractères (OCR)

Rappelons que dans cet article, on se limite à la reconnaissance des caractères dactylographiés ou imprimés de l’alphabet latin.

5.1 Structure des caractères et variété

Plusieurs éléments de style peuvent différer d’une fonte à l’autre, ce qui explique les multiples variétés existantes [6]. Citons la graisse, la stature (rapport hauteur-largeur), l’italique (inclinaison), le contraste entre les pleins et les déliés, l’aplatissement des rondeurs, la présence ou l’absence d’empattements, la nuance anglaise (arrondissement des empattements). La classification Vox, retenue par l’Association typographique internationale, regroupe les fontes en une dizaine de classes (figure 10).

Quelques valeurs numériques sont nécessaires pour situer l’ampleur du problème : en dactylographie, on recense facilement entre les divers constructeurs plus de 200 polices différentes, chacune dans un seul corps ; en imprimerie, le catalogue d’un seul fournisseur, comme la Monotype, comporte plus de 8 000 fontes, avec tous les corps possibles pour chacune (échelle de 6 à 100).

HAUT DE PAGE

5.2 Déformations dues à l’impression, la reproduction, la numérisation

En fait, les logiciels de reconnaissance sont confrontés à des millions de formes possibles, car aux variantes de fontes viennent s’ajouter les différences dues aux qualités d’impression et de reproduction des documents. Une impression ou une photocopie de mauvaise qualité engendrent des caractères collés, coupés, ou du bruit de fond. Il faut tenir compte en plus des dégradations dues à l’acquisition : problèmes d’échantillonnage (résolution), de numérisation et de seuillage déjà évoqués. Cela accentue les phénomènes de déformation, collage ou cassure des caractères (figure 11).

HAUT...
Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 94 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Lecture en cours
Reconnaissance des caractères (OCR)

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - VAN HERWIJNEN (E.) -   Practical SGML.  -  Kluwer Academic Publishers (1992).

  • (2) - LEFÈVRE (P.), FELTER (C.), LOBBRECHT (P.) -   Reconnaissance de documents : passage du document papier à l’information électronique.  -  Revue Epure, EDF Direction des Études et Recherches no 58 (1998).

  • (3) - DREYFUS (J.), RICHAUDEAU (F.) -   La chose imprimée.  -  Retz (1985).

  • (4) - INGOLD (R.) -   Structures de documents et lecture optique : une nouvelle approche.  -  Presses polytechniques romandes (1990).

  • (5) -   SGML-ODA : Présentation des concepts et comparaison fonctionnelle.  -  Afnor (1991).

  • (6) - JACNO (M.) -   Anatomie de la lettre.  -  Compagnie française d’éditions (1978).

  • ...

1 Thèses

* - Le catalogue du système universitaire de documentation peut être consulté en ligne : http://www.sudoc.abes.fr

BEHEIM (L.) - Coopération entre segmentation et reconnaissance des caractères imprimés dégradés. - Université de Paris-6 (2001).

LAVIROTTE (S.) - Reconnaissance structurelle de formules mathématiques typographiées et manuscrites. - Université de Nice (2000).

HAUT DE PAGE

2 Revues spécialisées

En français :

Traitement du Signal http://www.lis.inpg.fr/revue

En anglais :

IEEE...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre