Codages à 8 bits
Codage des caractères

H7008 v1 Article de référence

Codages à 8 bits
Codage des caractères

Auteur(s) : Jacques ANDRÉ

Date de publication : 10 nov. 2001

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - Échange et restitution de caractères

1.1 - Codage et normes

Tableau 1
1.2 - Caractères et glyphes

Tableau 2
1.3 - Échange et restitution de caractères

Tableau 3

2 - Codages à moins de 7 moments

2.1 - Télex (IA2) à 5 moments
2.2 - Codage BCD (6 bits)
2.3 - Codage CDC (6 bits)

Tableau 4 Tableau 5

3 - Codage à 7 bits : Ascii ou ISO 646

4 - Codages à 8 bits

4.1 - ISO 8859-n et les ISO Latin

Tableau 8 Tableau 9
4.2 - Autres codages à 8 bits

Figure 1 - Partie de l’Unicode : API Tableau 10 Tableau 11 Tableau 12 Tableau 13

5 - Codage 16 ou 32 bits : Unicode et ISO 10646

5.1 - Principes d’Unicode
5.2 - Contenu et principes de codage d’Unicode
5.3 - Définition d’Unicode

Figure 2 - Zones d'Unicode Tableau 14
5.4 - Modèles de codage et de stockage

Tableau 15 Tableau 16
5.5 - Comparaison Unicode et ISO / IEC 10646

Tableau 17
5.6 - Retour sur le concept de glyphe

6 - Échange de caractères sur Internet

6.1 - Organismes
6.2 - Codage des caractères avec X400
6.3 - Courrier électronique
6.4 - HTML et XML

Tableau 18
6.5 - Multilinguisme

7 - Outils de transcodage

8 - Conclusion

Bibliographie & annexes

Présentation

Auteur(s)

Jacques ANDRÉ : Directeur de recherche Irisa / Inria-Rennes

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

Un codage de caractère est un ensemble de couples associant à chaque caractère un nom et une valeur numérique. Après avoir explicité le concept de caractère (entité abstraite) et celui de glyphe (forme graphique), on présente les divers standards ou normes d’échange de caractères en fonction de la taille des répertoires. On présente notamment les codages Ascii (7 bits, utilisé pour l’américain), Latin-1 (8 bits, utilisé pour les langues de l’Europe de l’ouest) et le nouveau codage universel Unicode (16 bits, couvrant toutes les langues du monde). On montre enfin l’utilisation de ces normes dans le cadre de l’échange d’information sur le web, en particulier pour le courrier électronique (RFC, MIME) et par le biais d’HTML et de XML.

Cet article est essentiellement consacré aux normes d’échanges de caractères, un second article [H 7 012] devant traiter des problèmes d’impression ou d’affichage de ces caractères (c’est-à-dire de ce que l’on nomme souvent les « fontes »). Dans l’introduction du présent article, nous expliquons la différence entre ces domaines et en précisons les limites. Un troisième article [H 7 014] traitera de saisie et notamment des claviers et enfin un quatrième [H 7 358] de multilinguisme.

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h7008

Lecture en cours
Présentation

Page
suivante

Codage 16 ou 32 bits : Unicode et ISO 10646

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

4. Codages à 8 bits

4.1 ISO 8859-n et les ISO Latin

L’anglais étant pratiquement la seule langue utilisable avec l’Ascii, de nombreux organismes ont bien sûr tenté de définir des normes plus riches. Outre divers « standards de facto » comme EBCDIC (cf. § 4.2.2 ), il convient de citer ici la norme la plus importante pour les langues européennes, définie par l’ISO et connue sous le nom d’ISO / IEC 8859-n (avec, actuellement, n de 1 à 16) qui est une extension à 8 bits de l’Ascii. Le seul fait de passer de 7 à 8 bits permettait de doubler le nombre de caractères, donc de passer à 256 caractères (moins les fameux caractères de contrôle !). Comme les langues en usage en Europe utilisent plus de 256 caractères différents, il a été décidé de définir plusieurs codages et de regrouper ceux-ci par affinités... commerciales. C’est ainsi qu’il y a ISO Latin-1 pour la zone occidentale, Latin-2 pour la zone orientale, etc. Pour des raisons politico-économiques, un codage spécial (Latin-5) a dû être ajouté pour la Turquie et ses partenaires ! Par ailleurs, depuis quelques années, de nouveaux codages sont proposés pour satisfaire la qualité « linguistique » de certains alphabets : c’est ainsi que le codage Latin-9 corrige les manques de Latin-1 pour le français (où « Œ », « œ » et « Ÿ » étaient absents) et que Latin-8 permet d’écrire l’an- cienne orthographe du gaélique irlandais. Le tableau 8 donne la liste de ces variantes.

HAUT DE PAGE

4.1.1 ISO Latin-1

Les caractères du codage Latin-1 sont montrés dans le tableau 9 et en .

On y remarque que les « ligatures » Œ et œ ainsi que la capitale Ÿ en sont absentes [2]. Mais à part cette erreur, Latin-1 permet de coder tous les caractères français et d’Europe occidentale ; c’est pourquoi elle a été adoptée par de très nombreux produits (ou d’autres normes comme...

Cet article est réservé aux abonnés.
Il vous reste 94 % à découvrir.