Échange de caractères sur Internet
Codage des caractères
H7008 v1 Article de référence

Échange de caractères sur Internet
Codage des caractères

Auteur(s) : Jacques ANDRÉ

Date de publication : 10 nov. 2001

Logo Techniques de l'Ingenieur Cet article est réservé aux abonnés
Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?

Présentation

1 - Échange et restitution de caractères

2 - Codages à moins de 7 moments

3 - Codage à 7 bits : Ascii ou ISO 646

4 - Codages à 8 bits

5 - Codage 16 ou 32 bits : Unicode et ISO 10646

6 - Échange de caractères sur Internet

  • 6.1 - Organismes
  • 6.2 - Codage des caractères avec X400
  • 6.3 - Courrier électronique
  • 6.4 - HTML et XML
  • 6.5 - Multilinguisme

7 - Outils de transcodage

8 - Conclusion

Sommaire

Présentation

Auteur(s)

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

Un codage de caractère est un ensemble de couples associant à chaque caractère un nom et une valeur numérique. Après avoir explicité le concept de caractère (entité abstraite) et celui de glyphe (forme graphique), on présente les divers standards ou normes d’échange de caractères en fonction de la taille des répertoires. On présente notamment les codages Ascii (7 bits, utilisé pour l’américain), Latin-1 (8 bits, utilisé pour les langues de l’Europe de l’ouest) et le nouveau codage universel Unicode (16 bits, couvrant toutes les langues du monde). On montre enfin l’utilisation de ces normes dans le cadre de l’échange d’information sur le web, en particulier pour le courrier électronique (RFC, MIME) et par le biais d’HTML et de XML.

Cet article est essentiellement consacré aux normes d’échanges de caractères, un second article [H 7 012] devant traiter des problèmes d’impression ou d’affichage de ces caractères (c’est-à-dire de ce que l’on nomme souvent les « fontes »). Dans l’introduction du présent article, nous expliquons la différence entre ces domaines et en précisons les limites. Un troisième article [H 7 014] traitera de saisie et notamment des claviers et enfin un quatrième [H 7 358] de multilinguisme.

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h7008

Lecture en cours
Présentation

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

6. Échange de caractères sur Internet

Internet est le lieu idéal pour l’échange de caractères. Il est donc important de voir l’usage qui y est fait de ces normes et codages.

6.1 Organismes

Faisons d’abord un rappel sur les organismes impliqués par ces réseaux. Deux groupes (CCITT / ITU+ISO d’une part et IETF d’autre part) ont suivi la normalisation de l’Arpanet puis de l’Internet. Par ailleurs, le WWW (World Wide Web, disons Internet avec les normes comme HTML, XML, etc.) relève d’un autre organisme, le W3C.

CCITT/ ITU+ISO

Le CCITT, devenu ITU (International Telecommunication Union ), et l’ISO, qui ont notamment été à l’origine du protocole X400, sont les principaux organismes de normalisation d’échange de caractères.

IETF

Actuellement, le développement d’Internet est suivi par une organisation connue sous le nom de IETF (Internet Engineering Task Force ) qui publie des spécifications appelées RFC (Requests For Comments ). Ces notes (qui existaient en fait pour l’Arpanet depuis 1969) jouent un rôle très important dans le processus de normalisation d’Internet. Elles concernent aussi bien des protocoles de réseaux, des programmes, des codages (comme MIME, cf. § 6.3.3), des notes informelles ou humoristiques que le processus de publication des RFC elles-mêmes (RFC 2026).

Deux points différencient ces deux organismes : d’abord il se trouve que le protocole X400 est de moins en moins utilisé et ensuite que, alors que ITU et ISO vendent leurs normes, IETF les diffuse gratuitement (toutes ces RFC sont accessibles sur les sites des organismes IETF, ISI, ITU, OII et RFC, cf. ).

W3C

Le consortium W3C comprend des centres de recherche (comme l’Inria en France) et des sociétés commerciales (comme Microsoft ou Apple). Celui-ci s’appuie sur les RFC et sur les normes ISO et produit des « recommandations » (seule l’ISO produit des normes) comme la définition de XML.

HAUT DE PAGE

6.2 Codage des caractères avec X400

Puisque X400 est de moins en moins employée, faisons juste un rappel pour dire que les caractères utilisés par X400 étaient ceux de US-Ascii en utilisant de façon...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 94 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Lecture en cours
Échange de caractères sur Internet

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - AKIRA (M.) -   Writing Systems of the World : Alphabets, Syllabaries, Pictograms,  -  Charles E Tuttle Co ; ISBN : 0804816549, octobre 1990.

  • (2) - ANDRÉ (J.) -   IsoLatin-1, une norme de codage de caractères européens ? trois caractères français en sont absent !  -  Cahier GUTenberg, no 25, p. 65-77. Voir [18], novembre 1996.

  • (3) - ANDRÉ (J.) -   Iso-Latin-9, euro et typographie française.  -  Document numérique, vol. 2, no 2, p. 231-240 (1998).

  • (4) - AUMONT (S.), DIRLEWANGER (R.) -   Recevoir les accents dans votre messagerie, c’est possible...  -  Document numérique, vol. 2, no 1, p. 93-101 (1998). http://www.cru.fr/listes/apropos/accents.html

  • (5) - BEEBE (N.) -   Fonts for the Unicode Character Set.  -  http://www.math.utah.edu/~beebe/fonts/unicode.html

  • (6) - BIGELOW...

1 Sites Internet

HAUT DE PAGE

1.1 Normes et standards de codage de caractères

Alphabet phonétique international/IPA : http://www.arts.gla.ac.uk/IPA/ipa.html

EBCDIC : http://www4.ibm.com/software/ts/mqseries/support/faqs/conver16.html/ http://anubis.dkuug.dk/i18n/charmaps/

ISO 2022 : http://www.iso.ch/catf/d22747.html

ISO 8859 : http://babel.alis.com/codage/iso8859/

Latin-9 : LABONTÉ (A.) et EVERSON (M.). – Épreuve finale pour l’alphabet latin no 9 : http://www.indigo.ie/egt/standards/iso8859/8859-15-fr.pdf

Latin-10 : EVERSON (M.), CD pour l’alphabet latin no 10 : http://www.indigo.ie/egt/standards/iso8859/cd8859-16-fr.pdf

Standard Roman Character Set d’Apple : http://developer.apple.com/techpubs/mac/Text/Text-30.htmlMARKER-9-69

STIX : Proposition pour le codage des caractères MathML : http://www.ams.org/STIX/

UNICODE :...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Ressources documentaires

Protocoles SSL/TLS

Cet article a pour objet la sécurisation des applications de type client-serveur sur Internet. La ...

XML : syntaxe

C’est une certitude, le langage XML est la nouvelle base du document numérique, grâce à ses nombreux ...

Métadonnées, ontologies et documents numériques

L'arrivée du XXIe siècle coïncide avec une explosion du volume des informations numériques qu’il importe ...