Structuration XML
XML et son écosystème
H3502 v2 Article de référence

Structuration XML
XML et son écosystème

Auteur(s) : Gérald Kembellec, Nicolas TRAVERS

Date de publication : 10 juin 2021 | Read in English

Logo Techniques de l'Ingenieur Cet article est réservé aux abonnés
Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?

Présentation

1 - Évolution conceptuelle des langages documentaires

2 - Contexte historique et généalogie de l’XML

  • 2.1 - GML
  • 2.2 - SGML
  • 2.3 - HTML

3 - Structuration XML

4 - Universalité XML : espaces de nommage et schémas

5 - Usages du XML

6 - Manipulation de collections XML

7 - Conclusion et ouverture

Sommaire

Présentation

RÉSUMÉ

Cet article traite de la structuration de fichiers XML, de la manière de les produire, de les utiliser, de les requêter à travers divers prismes. En effet, après une courte introduction historique sur les causes industrielles et intellectuelles qui ont amené à l’avènement d’XML comme format de stockage de données et d’informations, l’article revient sur les grammaires et vocabulaires qui permettent la structuration et la qualification documentaire dans l’industrie ou la culture. L’article se poursuit par l’application des règles du XML dans la gestion des connaissances et par une incursion dans le Web des données liées. Enfin, l’article présente XML comme structure, vecteur de stockage et de partage de données : il explore le potentiel d’XML comme base de données, les méthodes de requêtage, d’échange et de flux de données.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

  • Gérald Kembellec : Chargé de recherche au Centre Historique Allemand, Département des Humanités Numériques - Maître de conférences au CNAM en détachement - Laboratoire Dicen-IdF (EA 7339) / Thématique(s) de recherche : Data, médiation, valorisation - Paris, France

  • Nicolas TRAVERS : Enseignant-Chercheur au Léonard de Vinci Research Center, Pôle Universitaire - Maître de conférences au CNAM en détachement - Laboratoire DVRC / Pôle Universitaire, Paris, France - Chercheur associé au laboratoire CEDRIC / CNAM, Paris, France

INTRODUCTION

L’apparition des systèmes d’information dans l'industrie a conduit à la création des langages informatiques pour stocker des données au sein de dispositifs et créer de l’information, mais aussi décrire cette dernière et effectuer des computations. Enfin, d’autres langages furent inventés pour présenter les données ou les informations qui en sont issues. Dans cet article, nous présentons une focale sur un langage en particulier, le XML, qui offre la particularité de se décliner pour répondre à la plupart des besoins cités – hors la programmation. Le XML et ses dialectes offrent la possibilité de stocker, décrire, filtrer, interroger et présenter les contenus. De plus, il s’agit d’un langage libre et ouvert, ne nécessitant pas de logiciel spécifique pour son utilisation.

Nous présentons ici un aspect historique expliquant l’apparition de XML, ses évolutions et sans être exhaustif, les différents cadres d’usage. Cet article est illustré par de nombreux exemples techniques pour mieux appréhender les dialectes les plus représentatifs de ce langage.

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


MOTS-CLÉS

XML XPath XQuery RDF

VERSIONS

Il existe d'autres versions de cet article :

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v2-h3502

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

3. Structuration XML

XML (pour eXtensible Markup Language) est un langage qui permet de structurer de l’information textuelle. La première version apparaît en 1998 suite aux recommandations du XML Core Working Group du W3C (voir section « Normes et standards »), dont le formatage est fortement inspiré du SGML et du HTML vus précédemment. La version 1.1 de XML (voir section « Normes et standards ») est la dernière modification apportée à ce format en 2008. Les principales différences viennent d’une part de l’utilisation des caractères Unicode 4.0, aussi bien dans le texte (version 1.0) que les balises ou les attributs, et d’autre part d’une liberté accrue sur les noms des balises. Nous allons voir dans ce qui suit la structure d’un document XML.

3.1 Balises

La principale ressemblance avec les langages de formatage repose sur les balises (ou éléments), comme pour HTML. Elles permettent de « marquer » les différentes parties d’un contenu. Le but de ces balises est de permettre aux applications qui vont les lire de se repérer dans le contenu. L’exemple de la figure 1 illustre le contenu formaté d’un document XML.

Un document XML est précédé d’un en-tête de description avec la version, ici « 1.1 » et l’encodage du texte « UTF-8 » (voir section « Normes et standards »). Un document XML est composé d’une seule et unique balise racine, ici « livre ». La balise racine peut, quant à elle, être composée de plusieurs balises et textes.

Toute balise ouverte (ex. « <livre> ») doit toujours être fermée explicitement, soit avec une nouvelle balise du même nom en ajoutant le caractère « / » au début (ex. « titre » ou « chapitre »).

Pour ce faire, la balise ouvrante peut soit être fermée directement (ex. « <saut/> »), soit avec une balise de fermeture commençant par un slash (ex. « </livre> »).

Chaque nom de balise est encadré par les caractères « < » et « > », et les caractères sont sensibles à la casse (minuscules et majuscules). Le nom ne doit pas contenir d’espaces, et depuis la version XML 1.1, il est possible d’utiliser des caractères...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Lecture en cours
Structuration XML

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - OTLET (P.) -   Traité de documentation : le livre sur le livre, théorie et pratique,  -  Bruxelles, Editions Mundaneum, p. 238, point 243.54.e) (1934).

  • (2) - BUSH (V.) -   « As we may think », The atlantic monthly,  -  176-1, p. 101-108 (1945).

  • (3) - BERNERS-LEE (T.), FISCHETTI (M.) -   Weaving the Web: the past, present and future of the World Wide Web by its inventor,  -  Londres, Texere, p. 45-46 (2000).

  • (4) - ABITEBOUL (S.), MANOLESCU (I.), RIGAUX (P.), et al -   Web data management.  -  Cambridge University Press, p. 72.-92 (2011).

NORMES

  • ISO Traitement de l’information – Systèmes bureautiques – Langage normalisé de balisage généralisé (SGML) - ISO 8879 1986 ISO - 1986

  • ISO Technologies de l’information – Description des documents et langages de traitement – Formats de fichier "Office Open XML" – Partie 1 : Principes essentiels et référence de langage de balisage - ISO/IEC 29500-1 - 2016

  • ISO Information et documentation – L’ensemble des éléments de métadonnées Dublin Core - ISO 15836-2 - 2019

  • (éditeurs. Tim Bray, Jean Paoli, C. M. Sperberg-McQueen, Eve Maler et François Yergeau) Extensible Markup Language (XML)1.0, - W3C - 1998

  • (éditeurs. Tim Bray, Jean Paoli, C. M. Sperberg-McQueen, Eve Maler, François Yergeau et John Cowan), Extensible Markup Language (XML) 1.1 (Second Edition), - W3C - 2006

  • (éditeurs. Tim Bray, Jean Paoli, C. M. Sperberg-McQueen, Eve Maler et François Yergeau) Extensible Markup Language (XML) 1.0 (Fifth Edition) - W3C - 2008

  • ...

1 Logiciels et outils

Éditeurs génériques

JEdit est un éditeur multiplateformes sous licence GNU GPL écrit en Java qui autorise l’édition de fichiers XML, permet de générer des DTD à partir d’un modèle XML.

Voir https://www.sourceforge.net/projects/jedit/files/jedit/

Emacs est un éditeur multiplateformes sous licence GNU GPL avec beaucoup d’extensions,

Voir https://www.gnu.org/software/emacs/

Notepad++ est un éditeur pour Microsoft sous licence GNU GPL écrit en C++

Voir https://www.notepad-plus-plus.org/

Bibliothèques de programmation spécialisées

Java API for XML Processing (JAXP) est l’interface de programmation Oracle permettant la création, la manipulation et le traitement de fichiers XML en DOM (ou SAX ou StAX,) et la transformation transformer avec XSL.

Voir https://docs.oracle.com/javase/tutorial/jaxp/index.html

Xerces est un ensemble de bibliothèques logicielles l’Apache Software Foundation pour la lecture et le traitement XML DOM et SAX en C++, Perl et Java.

Voir https://xerces.apache.org/

Libxml2 est un analyseur XML en C (et langages dérivés) libre disponible sous la licence du MIT. Il contient également ensemble d’outils annexes élaborés pour le traitement XML.

Voir http://www.xmlsoft.org/

xml.dom est une bibliothèque Python pour accéder et modifier les documents XML en DOM

Voir https://docs.python.org/fr/3/library/index.html...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 94 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Ressources documentaires

Métadonnées, ontologies et documents numériques

L'arrivée du XXIe siècle coïncide avec une explosion du volume des informations numériques qu’il importe ...

XML : syntaxe

C’est une certitude, le langage XML est la nouvelle base du document numérique, grâce à ses nombreux ...