Langages de manipulation de documents électroniques
Bases de données documentaires

H7248 v1 Article de référence

Langages de manipulation de documents électroniques
Bases de données documentaires

Auteur(s) : Claude CHRISMENT, Jacques LE MAITRE, Florence SÈDES

Date de publication : 10 mai 2000 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - Architecture de base documentaire

1.1 - Éléments de terminologie
1.2 - Organisation générale
1.3 - Espace de mémorisation : les nœuds

Figure 2 - Document balisé Figure 3 - Localisateur
1.4 - Espace de structuration : les unités documentaires

Figure 5 - SL4399711-web
1.5 - Espace de structuration : les ancres

2 - Intégration de documents semi-structurés

2.1 - Choix d’une représentation-pivot
2.2 - Réécriture
2.3 - Quelques références de systèmes

3 - Un langage de manipulation de documents

3.1 - Construction d’un composant
3.2 - Indexation

Figure 11 - Index composés
3.3 - Filtrage
3.4 - Extraction
3.5 - Transformation d’un élément

4 - Langages de manipulation de documents électroniques

4.1 - Aperçu général
4.2 - Une approche actuelle : les langages d’interrogation du Web

5 - Conclusion

Bibliographie & annexes

Présentation

Auteur(s)

Claude CHRISMENT : Docteur ès sciences - Professeur d’informatique à l’université Toulouse III Paul-Sabatier
Jacques LE MAITRE : Habilité à diriger des recherches - Professeur d’informatique à l’université de Toulon et du Var
Florence SÈDES : Habilitée à diriger des recherches - Maître de conférences en informatique à l’université Toulouse II

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

Les applications dans le domaine documentaire reposent sur la fonction de mémorisation qui doit être intégrée à d’autres fonctionnalités autorisant l’exploration, la réutilisation partielle du contenu des documents mémorisés et parfois même leur restructuration. A titre d’exemple, on peut citer toutes les applications informatiques liées aux activités de test d’intégration et de maintenance d’objets structurés – assemblage de composants – qu’elles s’inscrivent dans un contexte de génie logiciel (composants logiciels), spatial (intégration de satellites : composants satellites), aérospatial (composants d’avions), etc. Généralement, les composants sont décrits dans des manuels de spécification qui doivent être repris (réutilisés, adaptés) dans le cadre des activités d’intégration, de test, de maintenance. Les problèmes liés à la multiplicité des sources de données hétérogènes se sont encore accrus avec l’essor du Web. Il est nécessaire de disposer d’outils d’intégration et de modèles pour avoir une vision abstraite et synthétique, et rendre accessibles et manipulables ces grands volumes de données constitués en véritables entrepôts.

La mise en œuvre de tels systèmes de gestion de documents électroniques nécessite généralement le recours aux systèmes de gestion de bases de données pour assurer les fonctions interdépendantes de mémorisation et d’accès aux informations. L’accès et la recherche d’informations dans les documents électroniques s’effectuent généralement selon trois modes. Le premier, essentiellement utilisé pour des données textuelles, consiste à rechercher une chaîne – plus généralement un motif – dans un texte : on le rencontre dans les systèmes de recherche d’informations qui mettent en œuvre des mécanismes d’indexation « en texte intégral » et d’appariement textuel. Le deuxième repose sur la connaissance a priori d’une structure totale définie sur les données manipulées : on le rencontre dans les systèmes de gestion de bases de données où il est mis en œuvre à travers le schéma de la base de données et un langage d’interrogation basé sur un ensemble fini d’opérateurs. Le troisième met en œuvre des mécanismes de balayage et de navigation sur des informations faiblement structurées. On le rencontre dans les systèmes hypertextes et en particulier sur le Web. Ces trois approches doivent être supportées par tout système de gestion de documents électroniques.

Le concept de document est associé à celui d’informations semi-structurées qui sont caractérisées par leur absence totale ou partielle de structure, depuis l’information tout à fait non structurée jusqu’à l’information semi-structurée, ainsi que leur hétérogénéité : multiplicité des formats, des formalismes, des structures, des types, des médias, etc. Les documents sont mémorisés dans un entrepôt, ou base documentaire, support à l’interrogation et à la manipulation, via des opérateurs d’indexation, filtrage, extraction. La modélisation de toute base documentaire se doit d’être générique, évolutive, indépendante du niveau de granularité des unités documentaires et des normes de représentation.

La première partie de cet article présente l’architecture de la base documentaire. Dans cette section, il convient de bien positionner le concept de structure attaché aux objets documentaires mémorisés dans la base documentaire par rapport à la structure de la base elle-même (concept de schéma dans les bases de données). Dans la deuxième partie, compte tenu des spécificités de l’approche documentaire (notamment l’hétérogénéité), les caractéristiques du processus d’intégration de documents semi-structurés dans la base doivent être explicitées. La troisième partie aborde la manipulation de documents au travers d’opérateurs sous-tendus par les fonctionnalités d’un langage générique. Nous avons adopté cette approche pour rendre notre présentation indépendante de la syntaxe d’un langage spécifique et avoir une couverture fonctionnelle élargie. La dernière partie donne un bref aperçu des langages d’interrogation et de manipulation, parmi les plus représentatifs.

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h7248

Lecture en cours
Présentation

Page
suivante

Conclusion

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(65 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

4. Langages de manipulation de documents électroniques

L’objectif de ce paragraphe est de préciser les tendances actuelles dans la mise en œuvre des langages de manipulation de documents électroniques. Il existe de nombreux prototypes et propositions de langages, aussi, plutôt que d'avoir une démarche visant à les présenter exhaustivement, nous avons préféré nous focaliser sur certaines propositions représentatives. Les références notées entre parenthèses servent à indiquer les noms des auteurs et les dates de ces propositions.

4.1 Aperçu général

Les propositions actuelles, dans lesquelles on retrouve des préoccupations similaires sur l'aspect interrogation, concernent d’une part des langages d'interrogation sur le contenu, d’autre part des langages d'interrogation sur la structure. Nous présenterons très succinctement quelques éléments caractéristiques de langages permettant des requêtes mixtes portant sur le contenu et/ou la structure. Afin de mieux préciser la typologie des langages qui constituent notre centre d'intérêt, il faut noter que nous nous restreignons aux langages déclaratifs, et que par conséquent nous n'intégrons pas de langages graphiques ou visuels.

Un des critères d'évaluation de ces langages est que l'interrogation proposée est plus ou moins contraignante vis-à-vis des connaissances structurelles a priori (chemins d'accès, variables struc-turelles, distance entre éléments…).

Un deuxième critère concerne l'aptitude à calculer des chemins d'accès : hypergraphes, toiles d'araignées locales, constructions de composants… Ceci est envisageable via l'introduction d'opérateurs formalisant des chemins structurels et des variables permettant de mémoriser et référencer ces chemins.

Un troisième critère est lié à la granularité des fragments documentaires restitués en réponse à une requête. Ainsi, dans les environnements de type SRI qui ignorent en général les éléments de structure, c'est le document entier qui est restitué, à charge pour l'utilisateur de retrouver le fragment pertinent dans le document. De même, avec les moteurs de recherche sur le Web, les réponses sont constituées par une liste d'URL et quelques éléments indexés à partir de pages Web, dont la sémantique peut être peu lisible ou peu explicite. Les systèmes devraient donc être en mesure de restituer un document complet, un élément précis, une liste d'objets,...

Cet article est réservé aux abonnés.
Il vous reste 94 % à découvrir.