7.1 – Définitions et exemples de formats de métadonnées de structure
Les métadonnées de structure servent à connaître l'organisation de l'information contenue et des objets numériques.
Il y a deux niveaux de structure : un niveau logique et un niveau physique :
Le niveau logique définit les liens entre des éléments qui ont du sens pour l'utilisateur : numéro de page, de plages audio, titre de chapitres, d'articles, etc.
Le niveau physique définit comment sont enregistrés les objets numériques : dans quel fichier ? Dans quel répertoire ? Sur quel support ? On parle également de carte de structure logique, de structure physique.
Dans le modèle OAIS, les métadonnées de structure représentent l'Information d'empaquetage OAIS
(voir les définitions données dans la partie 4 sur les normes et standards au terme Information d'empaquetage).
Complément : Les formats d'empaquetage METS ; XFDU et MPEG21
Les formats d’empaquetage ne définissent pas seulement des métadonnées de structure, ils définissent des paquets pouvant contenir les données à préserver, les métadonnées associées à ces données (descriptives, techniques, administratives) ainsi que des métadonnées (de structure) décrivant l’organisation logique et physique de cet ensemble. Les paquets en question peuvent être réels (toutes les données et métadonnées sont stockées ensemble), dans ce cas, le paquet à une réalité physique. Les paquets peuvent être également virtuels au sens où l’on définit essentiellement des pointeurs vers des données et des métadonnées stockées à des endroits différents.
Trois formats d’empaquetage méritent d’être présentés : METS, XFDU et MPEG21-DIDL
Complément : METS (Metadata Encoding and Transmission Standard).
Bibliographie
Digital Library Federation, Metadata Encoding and Transmission Standard : primer and Reference Manual, version 1.6, 2007.
http://www.loc.gov/standards/mets/
Maintenu par la Bibliothèque du Congrès, METS est un format conçu pour gérer tout type d’objet numérique, simple ou complexe. C’est un format de type « capsule », qui peut donc intégrer tout autre format de métadonnées descriptives ou techniques. Il a pour principale caractéristique d’être modulaire (une instance METS est composé de sept sections) et de séparer la structure de l'objet et les métadonnées (les métadonnées sont regroupées dans des sections spécifiques, et associées aux objets correspondants par le biais de liens ou pointeurs). Il permet de définir à la fois une carte de structure physique et logique. METS est ainsi une enveloppe, un conteneur de métadonnées. Des métadonnées sur les métadonnées en quelque sorte. Il ne définit pas quelles sont les métadonnées à utiliser mais permet de catégoriser les métadonnées et de les lier entre elles. Une partie du modèle consiste à inclure des métadonnées ou à pointer vers des métadonnées externes. La description logique et la description physique des métadonnées sont séparées dans des parties distinctes de l'enveloppe. Le standard définit le mécanisme de gestion et d'organisation du système de liens entre les différents éléments. Ce principe est extrêmement puissant car il permet de s’adapter à tous les types d’organisations de données. La contrepartie réside dans la complexité du réseau de liens créés.
METS propose d'organiser la modélisation de ces métadonnées en sept parties :
• l’entête METS identifie la date de création et le créateur des métadonnées,
• les métadonnées descriptives (par exemple, Dublin Core ou encore EAD) ; c’est la carte d’identité de l’objet ou partie d’objet numérique référencé,
• les métadonnées administratives sont subdivisées en quatre sous parties :
o les métadonnées techniques : informations sur les caractéristiques des fichiers (taille, date de création, type de fichier, etc.),
o les métadonnées des droits intellectuels : informations sur les droits d’accès et d’usage,
o les métadonnées de la source analogique : informations sur l’objet d’origine sous forme analogique, s’il y a lieu (forme, taille, type de papier ou de film, notice bibliographique d’origine, référence de l’original)
o les métadonnées de la provenance numérique : informations qui décrivent les processus de création/migration/transformation de l’objet numérique.
• la partie fichier décrit l’organisation physique des fichiers,
• la carte de structure décrit l’organisation logique (hiérarchique) des objets numériques (dossier, rapport, page, article, paragraphe). C’est un élément central. Elle établit les liens avec les métadonnées et l’organisation physique des fichiers,
• les liens de structure contiennent les hyperliens entre les différents niveaux de la carte de structure. Cette partie est utilisée pour la description d'objets provenant du web,
• la partie comportement décrit les outils nécessaires à l’exploitation des objets numériques.
Forces
Le respect des concepts de l’OAIS fait du format METS un bon moyen d’accueillir les métadonnées retenues pour l’archivage numérique. Le standard prévoit d’inclure, ou de référencer, non seulement les métadonnées au format XML mais prévoit aussi un mécanisme pour inclure les autres formats en les considérant comme des objets binaires. Cette capacité lui permet de s’adapter à la plupart des besoins dans ce domaine.
METS est un format qui a acquis une certaine maturité et sur lequel la communauté des bibliothèques numériques possède une bonne visibilité. La plupart des projets de préservation numérique déclarés l’utilisent. Du point de vue technique, le fait de pouvoir intégrer à la fois une carte de structure physique et logique est un avantage, car il permet de préserver des données importantes pour l’accès et pour la « représentation » du document, comme les tables des matières. METS permet en outre de catégoriser les métadonnées.
Faiblesses
Pour des objets numériques comportant un grand nombre de fichiers, l’instance METS est difficile à lire et à comprendre d’emblée (pour un humain), du fait d’une gestion par liens complexe. Par ailleurs, METS ne possède pas de modèle conceptuel, ce qui rend sa migration vers un autre format plus difficile. Enfin, ce format est peu documenté et certains éléments sont difficiles à interpréter précisément.
Les métadonnées à utiliser restent à définir au cas par cas. Et même si de nombreuses initiatives ont abouti à l’élaboration de métadonnées adoptées par une large communauté d’utilisateurs (Dublin Core, EAD, PREMIS, etc.), la plupart des métadonnées nécessaires à la pérennisation n’ont pas encore trouvé de standard largement diffusé.
XFDU (XML Formatted Data Unit) [XFDU 08]
XFDU (XML Formatted Data Unit) [XFDU 08]
Bibliographie
CCSDS, CCSDS 661.0-B-0, XML Formatted Data Unit (XFDU) Structure and Construction Rules, 2008.
http://public.ccsds.org/publications/MOIMS.aspx
Le format XFDU a été créé par le Comité consultatif pour les Systèmes de Données spatiales (CCSDS), pour faciliter l’implémentation du modèle de référence OAIS. Les concepts qu’il utilise, et sa terminologie, sont donc ceux de l’OAIS. XFDU est un format de type « capsule » qui permet de créer l’enveloppe du paquet d’information. Il est très proche de METS, dont il reprend les mécanismes de base (distinction entre section de métadonnées / section d’objets de données ; forte utilisation des liens et des pointeurs) et jusqu’à certains noms d’éléments (flocat, dmdsec, mdwrap). Il ne définit pas les éléments de métadonnées particuliers, mais offre un moyen de les catégoriser selon la terminologie OAIS. La version actuelle est figée depuis septembre 2008. Elle a été adoptée comme standard du CCSDS et sera proposé à l’ISO.
Forces
XFDU est un candidat très sérieux pour l'organisation de l'information d'empaquetage. Il est ainsi utilisé pour l'archivage des données d'observation de la Terre de l'Agence Spatiale Européenne.
Faiblesses
XFDU est un format qui a été approuvé dans sa version définitive en septembre 2008. Il est encore très récent et les réalisations ou les expérimentations sont encore limitées. La documentation est assez lacunaire (elle contient peu d’exemples mais un tutoriel doit être publié par le CCSDS). Un certain nombre d'outils ont été développés par les agences spatiales impliquées dans la normalisation du XFDU mais ces outils n'ont pas vocation à devenir des logiciels libres.
Complément : MPEG21-DIDL (Digital Item Declaration Language)
MPEG21-DIDL (Digital Item Declaration Language)
MPEG21-DIDL (Digital Item Declaration Language) constitue une partie de MPEG21 qui est un ensemble de normes élaborées par l’industrie des contenus numériques, visant à réaliser un cadre interopérable pour la diffusion et l’échange d’objets numériques. DIDL est un format libre et ouvert, dont le potentiel n’est optimal que si l’on utilise aussi les autres parties de MPEG21, diffusées par l’ISO.
Du point de vue des caractéristiques techniques, DIDL est un format de type « capsule », dans lequel on peut intégrer tout type de métadonnées. Son modèle de données permet de gérer un nombre non limité de niveaux de granularité (container / item / (sous-)item /…/ component). À la différence de METS, les métadonnées se situent au même endroit que l’entité à laquelle elles s’appliquent. La carte de structure physique est déduite de l’arborescence de l’instance DID et il n’y a pas de moyen aisé de faire apparaître une carte de structure logique. Les métadonnées sont encapsulées dans des éléments « Descriptor », qui sont répétables et peuvent donc servir de blocs modulaires.
Forces
Le principal avantage de DIDL est sa relative simplicité, qui se traduit par une bonne lisibilité des instances DID. On repère facilement les métadonnées et les entités auxquelles elles s’appliquent. Bien que ce format n’ait pas été conçu pour la préservation à long terme de l’information numérique, il peut être utilisé dans cette optique, y compris dans le respect du modèle de référence OAIS. Le fait qu’il repose sur un modèle conceptuel est un atout permettant, si les besoins s’en font jour, de le convertir facilement dans un autre format.
Faiblesses
Utiliser DIDL est relativement audacieux, dans la mesure où il n’a pas fait encore la preuve de sa maturité et que son utilisation dans la communauté des bibliothèques numériques reste très marginale (à signaler tout de même : le Laboratoire national de Los Alamos, qui a pris part à l’élaboration de la spécification DIDL et l’Université Old Dominion de Norfolk, dans le cadre du programme américain National Digital Information Infrastructure and Preservation Program (NDIIPP) piloté par la Bibliothèque du Congrès). Du point de vue technique, DIDL a deux inconvénients importants : l’impossibilité de donner des attributs aux entités Container/Item/Component pour les catégoriser finement et le fait de devoir se limiter à une seule carte de structure (physique ou logique).