Section 9 - Métadonnées

Cours
Outils

6.1 – Les métadonnées d'identification

Les métadonnées d'identification permettent l'identification univoque des objets archivés. Généralement, il doit s'agir d'un identifiant pérenne. Le choix d'un type d'identifiant est loin d'être une opération anodine. Ce choix est stratégique dans le cadre de la pérennisation. Les types d'identification sont nombreux. L'objectif est d'adopter un identifiant qui résistera à l'épreuve du temps, aux évolutions de classement intellectuel des contenus, aux changements d'organisation physique des données. Il doit être adaptable. Il doit également supporter l'évolution de la taille de l'Archive. Imaginez les conséquences que pourrait entraîner un choix d'identifiant qui trouverait une limite après quelques dizaines d'années ? Il doit être extensible. Il doit pouvoir éventuellement être capable de permettre d'identifier plusieurs niveaux d'information d'un objet ou d'une collection. Il doit être « granulaire ».

Jusqu'à ces dernières années, des identifiants signifiants étaient préconisés :

Exemple : Exemple aux Archives nationales en France :

AP : archives privées

400 AP : archives Napoléon
- 400 AP 106 à 167 : correspondances et pièces diverses classées par ordre alphabétique
  - 400 AP 106 : Aali Pacha-Alexandre Jean, prince de Roumanie

Toutefois, aujourd'hui, d'une part, la gestion de fichiers numériques rend les systèmes de cotation traditionnels complexes à mettre en œuvre et, d'autre part, rares sont les Archives qui soient en complet circuit fermé sans ouverture sur le réseau Internet. Il convient par conséquent de re-considérer la capacité des identifiants à être diffusés et « citables » sur le web.

Complément : Un exemple d'identifiants « opaques » : les identifiants ARK adoptés à la bibliothèque nationale de France

ARK « Archival Resource Key » est un système d’identifiants pérennes créé et maintenu par la California Digital Library.

http://www.cdlib.org/inside/diglib/ark/

La nécessité de disposer d'un moyen d'identification pérenne pour les objets accessibles sur le réseau n'est pas nouvelle. Dès le début des années 90, est apparue la nécessité d'avoir un moyen d'identification qui ne soit pas dépendant du nom de l'ordinateur dans lequel les objets sont stockés et qui réponde aux besoins de gestion des noms ; par exemple en évitant d'avoir à renommer les identifiants lorsque la localisation change. Une réponse a été les URN (Uniforme Ressource Name) bientôt suivie des mécanismes et services d'affectation d'identifiants comme les DOI (Digital Object Identifier) et PURL (Persistent Uniform Ressource Locators). Ces mécanismes s'appuient sur la redirection pour garantir la persistance d'accès à un objet. Le problème de ce type d'approche est lié à la gouvernance des identifiants. Elle repose sur une vision centralisée des services de résolution de nom et certains mécanismes sont propriétaires. Sur le long terme, le fait d'être lié à un organisme est un risque. C'est une problématique identique qui a mené à la mise en place des DNS (Domain Name System) pour décentraliser et distribuer la résolution des noms de domaine. Les identifiants ARK s'appuient sur des mécanismes similaires pour limiter les dépendances.

Leur mise en oeuvre permet :

* d'afficher l'identifiant pérenne dans la barre d'URL lors de la consultation d'un document numérisé ;

* de conserver dans l'URL le nom de domaine du contexte de visualisation ;

* d'appeler chaque service de visualisation (pagination, table des matières, etc.) dans l'URL à l'aide d'un paramètre simple, nommé "qualifieur" ;

* d'obtenir plus facilement qu'auparavant l'URL d'une page précise au sein d'un document par exemple numérisé.

Regardons de plus près la structure d'un identifiant ARK. C'est une suite de caractères qui comprend toujours le label ark:/ Il est composé de cinq parties : un préfixe qui définit l'autorité d'accès, un label qui est toujours « ark: », un identifiant d'autorité nommante, un nom qui désigne l'objet à identifier et finalement un « qualifier » qui permet de référencer plus finement les éléments constitutifs d'un objet.

L'autorité d'accès et le « qualifier » sont optionnels. Un exemple d'identifier ARK peut être :

Complément :

L'autorité nommante n'est pas obligatoirement la même que l'autorité d'accès. Ainsi, à la manière des DNS, une autorité d'accès peut résoudre les identifiants ARK qu'elle n'a pas créés en redirigeant l'identifiant vers l'autorité d'accès connue pour l'autorité nommante.

Une autorité nommante est libre de nommer ses objets comme elle le désire. Néanmoins, le nom et le qualifier de l'identifiant ARK ne doit pas dépasser 128 caractères et seuls certains caractères sont autorisés (lettres, chiffres et quelques caractères spéciaux). Pour la préservation, il est fortement conseillé de respecter une syntaxe qui interdit les noms signifiants. Un nom non-signifiant est à priori plus pérenne : ce que je nomme d'une façon aujourd'hui n'est peut-être pas valable demain. De plus, cela permet de s'absoudre de la problématique des langues. Enfin, cela facilite la génération automatique des noms. Une autorité nommante s'engage sur la pérennité d'accès à l'objet par ce nom. La dernière partie d'un identifiant ARK qui décrit les sous-hiérarchies et les variantes est optionnelle puisque que par définition non-pérenne.

Ainsi, la spécification ARK permet la définition d'identifiants qui ont la propriété d'établir un lien indépendant des systèmes et des organisations avec un objet. Elle définit également les services permettant d'obtenir de l'information descriptive sur l'objet.

Les identifiants ARK ont une bonne approche du problème. Néanmoins, l'adoption de ce mécanisme reste limitée à quelques organisations. La résolution partagée des identifiants n'est pas véritablement effective.

Accueil

Imprimer