Section 4 : Normes et standards

Chapitre 6 : Les normes et standards utilisés pour l'archivage numérique

Face à une technologie qui ne cesse d'aller d'innovations en innovations, face à ces changements constants et rapides, face aux besoins majeurs d'une certaine compatibilité technique entre les acteurs de l'archivage numérique, les normes et standards apportent un semblant de stabilité sur laquelle nous pouvons nous appuyer. C'est la raison pour laquelle, ces bases consensuelles vont jouer un rôle essentiel pour cet archivage.

6.1 - Première vue d'ensemble

Il ne s'agit pas ici de dresser un inventaire qui ne sera jamais exhaustif des normes et standards utilisables. Nous proposons une classification et une identification des principaux domaines normatifs. Ces principaux domaines sont représentés dans la rosace ci-après

Les principaux domaines normatifs de l'archivage numérique

Les normes généralistes et plus spécifiquement le modèle de référence OAIS sont celles qui abordent la question de l’archivage numérique dans sa globalité. Elles seront l’objet de la section 5 de ce module.

Les autres domaines seront analysés plus en détail dans les sections 6 à 10, mais il est utile, à ce stade du cours, d’en donner un premier aperçu.

6.2 Principaux domaines normatifs à considérer

Ces domaines sont nombreux et il n’est pas imaginable ni imaginé qu’une même personne soit en mesure de connaître en profondeur tous ces domaines. Il sera cependant indispensable que tout responsable d’une Archive numérique dispose d’une vue d’ensemble de tous ces domaines et puisse s’appuyer sur des compétences spécialisées pour chaque d’eux quand cela sera nécessaire. Nous faisons référence, dans ce qui suit, à un certain nombre de normes sur lesquelles nous reviendrons dans les parties suivantes de ce cours.

Nous pouvons citer, dans ce panorama d’ensemble, un certain nombre de documents qui relèvent plus des bonnes pratiques ou des recommandations que des normes ou standards.

Stockage :

c'est tout ce qui concerne la préservation des bits.

On trouvera pour cela

  • d'une part des guides et recommandations sur la stratégie de stockage, l'organisation d'un service de stockage

  • d'autre part des normes sur les supports d'enregistrement

Exemple

  • La norme ISO 9660 pour les CD-Rom

  • Les normes ISO 13421 et 13962 pour les DLT (Digital Linear Tape)

Ces normes sur les supports d’enregistrement sont utilement complétées par les évaluations de certains de ces supports.

Exemple

Le Laboratoire national de métrologie et d'essais (LNE) en France a conduit un certain nombre d’études sur l’usage des CD et des DVD en vue de l’archivage et émis un ensemble de recommandations dans ce domaine. Ces informations et rapports sont disponibles sur le site de la Direction des archives de France .

Formats de représentation de l’information :

Qu’il s’agisse de texte, d’image, d’images 3D, de graphiques vectoriels, de documents multimédia, d’audio, de vidéo, de données techniques, de données scientifiques, toutes les formes d’information numérique se réfèrent à des formats.

Il existe des formats généralistes et des formats métier :

Complément

  • Dans les formats généralistes, on trouvera par exemple le PDF, les principaux formats bureautiques ODF et OOXML, le méta-langage XML, le format d’image PNG.

    Le développement spectaculaire de l'usage méta-langage XML a constitué une évolution majeure dans le domaine de l'accès, du partage et de l'archivage des données. PDF, ODF et OOXML reposent aujourd'hui largement sur ce méta-langage.

  • Dans les formats ‘métier’, on pourra citer FITS (Flexible Image Transport System) pour l’astronomie ou encore les différentes applications du langage STEP (STandard for the Exchange of Product model data) pour l’industrie.*

    Dans les formats métier, les normes relatives aux données géographiques tiennent également une place importante.

Métadonnées :

Rien de très nouveau sur le principe et l’on n’a pas attendu le numérique pour inventer les métadonnées.

Depuis des siècles, les catalogues des bibliothèques répertorient des métadonnées propres à chaque ouvrage.

Cependant, avec le numérique, des besoins nouveaux sont apparus, par exemple :

  • disposer de métadonnées techniques garantissant la capacité future à restituer une information compréhensible à partir d’un ensemble de séquences de bits,

  • retrouver immédiatement les documents correspondant à un besoin donné, au sein de millions d’autres documents, éventuellement stockés de façon répartis sur des sites géographiquement distants

En fait, la généralisation du numérique a entraîné l’émergence de nombreux formats de métadonnées

  • à caractère généraliste comme le Dublin Core (ISO 15836)

  • ou orienté métier comme la norme ISO 19115 de métadonnées géographiques qui propose plus de 400 rubriques descriptives.

La section 9 de ce cours est consacrée aux métadonnées.

Intégrité et l’authenticité :

Il s’agit ici des normes qui vont nous permettre d’apporter des preuves de l’intégrité et de l’authenticité des documents.

Ces normes vont couvrir :

  • la cryptographie

  • les algorithmes de calcul d'empreinte

  • les protocoles de communication sécurisés

  • les processus de signature électronique.

Un certain nombre de standards ont été proposés par le projet NESSIE (New European Schemes for Signatures, Integrity, and Encryption) de la Commission Européenne.

Le NIST (National Institute for Standards and Technology), américain propose également un ensemble de standards et en définitive, l'ISO a entériné les choix du NIST et de NESSIE et normalisé les principaux algorithmes de calcul d’empreinte numérique.

Ce sujet sera développé dans la section 10, couvrant l’intégrité, l’authenticité et les aspects juridiques.…

Empaquetage :

Les standards d'empaquetage permettent d'associer, au sein d'une structure globale cohérente et portable des objets numériques pouvant être composés

  • d'un ou d'un ensemble de fichiers,

  • de métadonnées caractérisant ces objets et ces fichiers,

  • des liens existant entre les fichiers eux-mêmes ou entre les composants de l'objet et les métadonnées

Ces standards permettent aussi de définir des mécanismes applicables aux objets numériques : ils peuvent exiger, par exemple que tel objet doit être ouvert en utilisant telle application, ou encore que les différents fichiers de l'objet doivent être ordonnancés et traités de telle façon pour pouvoir restituer leur contenu.

Nous parlons d’empaquetage à l’instar des paquets expédiés par la poste. En effet, un paquet postal permet de transporter toutes sortes d’objets, mais il sera toujours doté d’une adresse du destinataire libellée de façon normalisée, d’une adresse de l’expéditeur, d’un emballage répondant à un certain nombre de règles de base.

Les standards d’empaquetage vont permettre d’identifier, de décrire, de manipuler les composants numériques élémentaires d’un objet complexe

Les standards METS (Metadata Encoding and Transmission Standard) de la Bibliothèque du Congrès et XFDU (XML Formatted Data Unit) du CCSDS relèvent de ce domaine qui sera développé dans la partie 9 sur les métadonnées.

Identification :

Elle consiste à identifier un objet numérique de manière unique au sein d'un domaine au sein de l'archive ou plus souvent aujourd'hui, au sein d'un domaine beaucoup plus vaste, au sein d'une communauté.

Ce besoin n’est pas nouveau et a déjà été résolu par exemple avec l’usage de l’ISBN (International Serial Bibliographic Number) pour les ouvrages publiés ou de l’ISSN (International Standard Serial Number) pour les revues.

La question de l’identification des documents et plus généralement de tous les types de ressources numériques se pose de manière particulièrement aigüe dans le domaine numérique. Des standards d’identification (URI, Uniform Resource Identifier) et de nommage (URN, Uniform Resource Name) ont été définis par le consortium W3C, mais aujourd’hui, les navigateurs ne savent pas les interpréter. Les navigateurs ne savent interpréter que les URN (Uniform Resource Locator) qui sont des standards de localisation.

Chacun sait aujourd’hui, à quel point, les URL ne sont pas pérennes. Combien de fois avez-vous constaté que l’adresse d’une ressource sur Internet, adresse que vous aviez mémorisé, n’était plus valide.

Il y a un besoin très important de disposer d’identifiant pérennes.

Différents services d'affectation d'identifiants pérennes comme ARK « Archival Resource Key » ou les DOI « Digital Object Identifier » ont vu le jour. Ils seront regardés plus en détail dans la partie 9 consacrée aux métadonnées.

La certification des archives numériques :

Le document numérique fait souvent un peu peur. Sa pérennisation pose toute une série de nouveaux problèmes. Jusqu’à quel point pouvons-nous avoir confiance dans les organismes en charge d’assurer cette pérennisation ?

D’une manière générale, lorsqu’une entreprise ou une institution veut démonter qu’elle fait bien son travail, qu’elle est apte à fournir des produits ou des services satisfaisant aux exigences des clients et à la réglementation applicable, qu’elle vise en permanence à accroître ses performances et la satisfaction de ses clients, elle met en place un système de contrôle de la qualité et entreprend un processus de certification ISO 9001. Cette certification étant délivrée pour une durée définie par des auditeurs indépendants, eux-mêmes accrédités par un organisme agréé pour délivrer ces accréditations.

Dans le domaine de l’archivage numérique, plusieurs approches émergent en matière de certification :

  • une approche basée sur un audit de conformité du service d’archive numérique par rapport à une spécification technique existante comme la norme Afnor NF Z 42-013 « Spécifications relatives à la conception et à l’exploitation de systèmes informatiques en vue d’assurer la conservation et l’intégrité des documents stockés dans ces systèmes, mars 2009 ».

  • une approche plus ambitieuse et couvrant réellement la totalité de la problématique de l’archivage numérique, approche basée sur deux normes pour la certification des archives numériques en cours d’élaboration au CCSDS

    • Metrics for Digital Repository Audit and Certification

    • Requirements for bodies providing audit and certification of digital preservation management systems

Les questions liées à la certification des archives seront abordées dans la partie 5.

Autres domaines normatifs : parmi les autres domaines normatifs à prendre en compte dans l’archivage numérique, il convient de citer également

  • tout ce qui concerne les systèmes de management de la sécurité de l'information (incluant la confidentialité, la protection des informations sensibles, les plans de continuité d'activité)

  • ainsi que les questions relatives à l'externalisation de prestations d'archivage,

Complément

Le projet InterPARES 3 a publié un document contenant une liste impressionnante des normes et standards utiles à la préservation de l’information numérique General Study: International Standards Relevant to the InterPARES 3 Project.

Ce document, qui référence près d’une centaine de normes et de standards potentiellement utiles, manque un peu de structuration. Le rangement par numéro ISO ne sera que d’une faible utilité pour le lecteur. Des normes importantes, comme la norme ISO 10646 définissant le jeu universel des caractères, n’y sont pas mentionnées.

6.3 – Les normes et standards sont comme des poupées russes

Il faut savoir qu’un certain nombre de normes se présentent comme des poupées russes, c'est-à-dire qu’elles s’appuient sur d’autres normes, ces dernières pouvant également s’appuyer sur d’autres normes et ainsi de suite.

Attention

  • La mise en application d’une norme d’un certain niveau n’implique pas que les normes de niveau inférieur soient appliquées correctement.

  • Dans bien des cas, le choix d’une norme ne suffit pas, il convient donc d’ajouter à ce choix, des conditions d’applications particulières obligatoires.

Complément

Prenons le cas de la norme ISO 26300, Open Document Format :

  • Cette norme s’appuie en premier lieu sur un standard de structuration de document nommé Relax NG, standard qui a été développé par le consortium OASIS, puis normalisé par l’ISO ((ISO/IEC 19757-2),

  • Relax NG est basé sur le langage XML, standard du W3C,

  • XML utilise par défaut, le codage des caractères UTF-8. UTF-8 est une forme de codage directement dérivé du jeu de caractères universel défini par la norme ISO 10646 (connue également sous le nom d’Unicode). Mais XML peut aussi s’appuyer sur d’autres types de codage, le jeu de caractère utilisé étant spécifié en début du document XML.

Nous allons retrouver de telles situations dans les normes descriptives de formats de données, les normes de métadonnées, d’identification, d’empaquetage et d’autres encore.

La mise en application d’une norme d’un certain niveau n’implique pas que les normes de niveau inférieur soient appliquées correctement.

En ce qui concerne la représentation de l'information sous forme numérique, notre préoccupation devra toujours couvrir dans sa totalité, la chaîne logique qui conduit de la séquence de bits jusqu'à la restitution d'un document intelligible.

Une illustration de l'imbrication des normes et standards dans le cas des documents textuels.

Nous avons dans le passé rencontré de multiples problèmes autour de ce sujet. Un exemple très simple est celui de l’enregistrement, sous Windows 2000, avec Word 97, d’un fichier au format HTML, en vue d’insérer ce fichier sur un site Internet.

Constat : comme l’illustre l’image ci-après, après transfert sur le site Internet, la visualisation de ce fichier apparaît correcte lorsqu’il est examiné à partir du système d’exploitation Windows et n’est pas correcte lorsqu’il est visualisé à partir d’un autre système d’exploitation comme Linux. Certains caractères spéciaux ayant été remplacés par des points d’interrogation.

Mise en évidence d'anomalies dans l'affichage de certains caractères par le navigateur

Explication : Examen du fichier HTML à l'aide d'un éditeur de texte. Il convient de savoir qu'en début de chaque fichier HTML, un attribut, nommé « charset », permet de spécifier le jeu de caractères utilisé dans le fichier. Dans le cas présent, nous pouvons constater que le fichier a été créé, non pas avec un jeu de caractères normalisé, mais avec un jeu de caractères propriétaire, à savoir le jeu de caractères « Windows-1252 » propre au système d'exploitation Windows. Ce fichier reste néanmoins tout-à-fait conforme à la norme HTML qui n'impose pas un jeu de caractère particulier.

Mise en évidence de l'usage d'un jeu de caractères propriétaire

Conclusion : Si nous voulons archiver à long terme, un fichier au format HTML, nous devons spécifier :

  • Que le fichier doit se conformer strictement à la norme ISO 15445:2000 qui définit le format HTML en version 4.0, (une version 5.0 sera certainement normalisée ultérieurement),

  • Mais aussi que le jeu de caractères utilisé doit être un jeu normalisé à l’ISO.

Cet exemple permet de comprendre, ce que nous disions plus haut, que dans bien des cas, le choix d'une norme ne suffit pas mais qu'il convient d'ajouter à ce choix, des conditions d'applications particulières obligatoires.

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimerRéalisé avec Scenari (nouvelle fenêtre)