5.1 – Définitions
Les métadonnées techniques sont les métadonnées qui servent à identifier, caractériser, définir l'environnement technique des objets numériques. Dans le modèle OAIS, les métadonnées techniques correspondent à l'Information de représentation OAIS (voir les définitions données dans la partie 4 sur les normes et standards au terme Information de représentation) qui sert à définir comment transformer un train de bits en une information intelligible.
Afin de réduire les risques, il est absolument nécessaire de conserver des données techniques périphériques aux informations à pérenniser. Ces données décrivent ce que peut contenir un format de représentation et comment l’exploiter.
L'identification peut se limiter à la reconnaissance du type de fichier soit à partir de son extension, de son « magic number » ou de son type « Mime » :
• le « Magic number » est une technique qui consiste à référencer les entêtes de fichier pour chaque format permettant ainsi de rapidement déterminer le type de fichier. Introduite dans les systèmes UNIX, elle correspond à la commande «file»,
• Les types MIME (Multipurpose Internet Mail Extension) sont des formats standards enregistrés par l'IANA (Internet Assigned Number Authority), http://www.iana.org/assignments/media-types/
Dans ces deux cas, le niveau d'information obtenue est assez pauvre : par exemple, nous allons savoir que nous détenons un fichier image de type TIFF mais sans connaissance de la version concernée. Pour la pérennisation, ce simple niveau d'information n'est pas suffisant. Il convient d'identifier le type de format de la manière la plus précise possible et en particulier obtenir la version exacte du format de l'objet numérique.
Pour aller plus loin, il peut s'avérer nécessaire de caractériser de manière complète un objet numérique. Il s'agit alors non seulement d'identifier précisément le type de format mais également de définir les choix techniques qui ont été retenus pour l’application de ce format : type de compression, type de codage par exemple. Le format peut se référer à une norme mais nous avions vu que les normes sur les formats se présentaient comme des poupées russes et que la connaissance de la poupée la plus grande ne permettait pas pour autant que connaitre les caractéristiques des plus petites.
Avec une définition précise et complète du format de l’information, il devient possible de valider le format c'est-à-dire :
• de s'assurer que les caractéristiques techniques définies par les spécifications sont bien vérifiées (conformité par rapport à la norme ou au standard),
• mais également de vérifier que ces caractéristiques respectent une spécification particulière liée à une application spécifique (conformité par rapport à des règles d’utilisation ou des conditions restrictives qui ont été décidées pour l’archivage).
De plus, la définition des caractéristiques est souvent nécessaire pour développer les outils de transformation mis en œuvre lorsqu'une migration de format est à effectuer.
Les métadonnées techniques ne se limitent pas à la définition des formats. En prévision d'opérations de migration de format ou d'utilisation d'outils d'émulation, il faut définir l'environnement technique tant logiciel que matériel, de création ou de restitution de l'objet numérique.
Exemple : Exemples :
- Systèmes d’exploitation : « Windows 98 et supérieur » : supérieur jusqu’où ???
– Environnement logiciel : « Word 98 et supérieur » : supérieur jusqu’où ??? Compatibilité avec d’autres logiciels (Open office) ? Risques de pertes de fonctionnalités ?
– Environnement matériel : les périphériques : comment émuler le comportement d’un joystick ou d’un crayon optique sur un PC ? Problèmes de vitesse de traitement ?
Complément : les métadonnées techniques des formats image
Il existe plusieurs formats de métadonnées internes :
- EXIF (Exchangeable Image File) : ensemble de métadonnées essentiellement techniques relatives à la prise de vue et fournies automatiquement par l'appareil numérique (fabricant et modèle de l'appareil, hauteur et largeur de l'image, date et heure de la prise de vue, orientation, résolution, temps d'exposition, ouverture, présence d'un flash, etc.), qu'il est possible d'intégrer dans des images JPEG/JFIF notamment. Le format EXIF a été développé en 1995 par la JEIDA (Japan Electronic Industry Development Association) ; la version 2.2 actuelle date de 2002 ;
- IPTC-NAA/IIM (International Press and Telecommunications Council - Newspaper Association of America / Information Interchange Model) : ensemble de métadonnées essentiellement sémantiques de l'image et nécessitant l'intervention d'un opérateur humain pour être renseignées (identifiant, titre, auteur, copyright, date de création, mots-clés, lieu, etc.), qu'il est possible d'inclure dans des images JPEG/JFIF ou TIFF. Les informations saisies dans le fichier de récolement ou un fichier d'indexation peuvent être réutilisées automatiquement pour alimenter les champs IPTC. La première version du modèle IPTC a été publiée en 1991 ; la version 4.1 actuelle date de 1999 .
- XMP (Extensible Metadata Platform) : format de métadonnées basé sur XML, créé par Adobe en 2001, utilisé à l'intérieur des fichiers d'images (JPEG/JFIF, TIFF, GIF, PNG, PDF, SVG...). Même s'il prédéfinit la façon de stocker un certain nombre d'informations les plus courantes, en reprenant en particulier des éléments de Dublin Core et d'EXIF, XMP est ouvert à tout type de métadonnées XML. Il est possible d'exploiter les métadonnées XMP même en l'absence des applications d’origine.
Ainsi qu’un format normalisé de métadonnées externes
Il existe un format de métadonnées spécifique pour la caractérisation technique des images fixes numériques : le Data Dictionary - Technical Metadata for Digital Still Images, norme ANSI/NISO Z39.87 publiée en décembre 2006 . Ce dictionnaire de données possède une déclinaison sous forme de schéma XML : MIX (Metadata for Images in XML) . Les 200 éléments prévus par le dictionnaire de données sont répartis en cinq familles : information de base sur l'objet numérique (identifiant, taille, format, compression, fixité), informations de base sur l'image (dimensions, couleur...), métadonnées de capture de l'image (taille de la source, date de capture, informations sur le scanner, informations sur la caméra numérique, coordonnées géographiques), métadonnées d'évaluation de l'image (échantillonnage de capture, échantillonnage colorimétrique...), historique des modifications.
1-Les spécifications EXIF sont consultables à l'adresse : http://www.exif.org/
2-Le modèle IPTC est consultable à l'adresse : http://www.iptc.org/IIM/
3-Le dictionnaire de données est consultable à l'adresse : http://www.niso.org/standards/index.html
4-La documentation sur MIX est consultable à l'adresse : http://www.loc.gov/standards/mix/