2.3.2. Extraction de métadonnées présentes dans les fichiers
Les fichiers contiennent nativement des métadonnées ou des propriétés qui peuvent s’avérer utiles pour la préservation numérique et la planification des opérations de préservation (taille du fichier, par exemple) ou en cas d’absence ou de manque d’informations de représentation.
Pour certains formats de fichiers, existent même des standards de métadonnées (par exemple pour les images fixes et les images animées, cf. section 5 de ce module).
Ces métadonnées embarquées dans le fichier peuvent faire l’objet d’une extraction automatique, afin d’enrichir les outils de recherche du service d’archives et de vérifier, lorsque des actions de préservation sont mises en œuvre (notamment les migrations de format), que celles-ci sont restées intègres et exactes.
Méthode :
Pour que l’extraction soit possible et efficace, deux prérequis doivent cependant être remplis :
le format de fichier doit disposer de spécifications écrites et disponibles, permettant de savoir comment et sous quelle forme ces métadonnées sont encapsulées dans les fichiers ;
les spécifications du format ne doivent pas être sujettes à interprétation, ce qui peut malheureusement être le cas.
L’extraction de métadonnées internes est réalisée au moyen de logiciels conçus et édités par différents organismes (concepteurs de formats de fichiers, éditeurs de logiciels, experts de la préservation numérique). Ces outils repèrent et extraient les métadonnées encapsulées dans le fichier et les mettent en forme selon une grammaire et une syntaxe propre.
Ces outils peuvent être :
génériques, permettant de procéder à la validation de plusieurs catégories de formats de fichiers : ex. FITS, Tika ;
propres à une catégorie de formats de fichiers donnée : ex. Jpylizer pour le format JPEG 2000.