Chapitre 6. Ce fichier est-il au bon format ?
L'extension du nom de fichier (.pdf, .doc, .xml…) permet a priori de rapidement de connaître le type de données. Cette extension, surtout utilisée dans le monde windows est insuffisante car plusieurs types de données partagent la même extension. Par exemple pour PDF, nous pouvons avoir :
Systems Management Server (SMS) Package Description File (Microsoft Corporation)
ArcView Preferences Definition File (ESRI)
Netware Printer Definition File
Acrobat Portable Document Format (Adobe Systems Inc.)
P-CAD Database Interchange Format (Altium Limited)
Package Definition File
etc.
Complément :
Le magic number permet une identification du format d’un fichier par analyse des premières données de ce fichier. Cette technique est utilisée par les systèmes d’exploitation MacOS et Unix. Le magic number offre une fiabilité un peu supérieure à l’extension dont la valeur peut être changée volontairement ou non très facilement.
Par exemple, le magic number aura pour valeur %PDF-1 pour les fichiers PDF
TIFF aura pour magic number MM.* ou II* suivant que le fichier sera constitué en gros-boutiste ou en petit-boutiste.
Cependant, c'est seulement l'analyse complète des données qui nous permettra de nous assurer que le fichier est bien conforme aux spécifications du format auquel il prétend être.
Attention : Essentiel
L'opération de validation des formats des fichiers entrant dans l'Archive constitue une opération critique. Si les fichiers transférés par le producteur ne respectent pas complètement les spécifications du format et si de surcroît, les non-conformités ne sont pas explicitement mises en évidence par les outils actuels de lecture, on induit alors un risque important pour l'Archive qui devient responsable de la pérennisation dès lors que le fichier transféré a été accepté.
Il est fréquent par exemple que des fichiers PDF ne soient pas conformes à la spécification publiée par Adobe sans que les anomalies soient signalées par l'outil de lecture gratuit Acrobat Reader. La validation des formats en entrée implique l'usage et éventuellement le développement d'outils de contrôle de ces formats et la mise en œuvre de procédures très rigoureuses.
Exemple : C'est une vraie question à se poser: mon fichier est-il au bon format ?
Voici quelques exemples réels, rencontrés dans le cadre de l'expérimentation de la plate-forme pilote d'archivage électronique PIL@E (direction des Archives de France), qui montrent la difficulté de cette question.
• les fichiers HTML, versés par les services de l'administration, comportent pratiquement tous de très nombreuses erreurs de syntaxe qui devraient tous les faire rejeter par l'outil de validation, ce qui évidemment est problématique. À l'inverse, si on les accepte, un certain nombre de ces erreurs pourront rendre difficiles à opérer les migrations de format à venir,
• la validation des fichiers XML implique que l'on se réfère aux schémas ou DTD externes. Ceci impose donc d'avoir au préalable récupéré ces modèles de documents et de les conserver dans le système d'archivage,
• la validation des fichiers vidéo au format MPEG se heurte à la grande permissivité des logiciels de lecture de ce format,
• pour la conversion des fichiers graphiques (de type autocad), aucune solution satisfaisante n'a pu être mise en œuvre.
Un autre exemple est celui du CINES sigle à développer qui a analysé environ 150 000 fichiers PDF du serveur HAL (Hyper articles en ligne) en vue de leur archivage. Les résultats sont éloquents :
• plus de 11% des fichiers ne sont pas recevables pour l’archivage, soit parce que leur structure est incorrecte, soit par ce que leur structure est correcte mais non conforme au modèle attendu pour les fichiers PDF,
• toutes les versions du format PDF sont présentes depuis la version 1.0 à la version 1.7 (8 versions),
• une vingtaine d’outils logiciels de génération de fichiers PDF ont été identifiés,
• sur cet ensemble, 14 logiciels ont généré des fichiers invalides de façon non systématique. Parmi ces outils, on trouve même Acrobat Distiller distribué par Adobe, propriétaire du format PDF.
Un certain nombre de logiciels de validation des formats ont été développés.
Exemple : Citons en particulier :
• JHOVE (JSTOR/Harvard Object Validation Environment) qui permet de valider la conformité des fichiers par rapport à un certain nombre de formats parmi lesquels AIFF (Audio Interchange File Format, format audio de Apple), GIF, HTML, PDF, TIFF, JPEG (Joint Photographic Experts Group), XML, WAVE (format audio de Microsoft), etc. JHOVE est un logiciel libre sous licence GNU GPL,
• DROID (Digital Record Object Identification) est un outil Open source fourni par les Archives nationales du Royaume-Uni. Il s'appuie sur le registre de format PRONOM et relie l’identification du format aux documents techniques correspondants qui sont disponibles dans le registre,
Une autre initiative utile est celle du CINES qui a consisté à mettre en ligne un service de validation de formats basé sur JHOVE, DROID et autres outils. Ce service, nommé « Facile » permet de ne pas avoir à installer de logiciels de validation de format.
Attention : Conclusions sur les formats
La représentation de l'information numérique est la clé de voûte de la pérennisation, elle contrôle l'accès à toute l'information : données et métadonnées.
Mais c'est aussi le lieu d'enjeux commerciaux, la source possible sinon probable de nombreuses difficultés techniques, d'où la nécessité de se regrouper pour partager l'expérience et les outils, pour peser sur les choix de formats.