Chapitre 4. Quels critères pour évaluer les formats ?
Quels sont les critères qui vont nous aider à évaluer les formats[1] de données par rapport à la perspective de pérennisation ?
Ces critères doivent permettre :
d'identifier les formats qui vont faciliter la pérennisation des informations,
d’éliminer les formats qui poseront à court ou à long terme, des difficultés sérieuses.
Garantir un accès aux données le plus longtemps possible implique de pouvoir conserver les informations dans leurs formats d’origine et d’avoir les moyens de les faire migrer vers un autre format si cela s’avère nécessaire. Apporter ces garanties seules ne suffit pas, il faut également se garder les moyens de pouvoir utiliser les données.
Compte tenu de la rapidité des évolutions techniques, il est extrêmement difficile de présager de la solution qu’il faudra adopter. Aussi, il est raisonnable de conserver les données dans des formats répondant à des critères définis dans l’optique de permettre la réalisation de chacune des solutions possibles.
À partir de ce paradigme, nous pouvons retenir deux principaux critères, l’ouverture et l’indépendance, auxquels nous ajouterons des critères complémentaires d'un niveau d'importance moindre par rapport aux précédents.
4.1. Ouverture : formats publiés et ouverts
Un format publié doit disposer d’une documentation complète et accessible. Cette documentation doit être valide, à jour et suffisamment détaillée pour permettre l'écriture de programme pour lire les données ou les convertir vers un autre format. C’est un gage essentiel de sécurité pour le futur.
Il est préférable que le format soit ouvert, c'est-à-dire libre de droits mais ce point n’est pas bloquant. Il convient cependant de vérifier les contraintes légales, l’usage de certains formats pouvant être payant.
Un format propriétaire largement diffusé (comme PDF ou TIFF) sera préférable à un format ouvert peu utilisé.
Plus un format est diffusé, plus il existe des outils qui sont développés pour l’exploiter. La large diffusion d’un format, à elle seule, n’est cependant pas un critère qui apporte la garantie de pouvoir utiliser ce format.
Exemple :
Le format DWG (DraWinG, littéralement dessin) est un format fermé lié au logiciel AUTOCAD, propriété de Autodesk. Ce format est très utilisé par les géomètres, les géographes, les architectes, les urbanistes. Or malgré une utilisation internationale très forte et diverse, la pérennisation de données au format DWG pose de sérieuses difficultés.
Attention :
Attention à ce qu’on appelle les formats « enveloppes » ou encore « conteneur » qui spécifient une structure mais qui autorisent plusieurs algorithmes de compression différents : c’est le cas pour les formats d’image, les formats audio et vidéo.
En effet, le format peut être libre de droit, mais l’algorithme de compression sera libre de droit ou non, voire payant suivant le choix que l’on aura retenu.
4.2. Indépendance
Pour être pérenne, un format doit être totalement indépendant. Cette indépendance doit se caractériser :
vis-à-vis des autres formats : certains formats peuvent paraître ouverts mais font appel à d'autres formats qui peuvent être fermés ou soumis à des brevets qui limitent le champ de leurs utilisations ; ils peuvent aussi faire appel à d'autres éléments comme des jeux de caractères qui seront normalisés ou propriétaires suivant les cas ;
vis-à-vis des systèmes d’exploitation : lorsque les formats de données sont liés à un système d’exploitation, nous sommes dans le cas d’une forme cachée de fermeture ;
au plan économique : même dans le cas des formats ouverts, les coûts de développement des outils de manipulation doivent être raisonnables pour permettre aux organisations ou à une communauté restreinte d’utilisateurs d’en assumer l’élaboration ;
au plan matériel : il s’agit de s’assurer que le format choisi n’est pas lié à un périphérique ou un support de stockage spécifique non contrôlé.
4.3. Autres critères à considérer
D'autres critères peuvent utilement être pris en compte dans les cas où plusieurs solutions satisfaisant aux critères précédents se présentent. Ainsi :
la disponibilité et le coût des outils et des facilités de création des données, ainsi que des outils de transformation des formats et de présentation des données,
la possibilité de vérifier automatiquement qu'un fichier de données respecte les spécifications du format et respecte également les règles d'utilisation et les restrictions qui auront été définies pour la pérennité,
les conséquences du choix en matière de volume de données : l’usage de formats inutilement volumineux sera évité,
la complexité : un format simple est préférable à un format complexe,
la structure du format : plus le contenu et le style seront mélangés dans le format, plus il sera difficile de transcoder l'un sans modifier l'autre ou d'adapter un autre style au même contenu,
la disponibilité et les potentialités de développements de services à valeur ajoutée comme l'extraction de sous-ensembles, les changements de format pour la diffusion,…
Naturellement, ces critères complémentaires ne pourront jamais être tous satisfaits. Ils peuvent même être contradictoires entre eux : tel format sera complexe mais tel autre, plus simple, conduira à des volumes de données plus importants. Ils sont donc à apprécier en fonction des caractéristiques et du contexte de l'Archive.
Attention : Recommandation
Plus restreint sera le nombre de formats de documents acceptés et gérés par l'Archive, plus le risque de difficultés pour restituer l'information de manière intelligible sera réduit.
4.3. Exemples de recommandations existantes
Dans le cadre de développement de la plate-forme PIL@E, la Direction des Archives de France (DAF) a défini une stratégie basée sur la distinction entre formats d'entrée et formats d'archivage.
Le format d'entrée est le format des fichiers en entrée du système d'archivage alors que le format d'archivage ou format cible est le format retenu pour l'archivage à long terme des documents dans le système d'archivage.
L'approche retenue par la DAF repose sur les règles de base suivantes :
nombre restreint de formats cibles (trois ou quatre formats au maximum pour chaque domaine : images, textes, messagerie électronique, fichiers comprimés),
faible nombre de formats acceptés en entrée (les formats pris en compte doivent largement couvrir les besoins de l'administration sans toutefois être trop nombreux),
tests des formats en entrée grâce à un logiciel testeur afin de s'assurer de la conformité de ces formats à leurs spécifications,
conversion des formats d'entrée vers les formats d'archivage grâce à un logiciel convertisseur ; cette conversion est réalisée lors de l'entrée des fichiers dans le système d'archivage si le format en entrée n'est pas un format cible,
archivage dans un journal des opérations de test et de conversion.
Le principe de sélection des formats cibles d'archivage est défini comme suit :
le format doit être très largement répandu et/ou disposant d'une norme européenne ou internationale,
dans le cas où le format ne dispose pas d'une norme, les spécifications de ce format doivent être publiques et facilement accessibles,
la stabilité du format doit être raisonnable : le renouvellement des versions ne doit pas s'effectuer trop rapidement (2 à 3 ans est une périodicité acceptable),
il doit exister au moins deux logiciels, d'éditeurs différents, disponibles sur le marché français ou européen qui exploite ce format ou il doit exister un logiciel en Open Source (dont le code source est public) qui gère ce format ; ces logiciels doivent au moins permettre une interprétation des documents qui rend compréhensible toute l'information contenue pour la communauté d'usagers visée.
Le Référentiel Général d’Interopérabilité (RGI) publié en mai 2009 dans une version non encore officielle, émet de son côté un ensemble de recommandations sur les formats d’image, les séquences sonores, les séquences vidéo, les objets graphiques en deux dimensions ou trois dimensions, les dessins techniques et les formats composites qui incluent en particulier toute la bureautique.
4.4. Registres de format
La collecte d’information et de documentation sur les formats numériques et sur les logiciels qui permettent de créer ou lire des données organisées selon ces formats est un lourd travail (caractéristiques, type, disponibilité de la documentation, droits de propriété applicables).
Les changements de version sont fréquents. L’évaluation d’un format par rapport aux critères énoncés ci-avant est consommatrice de ressources humaines significatives.
Il est donc illusoire d’imaginer qu’une institution pourra toujours seule suivre l’évolution de formats numériques qu’elle gère. L’objectif explicite des registres de formats qui se sont constitués est de mutualiser cet effort de collecte, de référencement et d’évaluation pour une communauté d’utilisateurs.
Exemple :
Les deux principales initiatives dans ce domaine, PRONOM au Royaume-Uni et Global Digital Format Registry (GDFR) (initiative de la « Digital Library Federation », DLF) ont décidé en avril 2009 de joindre leurs efforts pour constituer ensemble l’Unified Digital Formats Registry (UDFR).
Cette nouvelle initiative est soutenue par un certain nombre d’archives nationales et de grandes bibliothèques.
Les Informations rassemblées pour chaque format dans un registre doivent inclure au moins :
les noms canoniques du format et ses variantes :
par exemple PDF, Adobe PDF, Portable Document Format
les « signatures » internes et externes
extension = .pdf
les spécifications du format
http://partners.adobe.com/public/developer/en/pdf/PDFReference16.pdf
les auteurs, titulaires de droits, chargés de la maintenance
Société Adobe
les relations avec d’autres formats dérivés, les versions
PDF 1.7, PDF 1.4, PDF/A, PDF/X…
les systèmes, services et outils pour la création, la lecture, la validation de documents conformes à ce format
Adobe Acrobat Reader, Adobe Acrobat Distiller
Les registres peuvent aussi fournir des évaluations sur l’aptitude des formats à répondre à tel ou tel usage.
Autre initiative utile dans ce domaine : la Bibliothèque du Congrès américain a mis en place un site informatif sur les formats. Ce site propose un ensemble d'informations, de publications, de ressources sur les formats et sur leur pérennité probable. Le site présente une description des formats classée par type (texte, image, audio, vidéo). Les critères d'évaluation des formats rejoignent fortement ceux énoncés dans ce cours.