2.2.1.1. Les trois techniques d’identification du format d’un fichier numérique

L’identification est une opération technique qui permet de définir précisément quel est le format d’un fichier, quel qu’il soit. Elle permet de catégoriser les documents d’archives conservés et d’identifier les grandes catégories de formats de fichiers (traitement de texte, tableurs, bases de données, images fixes, son, images animées, sites web, etc.) que le service d’archives a pris en charge, qu’il doit préserver et auxquelles il doit donner accès sur le long terme.

Trois techniques d’identification du format d’un fichier numérique existent :

  • l’extension du fichier[1] (ex. .doc) : c’est le moyen employé par la plupart des systèmes d’exploitation pour identifier le format d’un fichier et définir quel logiciel sera proposé à l’utilisateur pour ouvrir celui-ci et visualiser son contenu. Malheureusement, aucune règle ou norme particulière ne précise la méthode de formatage des extensions et chaque système d’exploitation possède ses propres règles. Par ailleurs, les fichiers les plus anciens (antérieurs au développement des systèmes d’exploitation les plus courants) ne sont pas toujours dotés d’extension et certains systèmes d’exploitation n’utilisent les extensions que depuis peu de temps. Se baser sur l’extension d’un fichier pour déterminer son format est donc problématique, d’autant qu’il est très facile de modifier cette information ;

  • les métadonnées techniques[3] que le fichier embarque, non visibles directement par l’utilisateur, notamment son type MIME (Multipurpose Internet Mail Extensions) : apparu en 1991, le type MIME[2] consiste en un système normalisé d’identifiants enregistrés par l’Internet Assigned Numbers Authority (IANA) – même si certaines organisations ont créé leur propre type MIME, sans l’enregistrer auprès de l’IANA. L’IANA maintient donc une liste presque exhaustive des types MIME disponible à l’adresse  suivante : https://www.iana.org/assignments/media-types/media-types.xhtml. Le type MIME  est destiné à faciliter la visualisation dans un navigateur web, mais est également utilisé par certains systèmes d’exploitation. Le type MIME est composé d’un type et d’un sous-type, séparés par un slash (ex. audio/mpeg, text/csv, image/jpeg). Se baser uniquement sur le type MIME est tout aussi risqué que se baser sur l’extension, car un même type MIME peut être partagé par plusieurs versions d’un même format de fichiers voire entre plusieurs formats de fichiers. Les erreurs d’identification sont donc nombreuses ;

  • la signature du fichier[4] (le magic number) : la signature d’un fichier est constituée d’un ensemble de caractères propre à chaque format. À l’origine, les 2 octets stockés au début de chaque fichier suffisaient à identifier le format de fichiers. Aujourd’hui, il est nécessaire de définir une chaîne d’octets plus complexe afin d’identifier de manière certaine le format de fichiers. Cet ensemble de caractères n’est généralement pas visible par l’utilisateur et nécessite l’utilisation d’outils spécifiques – un éditeur hexadécimal – pour être identifié. Même si tous les formats de fichiers ne disposent pas de signatures – notamment les fichiers HTML ou XML –, les signatures offrent de meilleures garanties pour identifier finement le format d’un fichier. Cette méthode est largement utilisée par les outils développés pour la préservation numérique.

Fig.2 :Signature d’un fichier FAT12, identifiée au moyen d’un éditeur hexadécimal (source : David Clipsham, Nick Krabbenhoeft, Shira Peltzman, Justin Simpson, Carl Wilson, « PRONOM in practice », IPRES 2018, page 62, https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&ved=2ahUKEwiultK6_ZqAAxWsTaQEHYnuBrAQFnoECBcQAQ&url=https%3A%2F%2Fosf.io%2Fy28h3%2Fdownload&usg=AOvVaw3AoEr6yMPdeIKiHCwi_7ce&opi=89978449)

Remarque

Extensions, types MIME et signatures des formats sont enregistrés, avec la documentation trouvée sur les différents formats, par les spécialistes de la présentation numérique dans des bases de données – des registres – décrivant les différents formats, recensant les moyens de les identifier et les outils permettant de les traiter et de les rendre accessibles.