1.1.1. L’encodage technique
Au sens le plus strict du terme, l’information numérique est codée en une série de chiffres binaires (des 0 et des 1), ce que l’on appelle des bits, stockés sur un support. À titre d’exemple, le caractère « C » est généralement encodé de la manière suivante en langage binaire : « 0100 0011 ».
La manière dont la série de bits est encodée dépend du type d’informations que l’on veut enregistrer. Il existe des manières différentes d’encoder du texte, des images, du son, de la vidéo, des informations géolocalisées.
La manière d’encoder chaque type d’information fait l’objet d’un ensemble de règles et de conventions, plus ou moins complexes. C’est ce que l’on appelle le format de fichiers[1]. Ce format est interprété par le matériel au moyen de logiciels[2] qui sont capables de les traduire pour les utilisateurs (figure 1).
Fig. 1 : Relation entre informations numériques et document d’archives (crédits : B. Grailles/ PIAF)
Attention :
Les règles et conventions d’encodage technique de l’information numérique sont plus ou moins clairement connues et sont parfois couvertes par le secret industriel et commercial :
on parle de format de fichiers ouvert quand les règles et conventions (les spécifications du format) sont formalisées dans un document et portées à la connaissance des producteurs et des utilisateurs ;
on parle de format de fichiers propriétaire quand les règles et conventions sont secrètes.
Certaines de ces règles et conventions ont fait l’objet d’une normalisation internationale, soit par un organisme de normalisation de type étatique (comme l’International Standard Organization -- ISO), soit par une organisation à l’origine plus informelle (comme le World Wide Web Consortium qui rassemble des acteurs soucieux de garantir la compatibilité des technologies utilisées sur le web). On parle alors de format normalisé.
Ces règles et conventions peuvent être élaborées par des particuliers, des organismes à but non lucratif ou des organismes à but lucratif (des entreprises). Dans ce cas, on parle de format propriétaire, qui peut être ouvert (comme le format PDF conçu par la société Adobe) ou fermé (comme le format DOC de Microsoft).
Complément : La compression
Dans certains cas, les règles et conventions prévoient que les informations ne sont pas enregistrées de manière « brute », mais subissent des traitements qui permettent de réduire la taille de l’information enregistrée et stockée. C’est ce que l’on appelle une opération de compression.
Cette compression peut être réalisée :
sans perte : dans ce cas, une fois décompressée, l’information sera strictement identique à l’information d’origine. Des algorithmes de compression sans perte sont utilisés par exemple pour les fichiers qui permettent d’exécuter des programmes (les fichiers exécutables) ou qui encodent du texte. Ex. format Free Lossless Audio Codec (FLAC) ;
avec perte : dans ce cas, une fois décompressée, l’information est plus ou moins identique à l’information d’origine et la qualité est plus ou moins bonne. L’utilisation d’algorithmes de compression avec perte est fréquente pour les informations de type image, son et vidéo, qui sont très volumineuses. La compression d’une image peut avoir tendance à effacer les détails de cette image (on parle souvent dans ce cas d’image pixelisée). Ex. format MPEG-1/2 Audio Layer 3 (mp3).
Encapsulage des différents types d'informations
Dans certains cas, les règles et conventions permettent d’encapsuler différents types d’informations et définissent la façon dont celles-ci s’organisent. On parle alors de format de fichiers conteneur[3] (ex. formats ZIP mais aussi les formats de messagerie comme MBOX).
Ces conteneurs permettent souvent de faciliter les exports et les imports d’informations entre logiciels et évitent la manipulation de nombreux objets.
Exemple :
Un fichier conteneur vidéo rassemble un ou plusieurs flux d’images, un ou plusieurs flux sonores, des sous-titres, des éléments de chapitrage ainsi que la description des différents flux.
Exemple :
Les logiciels de messagerie permettent d’exporter le contenu de celle-ci sous la forme d’un fichier unique, qui comprend à la fois les messages envoyés et reçus, leurs pièces jointes, leurs indexations dans le logiciel, le carnet d’adresses et l’agenda si le logiciel offre cette fonctionnalité (ex. formats PST pour Microsoft Outlook).
Comprendre les règles et conventions d’encodage technique des informations facilite la définition et la mise en œuvre d’opérations de préservation. Chaque type d’information disposant d’un encodage technique propre, le connaître permet de savoir quel procédé mettre en œuvre pour garantir la préservation à long terme de cette information.