1.1.1. L’encodage technique [Module 7C-Section 1 : Les documents d'archives sur support numérique]

1.1.1. L’encodage technique

Au sens le plus strict du terme, l’information numérique est codée en une série de chiffres binaires (des 0 et des 1), ce que l’on appelle des bits, stockés sur un support. À titre d’exemple, le caractère « C » est généralement encodé de la manière suivante en langage binaire : « 0100 0011 ».

La manière dont la série de bits est encodée dépend du type d’informations que l’on veut enregistrer. Il existe des manières différentes d’encoder du texte, des images, du son, de la vidéo, des informations géolocalisées.

La manière d’encoder chaque type d’information fait l’objet d’un ensemble de règles et de conventions, plus ou moins complexes. C’est ce que l’on appelle le format de fichiers^[1]. Ce format est interprété par le matériel au moyen de logiciels^[2] qui sont capables de les traduire pour les utilisateurs (figure 1).

Fig. 1 : Relation entre informations numériques et document d’archives (crédits : B. Grailles/ PIAF)

Attention :

Les règles et conventions d’encodage technique de l’information numérique sont plus ou moins clairement connues et sont parfois couvertes par le secret industriel et commercial :

on parle de format de fichiers ouvert quand les règles et conventions (les spécifications du format) sont formalisées dans un document et portées à la connaissance des producteurs et des utilisateurs ;
on parle de format de fichiers propriétaire quand les règles et conventions sont secrètes.

Certaines de ces règles et conventions ont fait l’objet d’une normalisation internationale, soit par un organisme de normalisation de type étatique (comme l’International Standard Organization -- ISO), soit par une organisation à l’origine plus informelle (comme le World Wide Web Consortium qui rassemble des acteurs soucieux de garantir la compatibilité des technologies utilisées sur le web). On parle alors de format normalisé.

Ces règles et conventions peuvent être élaborées par des particuliers, des organismes à but non lucratif ou des organismes à but lucratif (des entreprises). Dans ce cas, on parle de format propriétaire, qui peut être ouvert (comme le format PDF conçu par la société Adobe) ou fermé (comme le format DOC de Microsoft).

Complément : La compression

Dans certains cas, les règles et conventions prévoient que les informations ne sont pas enregistrées de manière « brute », mais subissent des traitements qui permettent de réduire la taille de l’information enregistrée et stockée. C’est ce que l’on appelle une opération de compression.

Cette compression peut être réalisée :

sans perte : dans ce cas, une fois décompressée, l’information sera strictement identique à l’information d’origine. Des algorithmes de compression sans perte sont utilisés par exemple pour les fichiers qui permettent d’exécuter des programmes (les fichiers exécutables) ou qui encodent du texte. Ex. format Free Lossless Audio Codec (FLAC) ;
avec perte : dans ce cas, une fois décompressée, l’information est plus ou moins identique à l’information d’origine et la qualité est plus ou moins bonne. L’utilisation d’algorithmes de compression avec perte est fréquente pour les informations de type image, son et vidéo, qui sont très volumineuses. La compression d’une image peut avoir tendance à effacer les détails de cette image (on parle souvent dans ce cas d’image pixelisée). Ex. format MPEG-1/2 Audio Layer 3 (mp3).

Encapsulage des différents types d'informations

Dans certains cas, les règles et conventions permettent d’encapsuler différents types d’informations et définissent la façon dont celles-ci s’organisent. On parle alors de format de fichiers conteneur^[3] (ex. formats ZIP mais aussi les formats de messagerie comme MBOX).

Ces conteneurs permettent souvent de faciliter les exports et les imports d’informations entre logiciels et évitent la manipulation de nombreux objets.

Exemple :

Un fichier conteneur vidéo rassemble un ou plusieurs flux d’images, un ou plusieurs flux sonores, des sous-titres, des éléments de chapitrage ainsi que la description des différents flux.

Exemple :

Les logiciels de messagerie permettent d’exporter le contenu de celle-ci sous la forme d’un fichier unique, qui comprend à la fois les messages envoyés et reçus, leurs pièces jointes, leurs indexations dans le logiciel, le carnet d’adresses et l’agenda si le logiciel offre cette fonctionnalité (ex. formats PST pour Microsoft Outlook).

Comprendre les règles et conventions d’encodage technique des informations facilite la définition et la mise en œuvre d’opérations de préservation. Chaque type d’information disposant d’un encodage technique propre, le connaître permet de savoir quel procédé mettre en œuvre pour garantir la préservation à long terme de cette information.

Notes

Format de données, ou format de fichier ou format de représentation de l'information :
le format de données peut être défini par l'ensemble des règles et algorithmes permettant d'organiser l'information dans un objet numérique.
Par exemple, le format de données permettra de :
* spécifier le codage des couleurs des pixels d'une image, définir un algorithme de compression des données et l'organisation de ces données dans un fichier (formats PNG, TIFF...),
* spécifier l'organisation et la structuration d'informations textuelles à partir de l'encodage élémentaire des caractères (formats SGML, XML) ;
en réalité, SGML et XML sont en premier lieu des langages comportant un ensemble de règles, une syntaxe, des mots clés permettant de constituer des documents structurés ; lorsqu'un document a été structuré par le langage XML, on connaît en pratique l'ensemble des règles d'organisation de l'information au sein de ce document ; à ce titre, XML (comme SGML) peut donc être considéré comme un format,
* définir comment les quatre informations élémentaires que sont la mantisse (nombre entier positif), l'exposant (nombre entier positif), le signe de l'exposant et le signe de la mantisse (caractères + et -) sont organisées pour représenter un nombre réel sous forme numérique (cf. standard ANSI/IEEE 754-1985).
Logiciel
Un logiciel est un ensemble des programmes constituant une unité destinée à effectuer un traitement particulier sur un ordinateur.
Conteneur
Un conteneur (wrapper ou container en anglais) est est une enveloppe virtuelle utilisée pour stocker des fichiers, services, librairies etc. sous une forme organisée qui suit des règles d'accès spécifiques.