section 6 : Supports d'enregistrement et stratégies de stockage

2.3. Comment parer au manque de fiabilité des supports et de moyens de lecture ?

Pour parer au manque de fiabilité des supports et des moyens de lecture, il existe plusieurs techniques se situant à des niveaux différents :

• Les codes correcteurs d’erreurs (CCE) qui pallient les pertes et erreurs du train de bits causés par les imperfections du support ou du lecteur. Ils permettent dans une certaine mesure de corriger une ou plusieurs erreurs au sein d’un bloc physique de données sur le support,

• L’empreinte[1] numérique vise à contrôler l’intégrité des données. Elle permet d’apporter une garantie de non altération d’un fichier ou d’un groupe de fichiers. Elle ne permet pas de corriger les erreurs. Cependant, si on constate un écart entre un objet numérique et sa copie, l’empreinte permettra de dire quel est l’exemplaire valide.

Les techniques d'empreinte sont largement utilisées dans les processus de signature électronique qui seront abordés dans la section 10 « intégrité, authenticité et preuve » de ce module.

Complément

Les codes correcteurs d’erreurs ont généralement deux seuils :

• Un premier seuil qui définit le nombre d’erreurs pouvant être corrigées,

• un second qui définit le nombre d’erreurs pouvant être détectées.

Ces codes correcteurs d’erreurs sont principalement internes aux équipements de lecture. Ils ont un coût sous forme de séquences de bits supplémentaires qu’il faut stocker et décoder. Des algorithmes mathématiques parfois complexes sont mis en œuvre. Un exemple simple est celui des bits de parité :

Imaginons une séquence de bits sous la forme d’une suite d’octets empilés les uns après les autres. La représentation de cette suite prend la forme d’un tableau dans lequel chaque ligne contient 8 bits et représente un octet :

Un tableau de trois octets

Ajoutons pour chaque ligne et pour chaque colonne, ce que nous appellerons un bit de parité : ce bit prend la valeur 0 si le nombre de bits dans l’état « 1 » de la ligne ou de la colonne est pair. Sinon, ce bit de parité prend la valeur 1.

Si une erreur de lecture se produit pour un bit (remplacement d’un 0 par un 1 ou réciproquement), le lecteur va constater qu’il y a une erreur sur une ligne puisqu’il y a incohérence entre le nombre de bits dans l’état « 1 » et la valeur du bit de parité.

Les bits de parité par colonne vont nous permettre d’identifier la colonne sur laquelle il y a une erreur de bit.

Au croisement de la ligne et de la colonne identifiés, on pourra donc corriger l’erreur rencontrée.

Un mécanisme simple de détection et correction d'une erreur de bit

Ce mécanisme est rudimentaire et ne pourra pas fonctionner si on rencontre plusieurs erreurs. Il s’agit ici d’une simple illustration permettant de montrer qu’en ajoutant un certain nombre de bits de contrôle, on dispose d’une capacité de corriger les erreurs jusqu’à un certain point.

Naturellement, ces codes correcteurs d’erreur ayant des capacités limitées, il conviendra de recopier les données sur un support neuf. Cette recopie joue le rôle d’une « régénération » comme le montre la figure ci-après.

Les empreintes numériques

Les empreintes numériques sont des chaînes de caractère calculées à partir d’un algorithme ayant des propriétés mathématiques particulières, les algorithmes de hachage. Les algorithmes les plus connus sont MD5 (Message Digest 5) et SHA (Secure Hash Algorithm).

Le changement d'un seul caractère conduit à une empreinte MD5 complètement différente

Avant qu'il ne soit trop tard, on procèdera donc à une recopie des données depuis le support à risque vers un support neuf.

La recopie d'un support dégradé sur un support neuf constitue une regénération

En général, la simple lecture du support ne permet pas de déterminer le niveau de dégradation de ce support. Il est donc nécessaire de recopier les données contenues vers d’autres supports avant qu’il ne soit trop tard.

Ajoutons enfin que lorsqu'un support analogique devient partiellement dégradé, seule l'information contenue dans la partie dégradée est perdue. Ce sera le cas pour un texte dont quelques lignes deviennent illisibles. À l'inverse, compte tenu de la structure complexe des fichiers, une erreur de bit au milieu d'un fichier entraînera souvent la perte du complète du fichier. Dans le meilleur des cas, on ne perdra que la totalité de l'information qui suit l’erreur jusqu'à la fin de ce fichier. Parfois, si le fichier endommagé est la table des matières du support, c'est l'ensemble des fichiers du support qui n'est plus accessible par le système de lecture alors que ces derniers peuvent être en parfait état.

Attention

En résumé

Le manque de fiabilité et de pérennité des supports sera surmonté par un ensemble de dispositions complémentaires :

• les différentes techniques de création, gestion et traitement de codes correcteur d’erreur,

• le maintien en permanence de plusieurs copies des objets numériques, de préférence sur des supports de type différents,

• la recopie régulière des données sur d’autres supports, cela avant qu’il ne soit trop tard.

Nous disposons dans cette section de premiers éléments qui interviendront dans ce que nous appelons les stratégies de stockage.

  1. Empreinte

    Empreinte (empreinte numérique ou condensat ou hash) : Résultat d'une fonction de hachage appliquée sur une chaîne de caractères de longueur quelconque visant à réduire celle-ci en une donnée de longueur fixe représentative de cette chaîne de caractères. L'empreinte est l'un des éléments permettant de vérifier l'intégrité d'un document, d'un flux, d'un lot, d'une transmission,... (comparaison d'empreintes).

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimerRéalisé avec Scenari (nouvelle fenêtre)