Chapitre 2 - Stratégies pour la conservation des informations numériques
2.1. Migration
La migration est un transfert d’informations numériques au sein de l'Archive pour la pérennisation de cette information.
transférer des données d'un support d'enregistrement vers un autre sans modifier le contenu informationnel, c’est la migration de support,
transformer un format de fichier en un autre qui modifie le mode d’encodage des fichiers et par conséquent leur structure mais ne modifie pas leur contenu informationnel, c’est la migration de format.
La migration est un processus qui doit être organisé, planifié et précédé d’une étude permettant d’identifier les éventuelles pertes de fonctionnalités et d’évaluer les risques de perte d’informations que va entraîner cette migration.
Le processus dans son ensemble comportera donc :
un examen de l’opportunité : pourquoi et quand entreprendre une migration ? Quelle est la nature de cette migration ?
l’étude de faisabilité : faisabilité technique, prototypage si nécessaire, évaluation de la durée, des coûts et des moyens à mettre en place,
la spécification détaillée du processus retenu,
la réalisation des développements informatiques nécessaires,
la mise en œuvre du processus de migration : cette mise en œuvre doit absolument intégrer des moyens de contrôle du bon déroulement des procédures et de la conformité du résultat obtenu.
2.2. Pourquoi migrer les supports ?
Plusieurs raisons essentielles conduisent à une décision de migration :
la dégradation des supports : les supports numériques deviennent de moins en moins fiables au fil du temps pour préserver les bits de façon sûre ; cette dégradation des supports implique un transfert des données enregistrées vers un nouveau support ;
l’émergence de technologies nouvelles et de supports d’enregistrements qui permettent une réduction significative des coûts à fonctionnalités égales, voire avec des performances accrues ;
l’obsolescence technologique : les technologies des matériels et des logiciels évoluent sans cesse ; le coût des matériels et des médias de stockage ne cesse de baisser ; cette évolution entraîne l’éviction du marché de certains supports d’enregistrements ; cette éviction peut survenir bien avant que les supports ne soient dégradés ; cette situation peut conduire provisoirement à une augmentation prohibitive des coûts de maintenance des logiciels et des matériels, mais à plus long terme à une impossibilité de disposer d’équipements de lecture en état de marche d’où l’impérieuse nécessité de migrer vers d’autres supports avant que cela ne se produise ;
les évolutions des besoins des utilisateurs : les utilisateurs attendent également des avantages des nouvelles technologies et de ce fait de nouvelles attentes apparaissent quant aux types et à la qualité des services rendus ; pour répondre à ces attentes, il peut devenir nécessaire de transférer l’information vers des supports qui permettent des temps d’accès plus rapides ; ces services améliorés peuvent aussi nécessiter de nouveaux formats de représentation de l’information à archiver ou l’utilisation de systèmes plus performants ; il s'agit ici d'une migration des formats de communication qui n'implique pas nécessairement une migration des formats de conservation, le problème concernant principalement la fonction accès.
2.3. Les différents types de migrations de support
La migration des supports : cette opération consiste soit à recopier le contenu d’un support vers un support de même type, ou vers un autre type de support.
Le caractère plus ou moins délicat à mettre en œuvre va dépendre du type de migration. Nous distinguerons les trois cas de figure proposés par le modèle OAIS.
Le rafraîchissement de support qui consiste à recopier le contenu d’un support sur un support de même type et de même capacité de stockage :
Recopie du contenu de chaque CD sur un CD neuf. Le CD neuf vient prendre la place du précédent, rien d'autre ne change dans le système. |
Le rafraîchissement de supports, intervient principalement :
sur la base de constats de dégradation résultant de la surveillance des supports,
sur une base planifiée en fonction des informations techniques fournies par le fabricant ou par retour d’expérience.
Sous réserve de prendre les précautions élémentaires de vérification de la réécriture et de comparaison systématique des fichiers migrés par rapport aux fichiers de départ, cette opération est la moins risquée. Sur tous les systèmes d’exploitation, il existe des logiciels permettant de comparer deux fichiers et de vérifier que la séquence de bits contenue dans un fichier est absolument identique à la séquence de bits contenue dans un autre fichier.
La duplication consiste à recopier le contenu d’un support sur un support de même type mais de capacité de stockage généralement plus importante.
Un DVD pourra recevoir le contenu de 8 à 10 CD. Cette migration va impliquer des changements dans la mise en correspondance entre les Paquets d'information et les supports d'enregistrement sur lesquels ils sont stockés. |
Le ré-empaquetage interviendra lorsque le transfert entraînera une organisation différente de l'information : remplacement d'une organisation basée sur des répertoires par une organisationnelle séquentielle, regroupement sur un même support de fichiers d'un même objet qui étaient auparavant répartis sur plusieurs supports, etc.
Un exemple de ré-empaquetage dans lequel les contenus de DVD sont transférés sur des cartouches magnétiques, chaque cartouche pouvant recevoir le contenu d'un ensemble de DVD. |
La duplication et le ré-empaquetage peuvent intervenir dans les cas suivants :
inadéquation des supports par rapport aux besoins de l'Archive : le type de support jusque-là utilisé ne correspond plus au cadre défini par l’Archive ou à sa volumétrie ; il sera par exemple infiniment plus simple d’assurer la surveillance d’une centaine de DVD que d’un millier de CD ;
l’obsolescence technologique : la technologie est en fin de vie ; les coûts de maintenance deviennent prohibitifs ; il est nécessaire de transférer les contenus enregistrés sur les supports actuels vers un nouveau type de support.
Dans le cas du passage d'un support disque sur lequel les données sont organisées au sein d'arborescences structurées vers un support de type bande où les données sont nécessairement rangées séquentiellement, il sera nécessaire de modifier en profondeur les mécanismes d'adressage des différents objets de données.
Enfin, on peut ajouter que dans tous les cas de migration vers de nouveaux types de support, les difficultés résident également dans l’absence de maîtrise d’une nouvelle technologie utilisée.
2.4. Migrations de format
Cette opération est la plus risquée. Elle consiste à transformer un format de représentation de l’information en un autre. Le contenu d'information, au sens du modèle OAIS, fait l'objet de changement puisqu'on organise la séquence de bits de façon différente. Ces changements ne doivent cependant pas avoir d'impact sur le contenu informationnel.
La migration de formats intervient dans les cas suivants :
l’obsolescence technologique : les logiciels qui permettent d’exploiter les informations ne seront bientôt plus disponibles et la prise en charge de nouveaux développements pour adapter ces logiciels aux nouvelles plates-formes est trop coûteuse ou trop complexe ;
le producteur n'est pas en mesure de fournir à l'Archive, des documents dans les formats que l'Archive considère comme acceptables pour la pérennisation des contenus d'information ; dans ce cas, une transformation vers un format choisi par l'Archive peut intervenir dès la réception des données par l'Archive (c’est une situation déjà prévue par la direction des archives de France avec le prototype PIL@E) ;
l’évolution des besoins des utilisateurs : les utilisateurs du système ont de nouvelles attentes qui obligent l’Archive à effectuer systématiquement des transformations longues entre le format d’archivage et le format de diffusion.
Exemple :
Considérons un organisme qui possède un certain nombre de documents au format Microsoft Word. Supposons à présent que cet organisme a adopté le format PDF/A pour conserver ces documents sur le long terme.
Dans le cas de documents simples, l'opération peut être sans conséquence et sans perte. Néanmoins, dans le cas assez fréquent où les documents ont des liens entre eux, voire vers des types de fichiers différents, comme Excel, ou si ces documents comportent des « macros » (c'est-à-dire des séquences de logiciel insérées dans le document et exécutées par le logiciel Word) ou des objets de provenances externes, l'opération devient alors extrêmement complexe et entraînera probablement une perte. Il sera alors nécessaire de mesurer ce qu'on perd dans cette opération de migration et si cette perte est acceptable.
Pour ce type de migration, nous distinguons deux types de transformations.
Les transformations réversibles : il y a bijection entre l’ancienne représentation et la nouvelle.
Par exemple, en remplaçant une représentation qui utilise les codes ASCII ‘A à Z’ par une représentation qui utilise les codes UTF-16 UNICODE de ‘A à Z’. La transformation aura pour effet de remplacer les codes à 7 bits par des codes à 16 bits. La transformation inverse peut donc être réalisée en remplaçant les codes UTF-16 UNICODE de ‘A à Z’ par les codes ASCII de ‘A à Z’ et l’on retrouve l’information originale. Cette réversibilité facilite énormément la validation de la transformation.
Les transformations irréversibles : on ne peut garantir un strict retour à l'état initial.
Par exemple, le remplacement d’une valeur à virgule flottante d’une représentation des réels utilisés par les CRAY (1 bit pour le signe, 15 pour l’exposant et 48 bits pour la mantisse) par une représentation des réels normalisée IEEE (1 bit pour le signe, 11 pour l’exposant et 52 pour la mantisse) entraîne une approximation portant sur le 13ème ou le 14ème chiffre significatif du nombre considéré. Cette approximation sera considérée suivant les cas comme sans importance ou au contraire préjudiciable à l’interprétation des données. A partir des résultats de la transformation, il n'est plus possible de revenir par une transformation inverse à un état rigoureusement identique à l'état initial. Une méthode rigoureuse de validation devra alors être définie.
2.5. Emulation
L’émulation est une technique qui consiste à élaborer un logiciel qui va être capable de simuler les services et les comportements d’un autre logiciel conçu pour une plate-forme différente. L’application de cette technique permet d’émuler les couches matérielles et logicielles d’un système pour exploiter une représentation de l’information désuète ou une application qui nécessite un environnement obsolète.
Dans l’hypothèse où il est possible de développer ce type de logiciel, il devient envisageable de ne plus se préoccuper de l’obsolescence technologique du format de représentation. Seules les migrations des supports sont à considérer.
Pour certains objets numériques comme les jeux, il est nécessaire de conserver l’apparence et l’ergonomie. Dans d'autres cas comme les encyclopédies et dictionnaires numériques publiés sous forme de DVD, nous disposons d'informations dans un format qui n'est pas nécessairement connu ou publié, ces informations pouvant être recherchées à l'aide de logiciels exécutables pour lesquels le code source n'est pas publié. Dans ces cas, l’émulation est probablement le seul moyen raisonnable et, parfois le seul possible, que nous ayons à notre disposition.
Ce principe est d’apparence séduisant. Ces émulateurs permettent de garder tel quel l’objet numérique et par conséquent de conserver son apparence et ses fonctionnalités.
L’émulation nous apporte, du moins sur le court terme, la garantie d’accès aux informations. Mais nous percevons les limites de cette stratégie.
Il paraît extrêmement difficile de concevoir des émulateurs génériques, c’est-à-dire pouvant être utilisés avec un grand nombre de types de matériels. Bien souvent, ils seront spécifiques, multipliant ainsi leur nombre et leur diversité.
Notons également que les émulateurs, comme tout logiciel, sont conçus pour un type de plate-forme donné. Ils sont donc eux-mêmes potentiellement menacés d’obsolescence. Pour résoudre ce problème, il est possible de faire évoluer l’émulateur sur une nouvelle plate-forme si le nombre d’émulateurs concernés est raisonnable. Dans le cas contraire, il faut utiliser un nouvel émulateur qui permettra d’exécuter les émulateurs devenus inutilisables. Nous obtenons, finalement, une imbrication d’émulateurs qui sera probablement très difficile à gérer à long terme.
Attention :
L'émulation est loin de résoudre tous les problèmes. Au vu des contraintes et du manque notoire de puissantes forces du marché en faveur de ces approches, l'émulation semble présenter un risque à la fois technique et économique majeur.
2.6. Conclusion
Nous pouvons conclure que dans l'état actuel des choses, seule la stratégie de migration est crédible à grande échelle pour les documents les plus courants (texte, image, son, vidéo).
Attention :
Cette stratégie ne permet cependant pas à elle seule de résoudre la question de la conservation de tous les types d'information.
Si pour les bases de données statiques, on sait exporter des tables et des données avec leur documentation, par contre il subsiste de sérieuses difficultés pour les bases de données dynamiques. L'archivage des nouveaux objets numériques comme les blogs ou encore des œuvres d'art numérique est loin d'être résolu de façon satisfaisante.