Section 12 - Études de cas

3.1. L'expérience d'un grand organisme scientifique : le Centre national d'études spatiales (CNES)3.

Le retour d'expériences du CNES mérite d'être analysé à plusieurs titres.

En premier lieu, il témoigne d'une expérience de longue date sur le sujet, expérience qui a conduit à des réalisations qui ont valeur d'exemple et qui ont fortement contribué à l'émergence d'une méthodologie aujourd'hui largement reconnue.

En second lieu, elle fait aussi apparaître les décalages qui peuvent exister entre d'une part les ingénieurs et les chercheurs sur le terrain qui ont une conscience aiguë des problèmes posés et des risques encourus, et d'autre part les directeurs et les présidents des établissements publics qui ont une vision plus floue de ces questions dont ils considèrent parfois qu'il s'agit d'un sujet essentiellement technique.

3.1.1. Données scientifiques spatiales

Les missions spatiales peuvent être classées en différentes catégories en fonction de leurs objectifs : les unes ont une vocation fondamentalement scientifique, les autres sont tournées vers des applications de diverses natures : télécommunication, télévision, localisation et collecte de données, météorologie, observation de la Terre, applications qui peuvent être civiles ou militaires. Certaines missions, en particulier toutes celles qui observent et étudient la Terre et son environnement, visent à répondre en même temps à des besoins scientifiques à long terme et à des questions économiques à court et moyen terme comme le suivi de la végétation ou l'étude du cycle de l'eau.

Les missions scientifiques couvrent un large spectre de domaines. L'étude de l'Univers y tient une large place, avec en premier lieu les différentes disciplines de l'astronomie (astrophysique, astrochimie, astrométrie, ...) et l'exploration du système solaire et de ses différentes planètes encore fort mal connues. L'observation du soleil et des phénomènes qui s'y produisent, l'étude des effets de ces phénomènes sur notre planète et son environnement ionisé en font également partie. Un autre volet très important est celui de l'étude et de l'observation de la Terre, de sa forme et de sa surface (géodésie), de ses océans, de son évolution à moyen et long terme dans tous les domaines. D'autres domaines importants de la science donnent lieu à des expériences de chimie, de biologie, de médecine en apesanteur. Certaines enfin, et sans pour autant que la liste soit close, visent à vérifier à l'échelle des distances interplanétaires, des théories fondamentales de la physique comme celle de la relativité.

Toutes les observations sont réalisées à l'aide d'instruments complexes qui ont été conçus à cet effet, et qui fournissent des mesures sous forme de données numériques. Une caractéristique particulière d'un nombre important de missions est la capacité de ces instruments à effectuer des observations systématiques de longue durée et à fournir des données de manière continue pendant un certain nombre d'années. C'est ce qui explique les très grands volumes de données générées par cette activité. Ces données sont transmises au sol par l'intermédiaire d'un signal électromagnétique codé qu'on appelle la télémesure. Depuis le début des années 1980, les données produites par les instruments sont mises sous forme numérique à bord même du véhicule spatial puis transmises au sol.

Le besoin de conserver la majeure partie de ces données à long terme répond à deux impératifs : un impératif scientifique et un impératif patrimonial

3.1.2. Question du stockage et des formats d'enregistrement

Au début des années 1970, les données ont d'abordété enregistrées sur des bandes magnétiques 7 pistes (6 pistes pour les données et une piste dite de parité pour le contrôle des erreurs de bit) avec des densités d'enregistrement de 200, 556 puis 800 bpi (bits par pouce). Ces bandes ont disparu très vite et ont été remplacées par des bandes 9 pistes (8 de données plus une pour la parité) en relation avec le développement des jeux de caractères à huit bits (comme par exemple l'EBCDIC d'IBM). Les densités des bandes 9 pistes ont évolué de 800 bpi à 1600 bpi puis 6250 bpi jusque vers la fin des années 1980. Au-delà de cette période, cette technologie a cessé d'évoluer et a pratiquement disparu à la fin des années 1990. Les capacités d'enregistrement étaient faibles au regard de nos support actuels : de 15 Mo pour la bande 800 bpi à 150 Mo pour la bande 6250 bpi.

En 1990, toutes les données issues des missions scientifiques du CNES étaient stockées sur plusieurs dizaines de milliers de bandes entreposées dans les locaux du centre de calcul du CNES à Toulouse. Presque toutes ces bandes et les fichiers de données qu'elles contenaient avaient la structure propriétaire liée aux puissants (pour l'époque !) ordinateurs Control Data du centre. Chaque collection de bandes magnétiques était gérée, contrôlée, entretenue par les équipes projets propriétaires des données contenues dans ces collections.

C'est à cette époque que la situation et les perspectives à moyen terme ont changé de manière significative en raison de trois facteurs : le premier et le plus contraignant a été la disparition annoncée des technologies de stockage sur bandes magnétiques 6250 bpi. En second lieu, en relation avec l'évolution générale de l'informatique en milieu scientifique, le CNES a planifié l'arrêt des machines Control Data du centre informatique, basées sur le système d'exploitation NOS/VE et leur remplacement par des machines basées sur le système UNIX. Enfin, il y avait la volonté de rendre les données scientifiques accessibles et utilisables par la communauté la plus large.

3.1.3. Mise en place du STAF et migration des données

Face à cette situation, le CNES a fait le choix, dès 1992, de la mise en place d'un service central de stockage apportant une véritable garantie de conservation à long terme des bits, quelle que soit la technologie de stockage utilisée. Ce service spécialisé en charge de pérenniser les fichiers est le STAF. Il est opérationnel depuis 1994 et se présente comme une entité indépendante des projets ou des services d'archive. Ces derniers sont les clients du STAF et s'adressent à lui au moyen d'un ensemble de commandes de base permettant notamment de demander le stockage ou la restitution d'un fichier ou d'un ensemble de fichiers. Ces communications passent par le réseau interne du CNES. Le STAF a donc une mission très simple :

• recevoir des fichiers sans avoir à connaître leur format ni leur contenu informationnel,

• assurer la conservation à long terme de ces fichiers,

• garantir leur intégrité,

• garantir leur confidentialité,

• et les restituer à la demande.

La migration immédiate et indispensable des données sur bandes vers le STAF a donc été décidée et entreprise dès 1994. Elle a duré cinq ans, porté sur plus de 60 000 bandes magnétiques, soit environ 500 000 fichiers, et a impliqué une mobilisation momentanée d'une série d'acteurs qui ont pris véritablement conscience de la grande vulnérabilité des données et des multiples causes pouvant conduire à leur perte. Le nombre de fichiers perdus à cette occasion pour des raisons liées au stockage a été très faible mais non nul en raison de l'existence de quelques bandes ayant une densité obsolète (800 bpi) pour lesquelles le CNES n'avait plus d'équipement de lecture, et de rares bandes illisibles à cause de leur dégradation physique.

La migration a immédiatement révélé que la plupart des données présentaient des structures logiques et des encodages propres aux systèmes d’exploitation qui avaient été utilisés pour créer ces données, systèmes d’exploitation eux-mêmes en voie de disparition. En conséquence, les fichiers n'étaient pas portables et donc non lisibles sur un autre système. Une première tâche a donc consisté à débarrasser les fichiers de toutes les informations supplémentaires propres au système d'exploitation. Cela a pu être réalisé à l'aide de logiciels utilitaires disponibles dans le système d'exploitation lui-même.

Une seconde opération beaucoup plus délicate a dû être entreprise. Dans la plupart des cas, les fichiers contenaient des résultats de traitement scientifique sous forme de suites de nombres entiers et réels codés en binaire. La représentation binaire des nombres réels de très haute précision, d'une taille de 128 bits était une représentation propriétaire. Le CNES a fait le choix d'utiliser une représentation standard des nombres (notamment IEEE pour les nombres réels), ce qui a nécessité une transformation des données. Il s'agit donc ici de transformations ou migrations de format. Ces transformations présentaient plusieurs difficultés :

• elles ne pouvaient être exécutées de manière automatique et impliquaient un développement logiciel spécifique pour chaque collection de fichiers,

• elles n'étaient pas réversibles en raison des inévitables erreurs d'arrondi portant sur les derniers chiffres significatifs.

Elles exigeaient donc un effort de validation considérable. Pour plus de sécurité, les fichiers d'origine ont été conservés quelques années puis détruits.

En outre, les éléments descriptifs de ces données, permettant d’en connaître la signification, étaient parfois inexacts ou incomplets, voire pas toujours disponibles, Il a donc été nécessaire, au cours d’une même opération qualifiée de « réhabilitation des données », de reformater les données pour les doter de structures indépendantes des systèmes d’exploitation, de reconstituer les métadonnées pour autant que cela était encore possible et de migrer ces données vers le STAF. Plusieurs ingénieurs ont consacré plusieurs années à cette opération, ils ont dû avoir recours à des experts scientifiques encore disponibles pour reconstituer les métadonnées, ils se sont appuyés sur des sociétés de service pour les développements des logiciels de transformation de formats, ils ont consommé des ressources machines considérables. L’essentiel des données a été sauvé mais cette opération a permis de mesurer à quel point le fait de prendre des dispositions tardives pouvait coûter cher. Compte tenu du rythme actuel des évolutions des technologies numériques, un tel sauvetage ne serait probablement plus possible aujourd’hui.

D'autres signes de l'accélération de l'obsolescence des technologies ont également marqué cette période. L'exemple des documents textuels issus du domaine de la bureautique est éloquent. Le CNES a utilisé un premier système bureautique disponible sur le marché dans la seconde partie des années 1980. Il s'agissait d'un système propriétaire constituant l'avatar électronique de la machine à écrire traditionnelle et permettant la saisie, la mise en page et l'impression de documents texte en bénéficiant des possibilités de l'informatique. Des masses importantes de documents ont été saisies à l'aide de ce système. Au début des années 1990, avec le développement de la micro-informatique et les débuts du monopole de Microsoft sur la bureautique, la plupart des autres systèmes propriétaires existants ont disparu du marché, ... mais les documents sont restés. Sans la moindre possibilité technique d'opérer une migration des documents vers le progiciel Word pour DOS qui constituait la première version de Word utilisée au CNES, les documents ont été saisis une nouvelle fois. Six ans plus tard, le CNES a fait le constat que les documents enregistrés sous Word pour DOS n'étaient que partiellement compatibles avec Word 97 pour Windows. Pour l'ensemble des documents qui devaient être conservés, le texte a pu être récupéré mais la mise en page de milliers de tableaux complexes a été entièrement reprise.

Aujourd'hui, les inévitables migrations de support sont réalisées de façon continue par le STAF et ne sont pas visibles des clients du service. En quinze ans d'existence et avec une volumétrie qui s'approche à grands pas du pétaoctet, le STAF n'a pas perdu une seule donnée, il a démontré l'intérêt et l'efficacité des principes sur lesquels il a été construit, à savoir une totale indépendance de la fonction de stockage par rapport aux autres entités fonctionnelles d'un service d'archivage long terme, il met en pratique ce qu'on appelle aujourd'hui la virtualisation du stockage.

3.1.4. Des systèmes d'archivage générique pour réduire les coûts

Il est possible, dans une certain mesure, de définir des formats de données et de métadonnées totalement indépendants des systèmes d'exploitation et des technologies. Ce choix limite la vulnérabilité de ces données et métadonnées par rapport aux changements de ces technologies. Par contre, il n'est pas possible de construire un système d'archivage numérique, composé de matériels et de logiciels qui soient indépendants de la technologie. Par ailleurs, sachant que le système d'archivage numérique est le moyen par lequel nous allons pouvoir recevoir les données à archiver, les stocker, les gérer, les rendre accessibles, ce système doit être pérenne. Soumis à tous les aléas des obsolescences technologiques, il conviendra d'assurer la maintenance de ce système pour qu'il reste en fonctionnement permanent. Périodiquement, en raison de la disparition de telle ou telle technologie utilisée, ce ne sont plus des travaux de maintenance mais ce sont des travaux de reconstruction partielle du système qu'il faudra entreprendre et donc financer.

La question de la limitation et si possible de la réduction des coûts de maintien en fonctionnement permanent du système d'archivage est un point critique auquel le CNES a tenté de répondre par deux choix.

• Un choix d'architecture consistant à structurer les systèmes en blocs fonctionnels indépendants les uns des autres de façon à ce que tout changement technologique majeur entraînant des modifications profondes sur un bloc soit sans impact sur les autres. Le CNES avait rencontré dans le passé le cas de systèmes monolithiques dans lesquels un changement limité sur un domaine induisait une propagation en chaîne de modifications sur l'ensemble du système, avec des conséquences importantes en termes de coût de modification et de validation,

• Un choix de généricité visant à construire des systèmes réutilisables par plusieurs applications au sein de l'établissement et par plusieurs organismes ayant des activités d'archivage de données scientifiques. Ce choix vise un partage des coûts de développement, puis de maintenance et d'évolution par les différents sites utilisateurs du système. Jusqu'en 1995, chaque mission scientifique spatiale conduisait au développement d'un système dédié permettant la réception, le traitement, la diffusion et l'archivage des données de cette mission. Le CNES a rapidement fait le constat qu'il serait dans le futur impossible de conserver en état de fonctionnement autant de systèmes que de missions spatiales passées. Il était donc impératif de construire un système de gestion et d'accès aux données capable d'offrir des fonctions d' accès aux données de toutes les missions d'une même discipline scientifique, voire de plusieurs disciplines scientifiques distinctes. Un premier système générique de ce type, le SIPAD (Système d'Information, de Préservation et d’Accès aux Données), a été développé pour assurer la gestion et la mise à disposition des données du Centre de Données de la Physique des Plasmas (http://cdpp.cesr.fr). Sa première mise en service date de 1999. Ce système était notamment basé sur un produit commercial de gestion des données techniques nommé Métaphase. Après quelques années de fonctionnement seulement, il est apparu nécessaire de résoudre un ensemble de questions techniques liées au SIPAD : maîtriser les performances d'accès à la base de données, performances qui se dégradent en même temps que le nombre de jeux de données augmente, éliminer la dépendance du SIPAD par rapport au produit Métaphase dont la pérennité n'était plus garantie, introduire des fonctions nouvelles dans la perspective d'interrogations automatisées, disposer de possibilités de spécialisation avancée de l'interface homme-machine. L'ampleur des besoins d'évolutions a conduit au développement d'un système entièrement nouveau, le SIPAD-NG. La mise en service en 2006 de ce nouveau système a donc impliqué au préalable de revoir le schéma de la base de données. Les métadonnées ont été globalement extraites du SIPAD, puis transformées et enrichies conformément aux nouvelles spécifications de métadonnées, puis validées et ingérées dans le SIPAD-NG. Le système SIPAD-NG dispose aujourd'hui d'une solide assise : utilisé au sein du CNES par plusieurs entités distinctes en charge de l'archivage de données, utilisé également au sein de plusieurs autres organismes de recherche comme le CNRS ou l'IFREMER (Institut français de recherche pour l'exploitation de la mer), il commence réellement à répondre à ce besoin de disposer d'une assise de sites utilisateurs du système, entre lesquels les coûts de maintenance et d'évolution sont partagés.

3.1.5. Une méthodologie qui se consolide

Les travaux de sauvetage et de « réhabilitation des données » ont été accompagnés d'une analyse méthodologique sur ce qu'il convenait de faire et de ne pas faire dans le futur. Un premier document de spécification de l'archivage long terme des données spatiales a été rédigé et diffusé en juin 1993. Il souligne l'importance du patrimoine de données scientifiques et technologiques conservé et maintenu depuis le début des années 1970 et observe trois évolutions essentielles :

• l'augmentation constante des volumes de données produites,

• l'accroissement important des durées de conservation minimales requises (plusieurs dizaines d'années),

• les besoins d'une accessibilité de plus en plus large à ces données par la communauté scientifique.

Cette première spécification contient déjà toutes les exigences essentielles appliquées aujourd'hui aux données scientifiques :

• l'identification de l'ensemble des informations qu'il convient d'associer aux données cibles de l'archivage : description syntaxique et sémantique des fichiers, paramètres d'étalonnage, ... (Informations de représentation), métadonnées au format DIF (Directory Interchange Format) (Information de description), base documentaire descriptive de la mission, de l'expérience, de l'instrument (Information de provenance et de contexte),

• l'exigence de l'intégrité physique de l'ensemble des informations numériques à conserver,

• l'exigence de modes de codage normalisés et de structures de fichiers indépendantes des systèmes d'exploitation,

• l'accessibilité des données aux utilisateurs autorisés.

C'est sur la base de ses expériences pratiques et de ses premières réflexions méthodologiques que le CNES a pu participer de façon fructueuse à la rédaction du modèle OAIS et qu'il a pris ensuite la responsabilité directe de la rédaction de la norme PAIMAS et de la future norme PAIS. Le modèle OAIS permet d'analyser les systèmes développés au CNES avec un point de vue et un vocabulaire nouveau. Ce sont ces itérations entre l'approche pragmatique née de l'expérience de terrain et la réflexion méthodologique qui confèrent peu à peu la robustesse et la fiabilité nécessaires aux systèmes d'archivage numériques.

C'est également sur cette base qu'une nouvelle branche intitulée « Ingénierie des données » a été ouverte au sein du Référentiel Normatif du CNES qui définit l'organigramme des normes qui sont applicables à ses projets et à ses structures. Outre une vision de synthèse des besoins en matière de pérennisation et d'accès aux données, cette branche du Référentiel comporte un certain nombre de règles et de recommandations applicables aux projets producteurs et données ainsi qu'aux services en charge d'archiver ces données.

3.1.6. Distorsion possible entre les besoins et les décisions

Un plan stratégique du CNES pour la période 2001-2005 a été élaboré courant 2000. Ce plan prenait en compte, dans ses grandes lignes, la problématique de gestion, diffusion et valorisation des données issues des expériences spatiales. Ce plan a donné lieu à un travail de déclinaison de ses grandes orientations en actions concrètes.

La première action proposée dans ce cadre était plus que symbolique : « Préparer une décision à la signature du Président du CNES pour affirmer les responsabilités et les objectifs du CNES pour la valorisation, l'archivage et la mise à disposition des produits (de données) ».

Une telle décision n'a pas encore vu le jour et ce plan stratégique n'est plus tout à fait d'actualité. Cette situation illustre, si besoin était, l'importance qu'il y a à convaincre les dirigeants et décideurs de l'urgence du problème.

3.1.7. Conclusions sur le retour d'expérience au CNES

Pour ce qui concerne la mise en œuvre de l'archivage numérique des données scientifiques spatiales, nous pouvons proposer les conclusions provisoires suivantes :

• en matière de stockage, nous considérons que jusqu'au niveau du pétaoctet, les besoins de préservation physique des fichiers sont résolus avec un niveau de fiabilité satisfaisant,

• la description sémantique des données et l'élaboration des métadonnées descriptives constituent les éléments clés de la réutilisabilité des données dans le futur. Ces métadonnées sont encore dépendantes d'ontologies et de terminologies en forte évolution. Il s'agit ici d'une vraie difficulté qu'il convient de ne pas ignorer,

• la pérennité des systèmes informatiques développés pour le versement des données, leur gestion et leur diffusion pose des problèmes d'une autre nature. Le défi ici est de maîtriser et de minimiser les coûts de développement, de maintenance et d'évolution de ces systèmes. Nous avons vu comment cela pouvait être envisagé,

• en ce qui concerne les fichiers de données, on peut observer que dans les disciplines scientifiques où un format standard des fichiers de données a pu émerger, les outils libres de traitement, d'analyse, de visualisation et les services à valeur ajoutée se sont rapidement développés. À l'inverse, les disciplines pour lesquelles aucun format n'a réellement émergé sont fortement pénalisées. D'où la nécessité pour ces disciplines d'entreprendre ou d'accélérer le travail dans ce sens.

Au plan politique et plus précisément des décisions de mise en œuvre, la situation reste incertaine et l'archivage des données n'est que partiellement couvert. Les orientations du CNES en matière d'archivage long terme de toutes les données spatiales pour lesquelles ce besoin existe, restent à expliciter et à officialiser.

Le CNES ne dispose pas de référentiel central de l’ensemble de ses données et ne sait donc pas rendre compte de manière complète de son patrimoine. En outre, rien ne permet de penser que toutes les données issues des projets du CNES sont effectivement archivées. Certaines données ne sont sous la responsabilité d’aucun centre d’archivage identifié, ce qui n'augure évidemment pas d'une quelconque garantie de pérennité. D'autres encore sont définitivement perdues comme cela a été le cas pour certaines missions du passé. Même si un projet de constitution d'un référentiel global commence à voir le jour, plusieurs années seront nécessaires avant de parvenir à une situation gérée et maîtrisée.

De nombreuses missions spatiales sont en pratique organisées dans un cadre de coopérations internationales. Il n'est alors pas possible à une agence spatiale d'imposer ses standards à toutes les autres. Ceci renforce – si besoin était – la nécessité d'une coopération aussi étroite que possible entre les agences sur l'Archivage des données, d'autant que la communauté des utilisateurs est elle aussi internationale.

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimerRéalisé avec Scenari (nouvelle fenêtre)