6.3. Stratégies et solutions à adopter

Depuis la fin des années 1990, des stratégies de collecte ont été mises en place pour assurer une conservation sur le long terme des sites diffusés sur un réseau public.

Remarque

Dans plusieurs pays, celle-ci est encadrée par les dispositifs de dépôt légal (ex. France). Un consortium international, l’International Internet Preservation Consortium (IIPC), a également été créé en 2003 à l’initiative de la Bibliothèque nationale de France pour identifier et diffuser les meilleures pratiques, favoriser une large couverture internationale de la collecte et encourager l’adoption de législations permettant la conservation des sites.

Techniquement, la collecte du contenu des sites peut être réalisée de plusieurs manières :

La réalisation d’exports depuis les CMS

Cette méthode présente cependant l’inconvénient de ne pas prendre en compte la mise en page des contenus et rend plus complexe la navigation dans les contenus collectés.

Le téléchargement unitaire de chaque page

et leur enregistrement dans une arborescence de fichiers. Cette méthode est longue et présente les mêmes problèmes que la précédente.

La collecte automatique des pages par moissonnage

La collecte automatique des pages par moissonnage[1], en utilisant des robots, opérée au moyen d’outils :

  • soit développés par les institutions chargées de la conservation. Plusieurs outils ont été proposés : PANDORA Digital Archiving System (PANDAS) par la Bibliothèque nationale d’Australie (outil propriétaire) ; Web Curator Tool (WCT) par la Bibliothèque nationale de Nouvelle-Zélande, la British Library et une société privée (outil ouvert) ; NetarchiveSuite, développé par Det Kongelige Bibliotek et Statsbiblioteket du Danemark et devenu libre avec de larges contributions de la Bibliothèque nationale de France et de l’Österreichische Nationalbibliothek ;

  • soit mis à disposition par des fournisseurs de service bien établis comme Internet Archive ou Internet Memory Foundation. Internet Archive a notamment développé, avec plusieurs bibliothèques nationales, le logiciel ouvert Heritrix. Ces fournisseurs proposent deux approches :

    • la réalisation par eux-mêmes de la collecte ;

    • la mise à disposition de services et d’outils (cf. Archive-It qui offre un service de collecte et d’hébergement de sites web – https://archive-it.org/) 

  • soit développés par des particuliers comme l’aspirateur de sites libre HTRack.

Stratégie possible pour préserver les sites web 

  • Empaquetage dans un conteneur au format WARC (Web Archive), développé et maintenu par l’International Internet Preservation Consortium et normalisé par l’ISO (ISO 28500:2009)