6.3. Stratégies et solutions à adopter
Depuis la fin des années 1990, des stratégies de collecte ont été mises en place pour assurer une conservation sur le long terme des sites diffusés sur un réseau public.
Remarque :
Dans plusieurs pays, celle-ci est encadrée par les dispositifs de dépôt légal (ex. France). Un consortium international, l’International Internet Preservation Consortium (IIPC), a également été créé en 2003 à l’initiative de la Bibliothèque nationale de France pour identifier et diffuser les meilleures pratiques, favoriser une large couverture internationale de la collecte et encourager l’adoption de législations permettant la conservation des sites.
Techniquement, la collecte du contenu des sites peut être réalisée de plusieurs manières :
La réalisation d’exports depuis les CMS
Cette méthode présente cependant l’inconvénient de ne pas prendre en compte la mise en page des contenus et rend plus complexe la navigation dans les contenus collectés.
Le téléchargement unitaire de chaque page
et leur enregistrement dans une arborescence de fichiers. Cette méthode est longue et présente les mêmes problèmes que la précédente.
La collecte automatique des pages par moissonnage
La collecte automatique des pages par moissonnage[1], en utilisant des robots, opérée au moyen d’outils :
soit développés par les institutions chargées de la conservation. Plusieurs outils ont été proposés : PANDORA Digital Archiving System (PANDAS) par la Bibliothèque nationale d’Australie (outil propriétaire) ; Web Curator Tool (WCT) par la Bibliothèque nationale de Nouvelle-Zélande, la British Library et une société privée (outil ouvert) ; NetarchiveSuite, développé par Det Kongelige Bibliotek et Statsbiblioteket du Danemark et devenu libre avec de larges contributions de la Bibliothèque nationale de France et de l’Österreichische Nationalbibliothek ;
soit mis à disposition par des fournisseurs de service bien établis comme Internet Archive ou Internet Memory Foundation. Internet Archive a notamment développé, avec plusieurs bibliothèques nationales, le logiciel ouvert Heritrix. Ces fournisseurs proposent deux approches :
la réalisation par eux-mêmes de la collecte ;
la mise à disposition de services et d’outils (cf. Archive-It qui offre un service de collecte et d’hébergement de sites web – https://archive-it.org/)
soit développés par des particuliers comme l’aspirateur de sites libre HTRack.
Stratégie possible pour préserver les sites web
Empaquetage dans un conteneur au format WARC (Web Archive), développé et maintenu par l’International Internet Preservation Consortium et normalisé par l’ISO (ISO 28500:2009)