2.3 Gestion et préservation des sites Web organisationnels
Introduction
Tels que mentionnés, les sites Web organisationnels jouent un rôle important dans la conduite des activités de l’organisme. En effet, ils permettent notamment d’accroître la visibilité de l’organisme, de fournir des informations, et d’interagir avec ses publics. Ainsi, il est pertinent pour un organisme d’en faire une capture sur une base régulière afin de retracer les informations qui ont été diffusées.
Type de site Web, ses caractéristiques et ses usages
Aux fins de gestion et de préservation, l’archiviste doit, dans un premier temps, considérer le type de site Web, ses caractéristiques et ses usages. En effet, certains sites sont principalement informatifs et statiques, c’est-à-dire qu’ils visent à présenter les activités et les services d’un organisme. D’autres sites Web sont dynamiques. Ils sont reliés à une ou des bases de données et leur contenu est mis à jour souvent. De plus, l’archiviste doit considérer l’infrastructure technologique de son organisme, sa capacité de stockage, les ressources nécessaires pour en faire la gestion et la préservation de même que les règles de droit applicables. Ainsi, il n’y a pas de solution unique.
Les méthodes de capture de sites web
La capture des sites Web peut se faire de différentes façons :
Transfert : Cette méthode consiste à déplacer des données vers un autre espace de conservation sans modifications de celles-ci. Le transfert nécessite de copier les données se trouvant sur un serveur Web et de les transférer dans un nouvel environnement. Cette technique permet ainsi de recréer intégralement le site Web, qu’il soit statistique ou dynamique. Cependant, il est important de reproduire l’environnement technique du site Web afin de conserver l’intégrité et l’authenticité de celui-ci.
Site miroir : Cette méthode consiste à faire une copie du site Web, soit des données qu’il contient. Elle ne permet pas de conserver les métadonnées du site, mais permet néanmoins de conserver un exemplaire de celui-ci de façon à permettre la préservation d’un site Web.
Moissonnage[1] : Cette technique consiste à faire une « extraction automatique de données à partir d'un ou de plusieurs sites Web dans le but d'utiliser celles-ci, après traitement, dans un autre contexte » (Office québécois de la langue française, 2018). Les données contenues sur les sites Web sont ainsi collectées à l’aide de robots d’indexation et traitées grâce à des scripts automatisés. Il est important de préciser que les sites Web qui sont collectés sont choisis selon différents critères, tels la fonction du site, la taille, les activités documentées, les documents qui sont contenus, les objectifs visés par le site Web, etc. Par conséquent, cette méthode de collecte pourrait ne pas conserver la totalité des pages Web. Les robots d’indexation peuvent être mis en application selon une fréquence variable (ex. : 1 ou 2 fois par an) et l’entièreté du site ou seulement quelques pages peuvent être indexées. Ainsi, aux fins archivistiques, il peut être pertinent de conserver des traces des modifications qui ont été apportées au site Web à l’aide d’un journal des modifications qui, en plus de mentionner la nature de celles-ci, pourrait également expliquer la raison de ces modifications.
Dépôt légal des sites Web
Plusieurs archives nationales, dont le Québec et la France, ont mis en place des programmes de collecte de sites Web aux fins du dépôt légal. Le dépôt légal, en vertu des lois en vigueur, oblige les éditeurs à verser aux institutions nationales des exemplaires de leurs publications tant analogiques que numériques, incluant la partie publique des sites Web, mais sont habituellement exclus les intranets, les extranets.
Compte tenu la masse documentaire, il peut cependant être difficile pour les institutions de conserver tous les sites Web. Ainsi, sur la base des procédures applicables dans chacune d’elle, les sites Web à conserver peuvent être choisis selon différents critères de sélection, tels “l’intérêt du site pour le grand public, la notoriété du producteur du site, l’actualité du sujet et la valeur historique du contenu, la qualité, l’originalité du sujet et sa complémentarité avec l’ensemble des collections (...), la qualité et la présentation du site” (Bibliothèque et Archives nationales du Québec, s.d.)
Les sites Web sont habituellement collectés par moissonnage, mais d’autres méthodes de collecte peuvent être utilisées selon l’institution. De plus, les profondeur (en tout ou en partie) et fréquence de collecte peuvent varier selon la nature du site, les changements apportés à celui-ci, les évènements documentés, la fréquence de consultation, etc.
Bien qu’aucune autorisation préalable ne soit nécessaire pour la collecte du site Web, il est possible qu’une autorisation soit requise pour sa mise à disposition au public ou que leur consultation soit restreinte uniquement dans le respect de la législation. L’archiviste doit donc vérifier auprès de son institution nationale les mesures applicables à la conservation et à la diffusion des sites Web de son organisme.
Externalisation du stockage des sites web
L’archiviste doit également savoir qu’il est possible d’externaliser le stockage de sites Web auprès d’organisations privées pour la partie publique du site Web (excluant l'intranet et l'extranet).
Exemple : L’organisme Internet Archive
L’organisme Internet Archive a pour objectif de bâtir une bibliothèque numérique contenant, entre autres, des sites Web afin de « fournir un accès universel à toutes les connaissances ». Les sites Web archivés sont accessibles par le biais de Wayback Machine.
Exemple : Le projet Archive-It
Le projet Archive-It vise, avec la collaboration de bibliothèques et autres partenaires, à identifier et préserver les sites Web importants. Si ce mode de stockage est retenu, l’organisme et l’archiviste doivent bien s’informer au préalable des lois et des règlements applicables de même que des mesures en place pour assurer la protection de la vie privée.
Dépôt légal
En somme, toute stratégie de gestion des sites Web doit s’appuyer sur une analyse fine du contexte organisationnel et de la nature du site lui-même. Dans cette analyse l’archiviste doit considérer les éléments suivants :
L'objectif du site Web;
La complexité de celui-ci;
La fréquence des mises à jour ainsi que la nature de celles-ci;
Le type d’informations diffusées sur le site;
L’endroit où sont enregistrées les informations (c’est-à-dire le site Web public, l’intranet ou l’extranet);
Si ces informations se trouvent dans d’autres documents au sein de l’organisme ou uniquement sur le site;
La présence de documents ayant une valeur historique, tels des procès-verbaux ou des rapports annuels;
La vulnérabilité du site Web.