3.1. Instruments de recherche électroniques non structurés
Plusieurs services ont mis en ligne des instruments de recherche au format PDF :
soit à partir de documents en traitement de texte,
soit à partir de documents scannés et convertis en mode texte.
Inconvénients du PDF : non retravaillés dans une perspective Web, les documents PDF ne peuvent pas être complétés et modifiés. En effet :
leur forme est figée ;
aucun lien ne peut être établi entre le contenu de divers instruments de recherche ;
il n’y a pas de recherche possible sur des descripteurs ;
le temps de chargement est très long pour l’internaute, d’où parfois la nécessité de découper les instruments de recherche en chapitres.
Le HTML (langage de balisage hypertextuel) :
a permis à des services qui n’avaient jamais informatisé de mettre en ligne des instruments de recherche créés pour leur site Internet ;
est très simple à écrire ;
permet de coder une page à l’aide de commandes de mise en forme, qui seront ensuite interprétées par un navigateur.
Standard de fait pour les publications sur l’Internet, le HTML a cependant certaines limites :
descriptions physique et structurelle sont mêlées, d’où une espérance de vie courte et une accessibilité limitée des documents ;
HTML a surtout une fonction de navigation : il sert à créer des liens dans la même page, vers une autre page, vers des objets multimédias, etc. ;
HTML oblige à écrire des liens entre différentes pages très lourds à maintenir ;
HTML peine à gérer les documents de gros volume ou fortement structurés où la recherche plein texte est insuffisante ;
HTML ne permet pas de vérifier le contenu des données et ne donne donc pas de possibilité d’aider l’internaute dans ses requêtes.