Module 9 - Section 2 : Numériser les documents

4.4. Choix des formats d'enregistrement selon l'usage

Nous avons vu ci-avant combien le type de document a numériser influe sur le procédé de numérisation ou colorimétrie .

Nous avons dit que pour choisir le procédé adéquat il faut tenir compte de l’usage que l’on veut faire du fichier .

Ce chapitre fait un inventaire des règles de base à respecter pour réaliser une photothèque numérique (caractérisée par des fichiers individuels) et une bibliothèque numérique (caractérisée par des fichiers à pages multiples).

  • Définition de la photothèque numérique : dans notre usage, on appellera photothèque toute collection de documents à page unique, soit

    • les photographies sous toutes leurs formes,

    • les cartes postales,

    • les dessins, tableaux, gravures,

    • les registres ou documents qui sont décomposés en pages uniques servies par une base de données,

    • les plans et dessins techniques.

La numérisation se fera dans un format image mono-page pour chacun des documents et individuellement.

  • dans certains cas, les séries de cartes postales (dont l'original est monté en accordéon) seront restitués dans un format multi-pages, mais avec une qualité photographique.

  • Définition de la bibliothèque numérique : la bibliothèque numérique comprendra les documents multi-pages que l'on téléchargera par sections ou entiers, soit

    • les ouvrages et catalogues,

    • les actes,

    • les registres traités en sections,

    • les thèses, rapports et autres documents multi-pages,

    • certains plans techniques multi-folios,

La numérisation se fera dans un format permettant l'assemblage des pages comme le PDF.

4.4.1. Création d'une photothèque numérique

La photothèque a une double identité : il existe la photothèque de fichiers maîtres, dont la préservation doit suivre les règles de l'archivage permanent, et une photothèque pour la mise en ligne, constituée généralement de copies à basse résolution. Par mesure de prudence, seule cette dernière doit être accessible depuis un réseau connecté à internet.

Dans une photothèque en ligne, il y aura un fichier par image, enregistré dans un format reconnu par tous les systèmes d'exploitation Apple, Windows et systèmes des tablettes et smartphones

L'accent sera mis sur la portabilité

a) Création de la photothèque de sauvegarde ou "source"

Pour cette raison, il est conseillé de constituer une photothèque de base dont les éléments sont enregistrés dans un format sans perte de données.

Cette photothèque n'est pas obligatoirement en ligne; elle peut être stockée sur un serveur, un disque dur, des DVD; elle peut être mise à disposition seulement à titre payant pour les éditeurs qui en tirent un profit pécuniaire. Les fichiers maîtres doivent contenir des indications sur les droits de reproduction pour l'édition imprimée (introduire ces informations dans les métadonnées de l'image.

L'entretien d'une photothèque source, comme tous les stockages d'archives, nécessite une surveillance et a un coût.

  • les supports optiques (DVD) doivent être recopiés périodiquement

  • le contenu du serveur doit être sauvegardé régulièrement sur un jeu alternatif de bandes, ou sur un serveur distant en réseau sécurisé (cloud[1]).

b) Création de la photothèque en ligne

A partir de cette photothèque originale, on va générer des copies à basse résolution, auxquelles on appliquera des compressions importantes, pour accélérer le téléchargement. Les formats seront le Jpeg, , voire le PDF si l'on veut insérer des légendes visibles ou diffuser des séries assemblées. La qualité de ces copies doit être suffisamment médiocre pour empêcher leur utilisation dans le monde de l'édition imprimée.

Ces copies destinées au web réduisent pour la plupart le nombre des couleurs; cette perte de données est irrécupérable à la réouverture du fichier. On peut intégrer à ces images le texte du copyright, en indiquant la provenance, l'auteur, le nom du centre d'archives, la cote de l'original etc. Dans cette catégorie d'images, on générera aussi une série d'icônes ou vignettes à placer dans la page web qui donne accès aux images en basse définition et/ou au bon de commande pour une image haute résolution. Le format JPEG 2000 peut être utilisé pour contenir en un même fichier diverses résolutions.

2.4.4.2. Création d'une bibliothèque de documents à pagination multiple

Une bibliothèque rassemblera une série de documents manuscrits, registres ou imprimés

que l'on décide de diffuser en ligne. Mises à part les photographies ou iconographies faites pour un produit fini (l'imprimé) qui doivent être d'une haute résolution, la numérisation des documents d'archives sériés sert généralement simplement à une consultation à distance.

La numérisation peut se faire dans ce cas dans des formats avec pertes de données puisque l'aspect n'est pas l'objectif premier et que le but est d' accélérer le téléchargement.

Dans un système informatique, les formats courants d'enregistrement d'images permettent d'éditer une seule image par fichier. Comme notre numérisation source sera faite d'un fichier image par page numérisée, il faudrait diffuser une suite de 250 fichiers pour un ouvrage de 250 pages, ce qui est en pratique inutilisable. (cela n'a pas empêché certains prestataires de le faire au temps des réseaux indigents, mais c'est à présent stupide)

Pour rendre la consultation possible et aisée, il est indispensable de rassembler ces images primaires.

Il existe deux solutions:

  • Créer une base de données capable d'assembler les pages et de les fournir en un bloc à l'utilisateur.

    Il existe une multitude de solutions de bases de données, mais elles sont pour la plupart prisonnières de l' environnement du centre d'archives ; certaines nécessitent même l'achat ou le téléchargement d'un progiciel de lecture pour l'exploitation à distance. Certaines de ces bases de données mettent les fichiers natifs dans un "paquet" (exemple le format ZIP) que l'on doit "déballer" à la réception. Au final, le chercheur aura encore une foule de fichiers non rattachés qu'il devra ouvrir un à un.

  • Diffuser directement un fichier ou des groupes de pages au format PDF-A[2]

    Certains logiciels de base de données sont capables de faire cet assemblage en partant de pages individuelles ou de chapitres au format PDF, de sorte que l'internaute reçoit un fichier monolithique contenant toutes les pages qu'il a demandées. (exemple Gallica) La diffusion en PDF est donc la plus adéquate pour les documents à pages multiples.

Les trois paragraphes qui suivent décrivent la méthodologie pour constituer un document multi-page à diffuser en ligne:

  • l'acquisition des pages,

  • l'assemblage de ces pages,

  • l'habillage du document et sa protection,

  • la recopie du document en basse définition pour sa diffusion en extranet,

  • notion sur les robots d'assemblage.

4.4.2.1. Numérisation des éléments à assembler

Lorsque les pages d'un document sont à assembler en un fichier PDF, il est pratique de les numériser directement dans ce format et d'en régler les propriétés sur la machine si aucun post-traitement n'est nécessaire, cela permet de les assembler éventuellement avec des graticiels.

Pour les documents numérisés en mode bitonal, il ne sera pas fait de réduction de résolution ultérieure, les documents seront numérisés directement dans la résolution utile.

Pour les documents numérisés en couleurs (les manuscrits, les chartes...), dont on envisage une diffusion sur plusieurs années, un fichier maître avec la meilleure qualité envisagée pour le projet sera constitué à la capture, dans le but d'anticiper les possibilités des futurs réseaux. Ceux-ci vont permettre dans moins de 5 ans de diffuser des fichiers de 100 MO comme on le fait d'une page internet de 100kO de nos jours. En attendant, des copies de plus basse qualité seront à mettre en ligne.

Lors de la numérisation en mode « livre ouvert » les machines actuelles permettent de redresser l'image, effacer l'ombre de l'espace de reliure, d'effacer les bords...

4.4.2.2. Assemblage des fichiers au format PDF

L'assemblage constitue la post-production. Alors que la numérisation est machinale, l'assemblage nécessitera des formes de discernement propres à l'archiviste. Si ce travail n'est pas effectué par le centre d'archives, il aura fallu au préalable installer dans le document physique des balises matérialisées par des pages qui contiennent toutes les informations nécessaires à un travail effectué de façon mécanique et aveugle :

  • le titre du bloc

  • les métadonnées à entrer

  • éventuellement la page de garde à assembler...

  • le mode colorimétrique de numérisation

  • l'emplacement des signets

Le format PDF va permettre d'assembler des pages qui auront été numérisées dans de différents modes, des pages de tailles différentes, des pages de sources différentes : pages numérisées, pages de description au mode texte ajoutées par le centre d'archives...

Par exemple les pages de texte pur peuvent avoir été traitées en mode bitonal et celles imagées en mode couleur ou niveaux de gris. Une ségrégation peut être pratiquée à la numérisation, mais selon le coût de prestation, il peut être moins coûteux de tout numériser en couleurs et de « bitonaliser » le texte par la suite.

Beaucoup de prestataires proposent des numérisations qui sont sensées reconnaître les plages de texte et d'images (tuilage de l'image) mais cela ne donne pas toujours de bon résultats. Par exemple, les gravures sont reconnues comme des images en niveaux de gris lorsque la résolution insuffisante alors que ce sont des modèle parfaits de fichier bitonal. On se gardera donc d'utiliser ce procédé pour les ouvrages anciens, en préférant un fichier bitonal basé sur un test pilote pour déterminer la bonne résolution.

Page tuilée avec reconnaissance imparfaite des gravures (typique de Google Books)

L'assemblage se fera selon les circonstances de diffusion, en reliant un nombre de pages qui correspond à la capacité de diffusion et/ou au centre d'intérêt de création d'un bloc, par exemple :

une année d'un registre paroissial en bitonal,

Un chapitre d'un livre très imagé,

Tout un ouvrage s'il n'y a que du texte (bitonal),

Toutes les parties intéressant un sujet et extraites de divers livres, magazines, archives, publications électroniques...

L'assemblage est la partie où le rôle de l'archiviste se fait sentir : il est facteur du contenu, et non de l'aspect trivial d'un emplacement ou d'une date de dépôt...

Le point de vue de l'éditeur Adobe l'archivage au format pdf

Livre blanc Adobe® PDF, norme d'archivage

4.4.2.3 L'indexation ou reconnaissance de caractères

Le format PDF est typiquement celui dédié aux représentations imagées des anciens imprimés, qui ne sont pas des documents texte mais des images.

Qu'est ce qu'une indexation ?

C'est un moyen informatique de reconnaître le texte représenté sur l'image numérisée.

Le procédé s'appelle ROC en Français pour Reconnaissance Optique des Caractères et OCR en anglais (Optical Recognition of Characters)

Lorsque ce texte est reconnu dans la page, dans le document, il est possible d'utiliser un moteur de recherche de texte et trouver directement l'objet de sa recherche.

Les lecteurs de documents PDF ont un moteur de recherche intégré, et les disques de stockage indexés permettent l'identification directe de tout fichier contenant les mots cherchés.

On voit là directement l'intérêt d'indexer les pages de texte numérisées et aussi d'intégrer des métadonnées en clair dans les images.

L'indexation de l'image d'un texte

On peut indexer un fichier numérisé en conservant son aspect original, en couleurs, niveaux de gris ou bitonal, autrement dit en ayant le texte sous-jacent à l'image réelle du texte, exactement à sa place physique. C'est le mode préférable pour l'archiviste, parce que :

  • Les caractères mal formés sont toujours reconnaissables à l'œil, alors qu'ils feront chuter le logiciel de reconnaissance optique des caractères

  • L'aspect du document original sera préservé, ce qui est la prétention d'un ouvrage d'archiviste.

  • Le logiciel ROC reconnaît tout ce qui lui semble un caractère, y compris les taches, traits, petits dessins, mais il n'interprète pas les aplats, les images.

Ce procédé est promis à un grand avenir et est appliqué à des bibliothèques en ligne comme Gallica ou Google books. Mais il a aussi ses limites, pour les raisons suivantes :

  • les textes manuscrits ne sont pas reconnaissables, sauf pour les calligraphies et écritures de dessin industriel, ou par des systèmes experts

  • La limite du ROC apparaît vite lorsque les caractères sont mal formés, peu contrastés, trop petits, d'une police trop ornée...

  • Le fonctionnement du ROC nécessite une résolution assez élevée, que l'on peut estimer à 300 dpi pour les documents modernes très contrastés ou avec de grands caractères de 10-12 points, et de 400 à 600 dpi pour les caractères plus petits ou peu contrastés.

Certaines machines intègrent dès la capture un post-traitement d'indexation du texte, sous-jacent à l'image du texte en image numérisée.

Diffusion des fichiers PDF indexés

Lors d'une demande de prestation, L'attention est à porter sur la mise en ligne des documents indexés. Certains prestataires indexent le texte, mais les textes indexés restent dans le site internet et ne migrent pas dans le fichier PDF téléchargé par l'internaute. Il doit donc faire un téléchargement du texte seul (quand c'est possible). Le texte se trouve alors dissocié de son image dans le document original. C'est parfois malcommode... à part pour les plagiaires ! Un bon document PDF doit contenir son texte indexé sous-jacent.

Dans certains lecteurs de fichiers PDF, il est possible d'extraire en une seule fois tout le texte contenu dans le document par une commande d'export ou « d'enregister sous ». Il sort avec ses imperfections de reconnaissance, s'il n'a pas été vérifié manuellement (recherche des suspects).

L'enregistrement final

Par simplification, et pour assurer la plus grande pérennité possible, l'archiviste devra utiliser le format PDF-A pour la diffusion hors des espaces de travail du centre et pour le stockage avec l'option « sans perte de données ».

ComplémentLiens dynamiques et protection individuelle

Liens dynamiques du document PDF

Le lien dynamique le plus usité dans un document PDF est le signet. Dans une fenêtre juxtaposant le document, l'archiviste peut créer des signets avec le titre de la partie ainsi repérée.

Un éditeur PDF permet aussi d'ajouter des liens dynamiques (hypertexte) vers les pages du document lui-même, à partir de son sommaire.

Des liens peuvent aussi être créés vers un site internet, ou vers un autre document placé sur un serveur local ou distant. Mais dans ce cas, il faut bien être sûr de la stabilité de l'emplacement des sources. Le format PDF-A interdit l'insertion de ces liens qui ne sont pas pérennes par définition.

Protection du document PDF

Le format PDF 1.X permet d'inclure au document des protections partielles ou totales. La copie du document hors de son serveur d'origine ne déverrouille pas ces protections, le document garde donc à tout moment et en tout lieu sa protection originale, tant qu'on utilise Adobe Reader® ou un logiciel approuvé. Malheureusement, certains logiciels de lecture ne respectent pas la protection ou transforment les pages en simples images, sans fonctionnalités ni de protection, ni d'indexage.

La mise en service d'un mot de passe peut verrouiller l'accès complet au document, et un autre mot de passe peut verrouiller individuellement les fonctions de la liste ci dessous :

  • l'impression

  • la copie d'éléments texte et images

  • la modification des pages ou du contenu texte

  • l'adjonction d'annotations.

La mise en place du mot de passe déclenche le cryptage en 40 ou 128bits RCA du document, mais il n'est pleinement efficace que s'il conditionne l'ouverture. Cette disposition est intéressante pour protéger les fonds d'archives à un niveau juste nécessaire, sans pénaliser les utilisateurs, ni favoriser les plagiaires.

4.4.2.4. Recopie des documents en basse résolution

C'est avec imprimante virtuelle PDF que l'on peut générer en une seule opération un document à basse résolution pour le web en faisant une réimpression PDF du document maître en haute résolution: il suffira de régler les propriétés de l'imprimante PDF pour la basse résolution désirée (livre électronique ou écran) pour obtenir instantanément un document léger et transportable.

Si l'on veut garder quelques pages seulement de ce document en haute résolution, il suffira de les copier du document source et de les réintégrer dans le document allégé par la commande de remplacement de pages.

Vérifier si la réimpression en PDF ne détruit pas les liens hypertexte que l'on a pu placer dans l'original, si on utilise des graticiels pour la conversion.

4.4.2.5. Assemblage par un robot en ligne

Le découpage et l'assemblage d'un document peut se faire sur demande de l'utilisateur, de la page n à la page n+x, par l'intermédiaire d'un robot d'assemblage (exemple: Bibliothèque Nationale de France - Gallica).

Le développement de cette solution nécessite des compétences informatiques assez importantes. On peut créer un assemblage de fichiers image à travers une banque de données et déclencher l'impression finale à travers une simple imprimante PDF en ligne.

Le meilleur robot sera celui qui assemble directement des pages PDF pour constituer le document particulier. Pour créer ce robot, il faudra utiliser les codes source PDF qui sont publics.

  1. Cloud ou nuage

    Le cloud ou l'informatique en nuages en français, est une technologie qui permet de mettre sur des serveurs localisés a distance des données de stockage ou des logiciels qui sont habituellement stockés sur l'ordinateur d'un utilisateur, voire sur des serveurs installés en réseau local au sein d'une entreprise

  2. PDF/A

    Le format PDF/A est défini dans la norme ISO 19005 et permet la conservation pérenne de fichiers numériques ou numérisés

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimerRéalisé avec Scenari (nouvelle fenêtre)