Module 9 - Section 2 : Numériser les documents

11.2 Complément d'information sur le contenu des colonnes de solutions de la Direction des Archives de France

Le document de référence peut être trouvé à l'adresse ci-dessous ou dans la galerie associée à ce cours.

Annexe 1 : recommandations sur les caractéristiques des fichiers images

http://www.archivesdefrance.culture.gouv.fr/static/1309

1. Colonne ‘Rapport de formats'

Le rapport de formats (ou rapport d'agrandissement) est le rapport entre la taille originale du document numérisé et la taille d'impression enregistrée dans le fichier numérique produit. Les documents originaux opaques ne sont en principe pas agrandis ni réduits lors de la numérisation ; on dit qu'ils sont numérisés à leur taille réelle (1/1 ou 100 %). Il en va autrement lorsque la numérisation porte sur des supports destinés à être agrandis lors de la visualisation, comme les films, les diapositives, les plaques de verre, les microfilms... Dans ce cas, le rapport d'agrandissement est supérieur à 1/1. La restitution à l'échelle 1/1 permet aux archivistes de retrouver les dimensions originales du document, sans l'avoir sous les yeux. Il est important de stipuler dans les marchés de numérisation, que la taille apparaisse dans les propriétés EXIF des métadonnées contenues dans l'image.

Il est à noter qu'en cas de prises de vues avec une chambre photographique, il n'y a pas d'échelle, la dimension du document doit être stipulée manuellement dans les métadonnées

2. Colonne ‘Résolution de restitution'

La résolution correspond à la précision et à la finesse de détail d'une image numérique. Il importe de parler de résolution « optique », par opposition à la résolution « interpolée », où des pixels sont générés par un logiciel pour augmenter la taille des images, faussant le degré de précision. Par exemple, numériser un document à une résolution de 4800 dpi interpolée par logiciel ne permet pas d'obtenir plus de détails qu'avec une résolution optique réelle de 2400 dpi, mais risquerait au contraire d'engendrer des artefacts dommageables aux bords contrastés.

  • Les solutions sont axées sur les résolutions suivantes :

  • 300 dpi pour les fichiers de conservation,

  • 150 dpi pour les fichiers de diffusion,

  • 72 dpi pour les fichiers de visualisation .

Les résolutions pour la conservation et la diffusion s'entendent pour la taille de restitution du document à ses dimensions d'origine, ou à une dimension prédéterminée pour les agrandissements de supports film. Dans ce dernier cas, si l'on décide de pratiquer à l'enregistrement l'agrandissement en ramenant l'image à 300dpi en restitution, il faudrait prévoir une indication de la taille du négatif ou de la diapositive d'origine dans les métadonnées (entrée en texte légende ou en métadonnées EXIF par la machine)

Remarque : La résolution en points par pouce est une notion qui s'applique principalement aux numériseurs, et non aux appareils photographiques numériques, qui produisent des images de taille constante (définition), par exemple 2 000 x 3 000 points. Il est néanmoins possible, lorsqu'on utilise de tels appareils, d'évaluer une résolution approximative. Par exemple, si le document original mesure 10 x 15 pouces (1 pouce = 2,54 cm), la résolution obtenue avec un appareil photographique de définition 2 000 x 3 000 points est de 200 points par pouce.

3. Colonne ‘modèle chromatique'

Les modèles chromatiques préconisés - noir et blanc, niveaux de gris, couleurs RVB (Rouge, Vert Bleu), couleurs CIE Lab - déterminent la manière de coder numériquement la tonalité de l'image. Leur utilisation dépend de l'apparence du document à reproduire et du résultat attendu. Un microfilm est naturellement en niveaux de gris, il sera toujours numérisé dans ce mode.

L'espace de stockage occupé par les images couleur compressées en JPEG est inférieure à celui des images en niveaux de gris. La numérisation en couleur doit donc généralement être préférée à la numérisation en niveaux de gris, surtout que les machines actuelles le font « naturellement », il n'y a aucune raison pour qu'il y ait un surcoût.

4. Colonne ‘ Echantillonnage' (profondeur d'analyse des couleurs)'

La profondeur d'analyse, ou échantillonnage, est la quantité d'information utilisée pour représenter chaque point (pixel) de l'image. Elle est exprimée en nombre de bits par pixel, c'est à dire le nombre d'informations 0 ou 1 décrivant la couleur du pixel.

Le but de cette préconisation est de numériser avec la plus grande qualité possible, parce que la manipulation d'un original de valeur est plus coûteuse que sa numérisation proprement dit. Par ailleurs il vaut mieux éviter des transports, des manipulations qui deviennent finalement néfastes aux originaux fragiles : par exemple plaques de verre, originaux en parchemin, enluminés...

Selon les documents à numériser et les objectifs à atteindre, on pourra demander, lors de la phase d'acquisition, d'appliquer une fréquence d'échantillonnage nettement supérieure à la fréquence souhaitée en restitution (“ sur-échantillonnage ”), par exemple 48 bits par pixel au lieu de 24 bits/pixel, afin de faire des corrections ou des traitements informatiques visant à améliorer le résultat. Cette méthode nécessite une puissance de calcul très importante, elle n'est donc pas applicable à toutes les situations. Dans les tableaux ci-après, seul l'échantillonnage de restitution est précisé. Dans le cas des numérisations de sauvegarde des œuvres d'art, le fichier maître devrait être conservé avec ce « suréchantillonnage » et ses calques de correction parce qu'on ne peut pas encore présager des progrès de la restitution de l'impression ou de l'affichage.

5. Colonne ‘ profil colorimétrique'

De manière schématique, le profil colorimétrique est la gamme de couleurs qu'un numériseur, une imprimante, un écran etc, peut acquérir ou restituer. Adobe RGB et sRGB sont des espaces de couleurs, de même que ceux décrits par des profils ICC d'appareils photos, d'écrans ou d'imprimantes. Pour ne pas faire l'amalgame avec des profils ICC, généralement personnalisés (c'est en quelque sorte la fiche d'identité colorimétrique de l'appareil caractérisé) les profils préconisés ici sont des standards reconnus à appliquer suivant l'objectif visé : Adobe RGB (1998) pour l'édition, sRGB IEC 6 1966 2.1 pour la diffusion en réseau, Gray Gamma 2.2 pour les images en niveaux de gris.

Le Lab, de son côté, est atypique car c'est un modèle chromatique et un espace colorimétrique à la fois. La couleur Lab définit une couleur constante sans tenir compte du périphérique (moniteur, imprimante, ordinateur ou scanner, par exemple) de création ou d'affichage de l'image. Son spectre est plus étendu que celui du RGB, c'est pourquoi on le préfèrera pour la reproduction des diapositives et œuvres d'art, mais encore faut-il que le scanner fabrique lui-même un fichier LAB, ce qui est assez rare.

6. Colonne ‘ format de fichier image'

Le format du fichier image détermine la manière dont les données qui le constituent sont structurées et codées dans la mémoire d'un ordinateur. Il existe de nombreux de formats d'images, dont les caractéristiques sont définies ci-avant dans le cours : TIFF (Tagged Image File Format), JFIF (JPEG File Interchange Format), PNG (Portable Network Graphics)... En règle générale, des formats sans pertes de données sont choisis pour les fichiers-maîtres qui constituent l'archive numérique proprement dite (archive permanente).

Dans certains cas, par exemple pour les documents microfilmés, le format de conservation est le microfilm lui-même et il est inutile de prévoir en sus un format de conservation numérique.

Dans la règle de base, la distinction entre les deux types de formats avec et sans perte de données se justifie. Seules des vignettes ou des versions dégradées des images numériques sont diffusées, afin de protéger la propriété intellectuelle ou des droits d'exploitation, et améliorer la portabilité.

L'indication du format de fichier dans le cahier des charges doit préciser le nom du format et sa version (exemple : TIFF version 6). Il importe, une fois le choix du format arrêté, de maintenir ce choix tout au long de l'opération de numérisation des documents concernés, pour une même typologie donnée. En effet, un changement de format (par exemple de TIFF à JPEG/JFIF) au milieu d'une opération peut occasionner des problèmes de traçabilité, de nommage, voire des difficultés en cas de retraitements ultérieurs (par exemple pour des opérations de reconnaissance de forme ou des ajustements de tonalités qui ne sont plus possibles après pertes de données).

7. Colonne ‘type et taux de compression'

Les techniques de compression sont des méthodes destinées en priorité à réduire l'espace nécessaire pour stocker des fichiers numériques.

Certains types de compression sont dits sans perte de données, lorsque l'information d'origine est entièrement conservée. C'est le cas de la compression LZW (Lempel-Ziv-Welch), qui peut être utilisée pour des images en couleur, ou encore de la compression CCITT T.4 groupe 3, qui s'applique aux images en noir et blanc dites bitonales(type fax). En règle générale ces compressions sont appliquées aux fichiers maîtres (archives permanentes)

D'autres types de compression sont dits avec perte de données, lorsqu'une partie de l'information d'origine est perdue. C'est le cas de la compression JPEG par exemple. Dans ce cas, il est possible de faire varier l'intensité de la réduction appliquée, donc de la perte d'information consentie.

Complémentspécifier le taux de compression JPEG/jfif

L'indication du taux de compression JPEG n'est pas simple car la norme JPEG elle-même ne définit pas de niveaux de compression. Il existe donc plusieurs manières d'indiquer ce paramètre : ko/dm², rapport, pourcentage, niveau sur l'échelle de Photoshop. La première méthode donne l'assurance d'obtenir des images de taille connue à l'avance en fonction de la taille d'un document (par exemple, si on fixe 200 ko/dm², le poids d'une image obtenue à partir d'un document A4 sera de 21 x 29,7 cm = 6,237 dm² x 200 = 1 247,4 ko). Mais les réglages à pratiquer par le prestataire sont plus complexes car, en fonction des variations d'un document à l'autre, le poids de fichier attendu ne s'obtient pas forcément de la même manière. L'expression du taux de compression par un rapport peut apparaître comme la manière la plus claire (exemple : 1 : 2,5 signifie que le fichier est comprimé 2,5 fois). Il n'est pas rare de parler également de pourcentage de compression (exemple : 60 % signifie que le fichier a été comprimé 2,5 fois). Mais l'usage le plus courant est certainement l'utilisation des niveaux sur l'échelle de Photoshop ; aussi est-ce cette solution qui a été adopté dans ces tableaux. La compression JPEG 2000, qui ne doit pas être confondue avec JPEG, dont elle diffère entièrement, est plus récente et peut être avec ou sans perte. Le mode commun à tous ces procédés de compression est la réduction de la gamme des nuances, mais jamais du nombre de pixels .

8. Colonne ‘poids moyen'

Dans ces recommandations, un poids moyen d'image est fourni. Il s'agit d'une taille indicative, déterminée sur un échantillonnage de cas réels, après compression. Cette donnée permet de définir statistiquement la taille du média de stockage et d'évaluer le temps d'accès pour les serveurs.

9. Colonne ‘cadrage et orientation'

Le cadrage indique la partie du document qui fait l'objet de la prise de vue : seulement la partie du document qui contient des informations, ou bien tout le document mais sans bordure (plein cadre), ou encore le document avec une bordure autour. Lors de la numérisation, le fichier maître doit restituer le document dans son intégralité, y compris avec le cadre ou sa présentation sur un support collé par exemple. La résolution de restitution s'entend toujours par défaut avec un plein cadrage du document à numériser. Il faudra par conséquent en tenir compte si le choix pour le cadrage à l'acquisition est différent, notamment lors de l'introduction de mires, échelle centimétrique ou autres chartes nécessaires à des contrôles. Pour le cas des microfilms par exemple, le cadrage peut-être plein cadre du document original reproduit ou de la vue microfilmée, le rapport de ce fait peut-être différent et cela aura une incidence sur la résolution à appliquer.

L'orientation correspond au sens de l'image. Ce peut être le sens adopté à la numérisation pour des raisons pratiques s'il s'agit de fichiers maîtres, sauf dans le cas où l'orientation ne peut être définie en regardant l'image : les photos industrielles de détail par exemple. Le fichier de diffusion, sera toujours livré dans le sens de lecture.

Certains prestataires négligent l'orientation des originaux et les numérisent « de travers ». Il apparaît utile de spécifier dans le cahier des charges un défaut d'orientation maximal et de refuser lors du contrôle qualité les images présentées en « chamboule tout » ; la tolérance maximale nous semble être 3° sur le plus grand côté, ou le côté de la reliure.

10. Colonne ‘cadrage et orientation'

Les traitements appliqués aux images une fois la prise de vue effectuée sont multiples : découpage de pages, détramage, recadrage, rectifications colorimétriques, améliorations de la netteté, redressement des images, effacement des accessoires de fixation, etc. Il implique un temps machine ou humain en sus de la numérisation, ce qui génère un coût. De ce fait, il doit être appliqué de préférence sur des quantités de documents limitées, ou être pratiqué avec des outils de reformage massifs, comme les macro-commandes à exécution programmée .

Il existe trois familles d'opérations de post-traitement :

Les opérations triviales comme le redressement, le recadrage, l'introduction de métadonnées, sont appliquées sans réserve au fichier maître.

Les transformations qui peuvent changer l'aspect de l'image comme le filtrage colorimétrique, la retouche des outrages du temps sont appliquées de manière graduelle. Ces opérations peuvent se faire sur des calques de réglage, qui soit seront conservés dans le fichier maître, soit aplatis après avis favorable du conservateur. L'avantage du calque de réglage ou du calque de retouche est de ne pas altérer l'image originale, l'inconvénient est l'espace disque important occupé par un fichier multicalques.

11. Colonne ‘Images assemblées'

La numérisation de très grands documents peut nécessiter plusieurs prises de vue, qui seront ensuite assemblées. Les différentes vues produites pour aboutir à l'image reconstituée ne doivent pas nécessairement être conservées, notamment si la résolution sur le fichier une fois assemblé est la même que sur les parties non assemblées. Pour le cas contraire il sera peut-être judicieux et prudent de garder les fichiers des parties non assemblées. Dans tous les cas, une vérification attentive devra été exercée sur la justesse et la conformité de l'assemblage. Il devra y avoir un minimum de déformation dans la taille du fichier en regard de l'original, et on ne devra pas distinguer par des différences de densité, de contraste ou de netteté l'assemblage (à la coupure et aux alentours).

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimerRéalisé avec Scenari (nouvelle fenêtre)