Module 9 - Section 2 : Numériser les documents

4.2. Formats sans perte de données

4.2.1 Aperçu des formats sans pertes de données

Les formats sans pertes de données sont à utiliser pour constituer la banque de fichiers maîtres destinés à la conservation et/ou à la sauvegarde.

Ils sont pourvus d'algorithmes de compression, qui réduisent la taille du fichier enregistré, mais le restituent sans perte de données, ni en couleurs, ni en pixels.

Les formats sans pertes de données peuvent être utilisés sans activer leurs moteurs de compression, mais c'est stupide car cela amène à une occupation importante d'espace disque et ralentit les échanges avec le serveur distant. Les formats modernes ont une activation automatique de la compression (cas du png).

La caractéristique typique de ces formats est bien celle des algorithmes de compression. Nous allons en faire le tour avant d'entrer dans les formats, car dans certains cas ils sont communs à plusieurs d'entre eux.

Cartes postales au format png

4.2.2 Les algorithmes de compression

Il existe plusieurs algorithmes de compression qui peuvent coexister au sein d'un même format, dans ce cas, le choix du procédé sera à faire par l'utilisateur lors de l'enregistrement. De même, on retrouve les mêmes « compresseurs » dans plusieurs formats.

LZW Lemple-Zif-Welch du nom de ses inventeurs est utilisé dans les formats TIFF, PDF, GIF et est performant essentiellement lorsque les images contiennent de grandes zones monochromes. Mais comble de l'ironie, il augmente la taille du fichier lorsque l'échantillonnage est supérieur à 8 bits par couche, parce qu'il n'est pas prévu pour cet usage. Il appartient maintenant au domaine public.

ZIP est utilisé par les formats de fichier PDF et TIFF. Comme la technique LZW, la compression ZIP est plus efficace pour des images présentant de grandes zones monochromes, mais il est efficace sur les fichiers à plus large échantillonnage de nuances (16 et 32 bits).

CCITT groupe 4 (Comité Consultatif International Télégraphique et Téléphonique) est utilisé pour les images bitonales, pris en charge par les formats de fichier PDF et de langage PostScript.

Deflate–inflate est un algorithme inventé par Phil Katz pour le format de compression PKZIP en y associant le codage Huffmann. Il est utilisé librement dans le format PNG, lui aussi développé par Phil Katz et dans le format Zip actuel (PKZIP pour Phil Katz ZIP). Les codes sources sont accessibles.

a) 4.2.3 Les formats d'enregistrement sans pertes de données

Le format TIFF

Le format TIFF (Tagged Image File Format) est plus particulièrement utilisé pour les documents mono-pages, les photothèques. C'est le plus connu et répandu avec son extension .tif.

Il s'avérera aussi idéal lors des phases de post-production pour l'enregistrement transitoire avant archivage définitif, par son aptitude à conserver les calques image et calques de réglage, avec leurs gradations. C'est le format utilisé en majorité par le monde de l'édition imprimée.

Une option multi-pages du format TIFF existe et est très usitée en Allemagne, mais ne peut pas être lue par tous les logiciels, aussi faudra-t-il en faire un usage mesuré.

PNG

Le format PNG (Portable Network Graphics) -prononcer peng- est un format libre et qui propose la plus grande universalité et un des meilleurs potentiels en termes de gain d'espace disque grâce à sa compression automatique « deflate ». Il reproduit les transparences de l'image et la transparence totale par couche alpha (pixels transparents), mais n'enregistre pas plusieurs calques. Il peut contenir des métadonnées qui ne sont pas toujours affichées par les éditeurs de logiciels propriétaires. Il n'est pas encore très répandu dans le monde des archives, mais des centres précurseurs l'introduisent dans leurs photothèques. Il est reconnu par un très grand nombre d'applications sur toutes les plateformes, et les systèmes libres (Linux).

JPF, JP2

Le format Jpeg 2000 étendu JPF est une version plus complète que l'ancien JP2 auquel il emprunte le moteur de compression avec ou sans perte de données, au choix de l'utilisateur. Le JPF montre les performances les plus intéressantes en matière d'épargne d'espace disque avec son option « sans pertes de donnée » activée. Le principal inconvénient est que son usage n'est pas encore très répandu bien que sa pérennité soit assurée, vu qu'il est normalisé. Le .jpf est encore illisible dans de nombreuses applications, vu que c'est un format récent qui n'est pas encore inclus par défaut aux filtres import-export des applications. Il est cependant très attractif pour l'archivage permanent des fichiers maîtres aplatis (en un seul calque) avec une taille pouvant atteindre la moitié de celle du png ou du Tiff Zip.

Ce format est étudié plus en détail dans la section « formats avec pertes de données » parce que c'était sa destination initiale.

PDF

Le format PDF (Portable Document Format) est plus particulièrement pertinent pour les documents multi-pages et les documents informatiques générés par les applications. L'enregistrement sans perte de données est à choisir par l'utilisateur dans les préférences avant de commencer les enregistrements. Avec le format PDF-A (PDF Archives) il offre une option de pérennité certaine. Il permet aussi d'enregistrer des pages textes et des pages images dans le même fichier.

Nota :Le PDF peut aussi être utilisé avec une compression engendrant des pertes de données, ce qui est intéressant pour la mise en ligne. Ce format est étudié plus en détail dans la section « formats avec pertes de données » parce que c'est sa destination première.

PSD

Le format PSD de Adobe Photoshop n'est pas un format d'archivage à proprement parler, mais on peut l'utiliser dans les copies de travail intermédiaires de post-production, lorsque des calques de réglage sont utilisés temporairement pour le rendu de l'image, ou pour d'autres opérations demandant des fonctions avancées (détourage, redressements, retouches non irréversibles...) Les formats photoshop les plus récents sont enregistrés avec une compression sans perte de données.

GIF

Le format GIF (Graphic Interchange Format) ne sera pas étudié ici, il a été avantageusement remplacé par le format PNG avec des fonctionnalités supplémentaires.

4.2.4 propriétés intrinsèques des formats sans pertes de données

Tableau  1  Potentiels de contenu des fichiers en phase d'enregistrement de la capture du numériseur
Tableau  2  Potentiels de contenu et d'usage des fichiers en phase de post-production
PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimerRéalisé avec Scenari (nouvelle fenêtre)