Module 9 - Section 2 : Numériser les documents

4.3. Formats avec pertes de données

4.3.1 aperçu des formats

Certains formats d'enregistrement entraînent des pertes de données. Le moteur de compression utilisé par ces formats réduit le nombre de couleurs mais pas le nombre de pixels. La compression est destinée à réduire la taille des fichiers pour accélérer le téléchargement et la taille des documents finis.

Le format JPEG est destiné à la diffusion d'images à l'aide un taux de compression variable. On choisit un bon rapport qualité-taille pour l'usage que l'on veut faire du fichier. Il est capable de millions de couleurs.

Le format PDF avec perte de données est un format de diffusion acceptant des documents multi-pages pouvant contenir des images, des textes, des dessins. Lorsqu'il est utilisé à l'enregistrement d'images avec pertes de données, il contient les formats de la famille JPEG étudiés ci-après. Le choix du mode et du taux de compression est fait par l'utilisateur, et le programme prévoit des cas d'usage prédéfinis.

Le format GIF est typiquement conçu pour la toile, mais peut rendre des services pour le traitement de documents monochromes. Il est limité à 256 couleurs, ou à une image bitonale. La réduction du nombre de couleurs intervient lors de l'enregistrement, c'est pour cela qu'on le considère comme un format avec pertes de données bien que sa compression LZW n'en génère pas intrinsèquement. Il est progressivement abandonné au profit du jpeg.

Le format JBIG est destiné au codage des fichiers au mode bitonal émis par les télécopieurs. Son usage a pu être proposé par certains prestataires, mais il n'apporte rien par rapport aux TIFF et PDF avec compression CCITT groupe 4.

4.3.2 les formats avec pertes de données

JPEG -JFIF

Le format JPEG désigne en réalité plusieurs formats développés par le Joint Photographs Expert Group. Le plus répandu, que l'on peut trouver avec les extensions .JPEG, .jpg, .jpe, .jfif, .jfi. est un format jfif pour JPEG File Interchange Format qui a été créé pour permettre la diffusion sur toutes les plates-formes et en ligne des images numériques en couleur. Il répond à la norme ISO/CEI 10918-1 (JPEG baseline) ou UIT-T recommandation T81, et son code est ouvert et non propriétaire. Son algorithme permet une compression progressive en 10 à 12 niveaux selon les logiciels, avec une dégradation pouvant varier d'invisible (niveau 12) à importante (niveau 0).

Le format JPEG supporte les modes niveau de gris, couleurs RVB et CMJN. On peut y introduire des métadonnées, et un profil de couleur. Ce format ne supporte pas le mode bitonal (bitmap) ni les transparences.

En archivistique, son usage sera limité à la production des sous-fichiers à placer en ligne, et à la numérisation de cartes de grand format pour limiter la taille du fichier, bien que dans ce cas, le fichier JPEG 2000 étendu soit préférable par sa performance, pour l'établissement du fichier maître

Attention

Le premier enregistrement en JPEG, même en qualité maximale, réduit déjà imperceptiblement la gamme des couleurs de l'image.

Le ré-enregistrement avec le même niveau de qualité peut aussi réduire la qualité de l'image selon les applications, car seul le format du fichier compressé est normalisé, mais chaque développeur peut développer une « moulinette » différente pour y arriver. Hormis le réenregistrement dans une qualité supérieure, cette manœuvre est déconseillée, elle pourrait se traduire par une réduction importante de la qualité après plusieurs réenregistrements.

La compression par le format JPEG réduit le nombre des couleurs de pixels, mais ne réduit pas le nombre des pixels formant l'image. Les niveaux de qualité «maximale» n'altéreront pas visiblement la qualité de l'image ; cependant les nuances de couleurs seront réduites, ce qui peut être gênant pour le traitement ultérieur de l'image en post-production (travail des couleurs, des densités).

Les niveaux de qualité «supérieure» commencent à altérer visiblement l'image si on fait un agrandissement, il apparaît des «plaques» de même couleur très gênantes dans les dégradés subtils (ciel) et dans les reflets sur les objets lisses.

Les niveaux de qualité «moyenne» accentuent les défauts précédents et font apparaître du «sable» à la frange des zones de contraste. Les niveaux de qualité «basse» font apparaître un genre de tissage de panier (effet de carreau) en accentuant les défauts cités précédemment. Des zones de halo entourent les contrastes.

Le procédé de compression consiste à créer des plages de pixels de couleurs approchantes et d'en faire une moyenne.

La figure ci-dessus montre un agrandissement des pixels de l’image: dans les faits, ces phénomènes sont beaucoup plus petits et souvent peu discernables à l'écran, par contre ils transparaissent à l'impression.

Niveaux de dégradation des images JPEG

Cet ultime niveau de compression (0) ne peut être utilisée que pour de l'affichage de page Internet.

JPEG 2000 (JP2, JPF)

JPEG 2000 est un procédé de compression d'images développé aussi par le groupe de travail Joint Photographic Experts Group. C'est devenu une norme commune à l'ISO, la CEI et l'UIT-T sous la dénomination ISO/CEI 15444-1. Le fichier JPEG 2000 peut être enregistré avec ou sans perte de données, en utilisant une « transformée en ondelettes » (méthode mathématique de codage du fichier natif).

Les performances de JPEG 2000 en compression avec perte de données sont supérieures à celles de la méthode de compression JPEG standard. On obtient donc des fichiers d'un poids inférieur pour une qualité d'image égale. De plus, les contours nets et contrastés sont mieux rendus, le halo et l'effet de « sable » (artefacts) n'apparaissent plus. Un taux de compression de fichier de 60% en JPEG traditionnel (rapport de 0.4 : 1) est presque inévitablement générateur d'artefacts. Ils se traduisent de manière visible par la destruction de certains détails chromatiques et touchent la continuité des lignes obliques par effet de crénelage « aliasing ». Comparativement, un taux de compression supérieur à 80% en JPEG-2000 demeure visuellement excellent.

Le JEG 2000 contient plusieurs résolutions d'affichage possibles : on peut faire apparaître l'image dans un navigateur internet à différentes tailles en pixels, ce qui est un grand avantage pour moduler l'affichage en réseau en fonction du débit. Le webmestre n'installera qu'un fichier source et l'éditeur internet choisira la taille d'affichage nécessaire.

Les formats avec compression JPEG2000 supportent les modes niveau de gris, couleurs RVB et CMJN, et en plus par rapport au JPEG, le bitonal. On peut y introduire des métadonnées, et un profil de couleur.

Le format Jpeg 2000 est caractérisé par les extensions .JP2, .J2K, .JPC, .JPX

image comparaison jpeg jpeg2000
comparaison jpeg jpeg2000InformationsInformations[1]

Compression. A gauche le JPEG 2000 garde des contours sans artefacts, alors que le JPEG standard commence à montrer des artefacts autour des zones de grand contraste.

(agrandir pour bien voir les artefacts)

Dans des taux de compression très élevés (très basse qualité), les rendus tendent à être identiques. L'usage du JPEG 2000 à compression sera donc dédié à des fichiers pour lesquels on veut conserver une certaine qualité. Le JPEG 2000 a un très bon rendu sur les documents écrits, c'est pourquoi il est couramment proposé sur les copieurs numériques avec fonction numériseur.Dans cet usage, le JPEG 2000 est encapsulé dans un PDF.

Le format Jpeg 2000 étendu

Le format JPEG 2000 étendu est une amélioration du précédent, en intégrant les outils indispensables à l'archiviste. Il répond à la norme ISO/CEI 15444-2:2004 et UIT-T Recommendation T.801 il permet en plus :

- l'intégration des métadonnées d'image XMP, EXIF, IPTC, sur option par l'utilisateur,

- la conservation d'un calque unique avec sa transparence (sans crénelage des bords francs) sur option de l'utilisateur (à défaut le calque est aplati sur fond blanc)

- l'insertion d'un profil de couleur ICC sur option par l'utilisateur

- l'utilisateur peut régler la taille du carreau sur lequel se fait la compression, pour optimiser la taille (plus le carreau est grand, plus la compression est efficace, parce qu'il y a plus de couleurs de pixels à mettre en commun).

Le format Jpeg 2000 étendu est caractérisé par l'extension .JPF

A propos des formats Jpeg 2000

L'usage « direct » du format JPEG 2000 peut poser certains problèmes actuellement parce que les logiciels capables de lire ce format ne sont pas encore très répandus. A part dans Mac OSX, il faut faire appel à des logiciels de conversion, libres ou propriétaires. Pour assurer la lisibilité sur toutes les plateformes, l'idéal est d'encapsuler l'image JPEG 2000 dans un fichier PDF, ce qui en assure la lisibilité sur toutes les plateformes et dans tous les environnements.

Le format JPEG 2000 natif est l'allié idéal du webmestre, parce qu'il contient plusieurs versions de l'image dans des tailles différentes, et une seule source est à placer sur le serveur. C'est la page internet qui fait appel à l'image à la taille désirée.

Attention

Le premier enregistrement en JP2 lorsque l'option « sans pertes » n'est pas cochée réduit déjà imperceptiblement la qualité de l'image.

Le réenregistrement avec le même niveau de qualité peut dans certaines applications chercher à appliquer de nouveau le même rapport de compression à partir du fichier qui avait déjà été compressé. Le résultat est ravageur. (par exemple si on avait voulu gagner 30% la première fois, en le faisant une deuxième fois, le fichier sera alors réduit de 51% de sa taille originale et la qualité s'en ressentira

ComplémentAmélioration des rendus du JPEG

Il existe des extensions (plug-ins) à installer dans vos logiciels de retouche d'image qui rendent lisses et sans «sable» ni « paniers» les compressions JPEG, dans une taille inférieure à la compression classique (par exemple: proJPEG de BoxTop software). Leur fenêtre de dialogue montre en détail la texture de l'image et l'utilisateur peut pousser son taux de compression en fonction du résultat attendu. Cette méthode peut être appliquée pour la conservation de grands fonds iconographiques pour gagner un espace disque conséquent par rapport au TIFF ou à une compression à taux fixe prédéterminé. Cependant cette solution ne peut être mise en œuvre que par un opérateur très averti et distinguant correctement les couleurs. Il peut être nécessaire de pratiquer un test de détection du daltonisme.

PDF en usage de diffusion

Il est ici nécessaire de parler du format PDF avec des pertes de données, car c'est sous cet aspect qu'il est majoritairement utilisé dans la diffusion des documents d'archives.

Le format PDF (portable document format) est un langage de description de page c'est à dire qu'il peut positionner divers éléments sur une page qui a une échelle de restitution connue en centimètres. Un des principaux avantages de ce format est que les fichiers au format PDF sont fidèles aux documents originaux : les polices, les images, les objets graphiques et la mise en forme du fichier source sont préservés, quelles que soient l'application et la plate-forme utilisées pour le créer. Il a été créé à l'origine pour le monde de l'édition imprimée, afin d'envoyer à l'imprimeur un fichier à restituer sans surprise. Bien sûr, dans ce cas d'usage, toutes les images sont enregistrées sans pertes de données.

Ce format peut contenir ces éléments divers :

  • des images bitonales

  • des images en tons continus (gris ou couleur)

  • des dessins vectoriels

  • du texte

  • mais aussi des signets, hyperliens, des sons, des séquences vidéo.

A l'origine, la page est décrite selon le langage PostScript® Apple, puis les éléments sont pris un à un et compressés à l'aide des algorithmes les plus performants pour chacun d'entre eux.

Ainsi, les images peuvent-elles être encodées en JPEG-JFIF ou en JPEG 2000. Dans les applications générant un fichier PDF sur un ordinateur à partir du fichier source d'une application, il existe des fenêtres permettant de régler le taux de compression de l'image, mais aussi de réduire la résolution (taille en pixels) des images.

La taille en pixels des images se règle par un filtre passe-bas[2] incorporé à l'application, avec une réduction de la résolution des images se trouvant au-dessus d'un nombre prédéfini de pixels par pouce à la taille de restitution. Une imprimante virtuelle PDF permet de produire cet artefact à partir d'un fichier PDF à haute résolution/sans perte de données et de générer des copies légères à basse résolution/avec pertes de données pour la mise en ligne.

Pour les acquisitions de séries de documents en mode bitonal, c'est la machine de numérisation qui donne accès aux réglages de résolution en clavier de commande ; la bitonalisation et la compression se font directement dans la machine et les pages sont livrées assemblées en un seul fichier PDF reproduisant le lot de chargement de l'appareil

4.3.3 Le format PDF-A

Le format PDF-A est un format spécialement dédié à l'archivage issu du format Adobe PDF et qui a été normalisé pour assurer la pérennité à long terme. Etant normalisé, ce format échappe à la propriété de son éditeur, et les codes sources deviennent accessibles et publics.

La spécification PDF/A a été publiée par l'ISO et est utilisée par les organismes d'archivage du monde entier pour garantir la sécurité et la fiabilité de la diffusion et des échanges de documents électroniques.

La principale différence avec le PDF de ressource Adobe est la notion de fichier autoporteur uniquement dédié à la conservation de documents « pages ». Il n'y a pas de possibilité d'introduire des URL, des liens vers des fichiers externes, des sons, des images animées comme dans le PDF classique. Le PDF-A est conçu pour la restitution identique et permanente du document sur toutes les plateformes et à tout moment de son évolution.

Le contenu de la norme ISO 19005 optimise l'indépendance matérielle et logicielle ainsi que l'auto-documentation. Il comprend la définition du format PDF/A, mais aussi la façon de développer un outil de visualisation de fichier conforme à ce format. Cela garantit la possibilité future de disposer d'un outil de visualisation. La norme ISO 19005 contient également le document « PDF reference manual » d'Adobe® systems

Par ailleurs, l'intégralité du format PDF dans la version 1.7 a été normalisée par l'ISO en juillet 2008 sous la référence ISO 32000. Cette version sert de base au PDF-A le plus récent

Évolutions du format PDF-A

On croyait lors de la création de la norme avoir fixé à jamais le PDF dans le marbre, mais en fait, le format PDF archives suit les évolutions du format PDF créé par Adobe, pour profiter des dernières ressources dynamiques, ceci afin de satisfaire aux exigences du monde des affaires.

La norme ISO 19005 évolue par adjonction de parties, qui définissent à chaque fois des compléments au format de base.

Tableau  3  ISO 19005 - Gestion de documents

On peut juste regretter que le normalisateur n'ait pas créé des champs de métadonnées avec des libellés adaptés au monde des archives : cote, dates extrêmes... mais l'évolution est toujours possible.

Devenu normalisé, le format PDF est omniprésent, et a un bel avenir devant lui. Chaque internaute y a accès avec le graticiel Adobe Reader® distribué en ligne, et disponible pour toutes les plateformes et versions de systèmes d'exploitation.

Au sujet de la protection

Le format PDF-A offre automatiquement à l'enregistrement une protection du document contre les modifications.

Pour le PDF standard, il existe des options permettant de protéger le fichier PDF contre la copie du contenu, voire l'impression, mais certains éditeurs de graticiels contournent ces protections. Le seul procédé résistant bien est l'encryptage et le mot de passe à l'ouverture, mais c'est peu utilisable dans un flux intense de documents en ligne.

On préfèrera réduire la qualité graphique du contenu si on veut empêcher l'utilisation des images en ouvrages imprimés.

4.3.4 propriétés intrinsèques des formats avec pertes de données

Le tableau ci-dessous dresse un inventaire des formats avec pertes de données, et de leurs propriétés. Le format PDF peut contenir les formats JFIF et/ou JPEG 2000, générés par les machines ou les applications.

Dans tous les cas, les fichiers à mode bitonal sont enregistrés et compressés sans pertes de données.

Tableau  4  Potentiels de contenu des fichiers avec compression à perte de données

ComplémentUtilité d'un calque avec transparence ?

Il peut sembler incongru de citer un mode permettant d'enregistrer et de présenter des images avec des transparences, alors que les archivistes travaillent sur des documents bien opaques. En fait, c'est une utilité essentielle pour détourer les cartes postales par exemple, qui seront présentées avec leur contour physique, mais pas le dos du numériseur. L'élimination du fond se fait lors du post-traitement et parfois automatiquement à la prise de vues.

ComplémentLe format GIF

Le format GIF est réservé à l'usage sur le web. Il sous-échantillonne les couleurs à 256 niveaux, mais peut produire des fichiers plus lourds que le jpeg pour une même image. En revanche, il présente la possibilité de définir des zones transparentes, ce qui est utile pour le détourage d'objets présentés en pages web .Il n'a pas d'intérêt direct pour les activités de numérisation des archives, mais seulement pour le webmestre chargé de leur diffusion Internet. L'enregistrement des numérisations initiales se fera dans les formats tiff ou jpeg, et une exportation sera faite vers le gif. Des «plug-ins» d'optimisation existent aussi pour ce format.

Aspects des options de format Gif en 256 couleurs

A noter : cette figure contrairement à celle du format jpeg n’a pas été agrandie,

car son usage est réservé au navigateur web, et dans ce cas, c’est l’illusion qui compte !

L'image au format gif avec la palette de couleur «système» accélère le téléchargement au détriment de la justesse de l'image. Avec la palette de couleurs «adaptive» l'image est à peine plus longue à télécharger, mais plus précise. Le Gif a un rendu assez inattendu sur des documents monotones comme les reproductions de manuscrits. L'exemple ci-dessus est flatteur car c'est une prise de vues en haute définition à 300dpi, et les grandes plages d'une même couleur sont inexistantes. Le rendu du papier reste cependant très approximatif.

Le GIF permet de créer de petites animations où différentes images contenues dans le fichier s'affichent successivement selon le rythme défini par leur créateur.

  1. Paternité - Pas d'Utilisation Commerciale

  2. passe-bas

    Filtre passe-bas: dispositif qui limite la résolution à une valeur supérieure limite. Tout ce qui est plus grand en résolution sera recalculé, et une nouvelle image en résolution plus basse sera incorporée au fichier final.

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimerRéalisé avec Scenari (nouvelle fenêtre)