Section 7 - Formats de représentation de l'information

Chapitre 5. Tour d'horizon des formats de données

Nous avons vu jusqu'ici comment représenter des entités simples comme les nombres ou les caractères.

Il s’agit maintenant de représenter des objets numériques plus complexes et pouvant contenir du texte, des images, des graphiques, du son, de la vidéo. Ces différentes catégories d’informations pouvant par ailleurs être rassemblées, organisées, combinées au sein de documents appelés multimédias.

La représentation de ces objets pose d'autres problèmes qui se superposent aux précédents.

5.1. Rôle particulier de XML

Origine

Dès les années 1970 et au début des années 1980, IBM étudie la possibilité de stocker des textes sur ordinateur.

Trois de ses ingénieurs conçoivent un langage de balisage destiné à séparer les instructions de style et le contenu des documents ; Charles Goldfarb, Edward Mosher et Raymond Lorie nomment ce langage de leurs initiales : GML.

Les travaux d'IBM sont repris par l'ISO et conduisent à la norme ISO 8879/1986 baptisée SGML.

SGML signifie Standardized General Markup Language.

Concepts

Deux concepts essentiels sont introduits par SGML :

  • la séparation du contenu et du style : le contenu est ce qu'il faut pérenniser, un même contenu peut être utilisé avec différents styles

    • papier

    • écran

    • téléphone portable

  • la structure du document est aussi importante à pérenniser que son contenu : le balisage est le moyen d'y parvenir ; cela permet d’affecter une véritable sémantique aux différents éléments de la structure (titre de document, titre de chapitre, glossaire, note de bas de page,…).

De SGML à XML

En dehors de grands centres de documentation technique, il n’y aura que fort peu d'applications de SGML jusqu'en 1990. La mise en œuvre reste complexe, les outils logiciels sont coûteux.

En 1990, Tim Berners Lee crée le Web avec HTML (Hypertext Markup Language) qui est un langage construit sur les principes de SGML. A la suite des évolutions anarchiques de HTML entre 1993 et 1996, le W3 Consortium crée un groupe de travail pour dépoussiérer SGML et en faire une version allégée pour les réseaux.

Cela aboutit à la Recommandation du W3C : Extensible Markup Language (XML) 1.0 du 10 Février 1998.

Principes

XML est un métalangage (ou une grammaire) permettant d'écrire des langages qui auront les propriétés suivantes :

  • ils seront tous conformes à XML, c'est à dire qu'ils partageront la même syntaxe, les mêmes règles et pourront donc être manipulés par des outils génériques;

  • ils seront interopérables c'est à dire qu'on pourra créer des documents composites où coopèreront plusieurs langages XML ;

  • ils seront balisés de telle sorte qu'ils matérialiseront la structure du document ; le contenu et le style seront séparés.

Ainsi tout document XML pourra être :

  • vérifié par un analyseur syntaxique (appelé aussi « parseur »),

  • mis en forme : cette mise en forme peut être réalisée par les langages CSS (Cascading Style Sheets : feuilles de style en cascade) ou XSL-FO (eXtensible Stylesheet Language - Formatting Objects). CSS et XSL-FO sont deux standards du W3C,

  • transformé par le langage de transformation XSLT (eXtensible Stylesheet Language Transformations), ce qui permettra de composer des documents à partir de plusieurs autres documents, ou encore de produire plusieurs versions du même document en fonction des destinataires, etc.

Langages et formats

Lorsqu'un document a été structuré par le langage XML, on connaît en pratique l'ensemble des règles d'organisation de l'information au sein de ce document. A ce titre, XML peut donc être considéré comme un format. C’est un format ouvert, lisible par les ordinateurs et les humains. XML utilise le jeu de caractères d'Unicode et permet l'utilisation de différents encodages dont UTF-8 qui est le codage par défaut. XML est standardisé par le W3C.

Il existe à ce jour des centaines, peut-être des milliers de langages XML dédiés à des applications métier particulières. Un grand nombre de formats de données et de métadonnées dans les domaines les plus divers s'appuient sur la syntaxe XML. Certains sont assez génériques pour être largement employés

• SMIL (Synchronized Multimedia Interface Language) pour les documents multimédia,

• SVG (Scalable Vector Graphics) pour les graphismes vectoriels 2D,

• Xforms pour les formulaires.

XML n’est pas normalisé par l'ISO mais de nombreuses normes ISO s'appuient sur lui. Il bénéficie d’un grand nombre d’outils pour toutes plates-formes.

AttentionImportant

Il faut ajouter que si on veut archiver des documents XML, il faut pouvoir valider ces documents à l'entrée de l'Archive et par conséquent pouvoir disposer des modèles auxquels se réfèrent les fichiers et archiver ces modèles. Il pourra s’agir de DTD (Définition de type de document), de schémas XML ou de tout autre type de grammaire standardisée.

L'adoption de modèles tels que DocBook, TEI (Text Encoding Initiative), textML, ALTO, est essentielle dans la perspective de l'archivage.

XML, un atout pour la pérennisation des documents numériques

  • XML est un format ouvert standardisé par le W3 Consortium et mondialement utilisé dans tous les secteurs d’activité,

  • XML est lisible par les humains et les ordinateurs et peut donc être transcodé sans difficultés. Il est syntaxiquement vérifiable,

  • XML dissocie le contenu et le style et permet donc d'associer différents styles à un même contenu,

  • XML est interopérable et ne dépend donc pas de la plateforme informatique utilisée,

  • XML ne dépend que de l'encodage des caractères qui est assuré par UTF-8

5.2. Formats texte

Documents en texte intégral

On parle aussi de texte but, de texte simple (Plain Text), ce sont les documents qui portent une extension .txt sous Windows.

C’est un format ouvert dont le contenu va dépendre de l’encodage des caractères. En pratique, le document se réduit à une suite de caractères, d’espaces et de retours à la ligne.

Il existe de très nombreux outils d’édition, de manipulation, de conversion sur tous les systèmes d’exploitation.

Exemple

  • Sous Windows : le bloc note, Textedit, Notepad++, Ultraedit…

  • Sous Linux : Vi, Emacs…

Les documents en texte intégral ne posent pas de difficulté quant à leur pérennisation dès lors qu'on a mémorisé le codage utilisé. Cependant, ce sont des documents pauvres contenant du texte sans structure et sans style.

Formats bureautiques :

Il existe un certain nombre de formats utilisés par les suites logicielles bureautiques.

Nous ne citerons que les deux principaux

  • ODF (Open Document Format)

  • et OOXML (Office Open XML).

Complément

Format

Description

ODF – Open Document Format

open office logo

Le format ODF (Open Document Format) est un format ouvert basé sur un langage normalisé de définition de schéma de document RELAX NG, lui même construit sur le langage XML.

ODF a été standardisé par le consortium OASIS (Organization for the Advancement of Structured Information Standards) en 2005 puis est devenu la norme ISO 26300 en 2006 (Technologies de l'information - Format de document ouvert pour applications de bureau, OpenDocument v1.0).

ODF a été retenu par nombre d'organismes publics nationaux et internationaux

Plusieurs suites logicielles libres utilisent ce format. C'est le cas de la suite Open Office qui est distribué sous la licence GNU LGPL (Lesser General Public Licence1) qui fonctionne sur plusieurs plates-formes dont Microsoft Windows, Linux, Sun Solaris, ou encore Apple Mac OS. Le code source d'Open Office et sa documentation sont accessibles. D'autres suites bureautiques libres comme Lotus Note Symphony d'IBM ou encore Koffice permettent d'enregistrer des données au format ODF, ce qui renforce encore le poids de ODF dans la perspective de pérennisation des documents.

OOXML – Office Open XML

logo word

Les formats proposés par la suite logicielle bureautique Office de Microsoft (.doc, .xls, .ppt pour les versions anciennes et .docx, .xlsx et .pptx à partir de la version 2007) ont été des formats fermés non publiés jusqu'au début des années 2000.

Ces formats, ainsi que la suite logicielle Microsoft Office ont évolué au rythme soutenu d'une version tous les deux ans depuis 1990.

Attention

Très important !

La compatibilité ascendante, permettant de lire, avec une version récente de la suite Office, un fichier créé avec une version plus ancienne n’est pas assurée au-delà de 10 ans (voir la section 12 de ce module sur les retours d’expérience).

Depuis le début des années 2000, la structure des formats, basée sur le langage XML, a été publiée. Ce format est complexe et sa documentation souvent peu explicite. Microsoft a ensuite été moteur dans la normalisation par le consortium ECMA en 2006 du format OOXML (Office Open XML), format qui a été proposé à l'ISO. La normalisation ISO d'OOXML a été obtenue en mars 2008. Par ailleurs, Microsoft avait annoncé son intention d'intégrer les formats ODF et PDF 1.5 à la suite Office 2007.

La mise en application du format OOXML ne sera quant à elle effective qu’avec Office 2010. La documentation du format OOXML reste trop volumineuse (6000 pages), à la mesure de la complexité du format. Cette complexité n'est pas un avantage par rapport à la problématique de conservation à long terme. Le coût de développement d’une solution logicielle alternative à celle de Microsoft serait naturellement extrêmement élevé.

La situation à l'égard des formats des documents bureautiques a évolué de façon spectaculaire au cours des dernières années. ODF parait être actuellement la meilleure base pour l'archivage long terme dès que l'on souhaite archiver des documents sous une forme révisable. Nous ne saurions prédire ce qu'il adviendra dans le futur. Les épisodes passés nous incitent à rester prudents dans ce domaine.

Le format PDF (Portable Document Format) et sa version PDF/A dédiée à l'archivage

Format

Description

PDF 1.7

PDF est un format propriétaire publié. Il appartient à la société Adobe. C’est un format conteneur. Il permet de contenir d’autres types de format de données tels que des images couleur compressées en JPEG, du son, de la vidéo, etc.

Il existe de nombreux outils pour manipuler ce format. Aussi bien des outils issus du monde du logiciel libre que des outils propriétaires. La politique d’Adobe est de distribuer gratuitement les outils de lecture et de vendre les outils de création.

Le fait qu’il soit un format conteneur oblige à vérifier rigoureusement que les fichiers PDF destinés à l’archivage ne contiennent que les éléments attendus et tous les éléments attendus

Le format peut inclure des métadonnées au format XMP (Extensible Metadata Platform).

En juillet 2008, la version 1.7 de PDF est devenue la norme ISO 32000-1 2008 (Gestion de documents - Format de document portable - Partie 1: PDF 1.7). Cette normalisation ne change rien à la nécessité de prendre les précautions indispensables définies ci-avant.

PDF/A

La version 1.4 de PDF a été la base sur laquelle a été définie en 2005, la norme ISO 19005-1 : Electronic Document file format for long-term preservation, PDF/A-1.

PDF/A comporte un certain nombre de restrictions par rapport à PDF mais il intègre au sein du format tous les éléments nécessaires à la restitution du document et notamment les polices de caractères dont il a besoin.

Il s'ensuit une augmentation du volume des fichiers mais en contrepartie, une indépendance de ces fichiers par rapport aux plates-formes sur lesquelles on les utilise.

Les restrictions imposées par la norme sont susceptibles d'entraîner une perte d'informations (cas d'utilisation du mode de transparence, existence d'audiogrammes ou de vidéogrammes, ...). Il est donc nécessaire de s'assurer, avant toute conversion de PDF en PDF/A, que le fichier PDF origine ne fait pas appel à des fonctionnalités de PDF non supportées par PDF/A.

AttentionA savoir

Le format PDF est destiné aux documents non révisables. Il présente l’avantage de pouvoir restituer la présentation originale du document de façon fidèle alors que cette garantie ne peut pas être totalement assurée par les formats bureautiques révisables.

Il ne faut pas pour autant croire qu’un document PDF ne pourra pas être modifié de façon malveillante.

5.3. Formats image et graphiques vectoriels

Il existe deux types de description pour les images :

  • Les images à description de pixel. Chaque pixel de l'écran est affecté individuellement d'un ou de plusieurs nombres entiers représentant sa luminosité, sa couleur ou son opacité. Ces images sont faciles à mettre en œuvre mais d'une précision limitée si l'on veut rester avec des volumes raisonnables. Il pourra s'agir d'images obtenues par numérisation ou d'images nativement numériques comme c'est le cas pour les photographies. Le nombre de formats de ce type est très important (plusieurs centaines),

  • Les images à description vectorielle. Les objets de la scène sont décrits de façon mathématique dans un espace orthonormé. La description est alors aussi précise que nécessaire. Il s’agira par exemple de graphiques mathématiques ou statistiques.

Formats d'image à description de pixels

Abréviation

Nom et statut

Principales caractéristiques

GIF

Graphics Interchange Format

Format propriétaire publié

Contrainte liée au brevet

Ce format d'image, très utilisé au début du Web, est assez peu performant. Il est frappé d'un brevet détenu par Compuserve.

TIFF

Tagged Image File Format

Format publié

Propriété de la société Adobe

Pas de licence d’utilisation

C’est un format conteneur : Il définit une structure. Il permet d’inclure les profils ICC ((International Color Consortium) dans le fichier. Le profil ICC permet une gestion des couleurs indépendante des plates-formes et des périphériques. L’image peut être enregistrée selon différents algorithmes de compression selon le choix de l’utilisateur.

Les images peuvent aussi être enregistrées sans compression. Le succès de ce format est dû à deux raisons principales :

  • Il permet l’enregistrement des images noir et blanc avec l’algorithme ITU T6 qui avait été conçu pour la transmission par télécopie : cet algorithme est très efficace et offre des taux de compression élevés sans perte,

  • Ce format offre aussi la possibilité d’enregistrer dans son en-tête des métadonnées techniques très complètes.

TIFF est fréquemment utilisé comme format de numérisation.

JPEG et

JPEG2000

JPEG (Joint Photographic Expert Group) est un format publié et ouvert

Norme ISO/IEC IS 10918-1.

JPEG2000 est un format publié et ouvert

Norme ISO/CEI 15444-1

La norme JPEG décrit l’algorithme de compression et les informations minimales pour l’utiliser. La raison de son succès est qu’il est largement implémenté en Open Source et qu’il a été adopté par tous les navigateurs Internet. Son défaut est qu’il est un algorithme de compression avec perte (suivant le paramétrage retenu, ce taux de compression peut être très faible). JPEG n’est pas à proprement parler un format de fichier, JPEG s’appuie sur le format JFIF (JPEG File Interchange Format).

Avec JPEG2000, la compression est l'une des améliorations importantes de ce format : par rapport au JPEG, à qualité de rendu égale, elle est beaucoup plus importante (surtout valable dans les forts taux de compression).

JBIG

Joint Bi-level Image experts Group

Format publié ouvert.

Norme ISO/IEC IS 11544

Limitation au niveau du brevet sur l’algorithme de compression

JBIG utilise un algorithme de compression sans perte. Il peut également être employé pour le codage à niveau de gris et les images de couleur avec un nombre limité de bits par pixel. L'inconvénient est que l'algorithme de compression sur lequel il repose est soumis à un brevet détenu par IBM, Mitsubishi et Lucent. C'est probablement l'une des raisons de sa faible diffusion

PNG

Portable network Graphics

Format publié ouvert

Standard du W3C

Norme ISO/IEC 15948:2003

Format performant qui supporte les images en niveaux de gris ou en couleur. Il est accepté par la plupart des navigateurs modernes.

Formats à description vectorielle

Abréviation

Nom et statut

Principales caractéristiques

SVG

Scalable Vector Graphics

Standard ouvert du W3C

Ce format ouvert et performant est doté de nombreux outils gratuits. Les fichiers au format SVG sont lisibles sur la plupart des navigateurs. Ce format est notamment utilisé en cartographie.

DWG

Abréviation de DraWinG (Dessin)

Format fermé, propriété de la société Autodesk, distributeur du logiciel Autocad

Ce format est très utilisé par les architectes, les géomètres, les géographes, etc. Pourtant, son caractère fermé et non publié ne le rend pas adapté à une conservation à long terme, prisonnière de Autocad

5.4. Formats audio et vidéo

Les formats audiovisuels et les formats sonores constituent un domaine techniquement complexe. Cependant, les critères d'évaluation des formats par rapport à l’archivage numérique s'appliquent entièrement.

Une distinction systématique sera faite entre la spécification du format qui définit le mode d'encapsulation du contenu, c'est à dire l'organisation de l'information au sein d'un conteneur et l'encodage proprement dit de l'information qui utilisera souvent un algorithme de compression des données visant à réduire leur volume. Nous ne donnons ici que quelques indications générales sur une sélection de formats existants.

AttentionRemarque

Il est fréquent ici de séparer les formats d'archivage, c'est à dire ceux qui permettent de conserver toute l'information utile, des formats de diffusion correspondant à un usage donné de ces informations.

Formats Audio

Les formats audio sont des formats « enveloppe », appelés aussi format « conteneur ». Au sein de ces formats, l’information audio peut être codée et compressée de différentes manières. Pour définir entièrement la représentation audio, il convient donc à chaque fois de préciser le type de codage qui sera utilisé.

Des recommandations sur les formats sonores sont émises par l'IASA (International Association of Sound and Audiovisual Archives). Il n’y a pas malheureusement pas d’équivalent pour la vidéo.

Nous présentons ici une courte synthèse des principaux formats.

Abréviation

Nom et statut

Principales caractéristiques

Wave

Format publié, propriété de Microsoft

Format très répandu. C'est l'encodage PCM (Pulse code modulation), encodage sans compression, qui est le plus utilisé, notamment pour le « disque compact ». Il peut aussi recevoir d'autres encodages comme MP3.

AIFF

Audio Interchange File Format

Format publié, propriété d’Apple

Format de fichier audio développé par Apple et utilisé sur les ordinateurs Macintosh. Les données sont codées en PCM big-endian sans compression

MP3

MPEG Audio Layer 3

Algorithme de compression normalisé (ISO/CEI IS 11172-3 et ISO/CEI IS 13818-3) mais soumis à des redevances

Format audio doté d’un algorithme de compression capable de réduire très fortement la quantité de données nécessaire pour restituer de l'audio avec une perte de qualité sonore acceptable pour l'oreille humaine.

La mise en œuvre de l'encodeur est dans le champ d'un

brevet détenu conjointement par un ensemble de sociétés.

OGG

Format publié et ouvert

Format ouvert promu par la fondation Xiph.org.

Ce format doit être utilisé avec le codage Vorbis, défini également par cette fondation. Vorbis est un algorithme de compression et de décompression audio numérique, ouvert et libre, plus performant en termes de qualité et taux de compression que le format MP3.

Formats Vidéo

Comme pour les formats audio, on distinguera les formats « conteneur » des algorithmes de codage et décodage des données vidéo. Ces algorithmes sont appelés « codec » (pour codage-décodage).

Les données vidéo font l’objet d’une organisation complexe et le choix d’un format pour la conservation mérite systématiquement une analyse spécifique. Nous proposons ici quelques éléments comme une base de réflexion préalable et non exhaustive.

Abréviation

Nom et statut

Principales caractéristiques

MPEG

Moving Pictures Expert Group

Format ouvert

Ensemble de normes ISO

Ce format correspond à une famille de normes ISO :

MPEG-1 : les premiers films de l'Internet (ISO/CEI 11172-1 à 5)

MPEG-2 : la télévision numérique actuelle

MPEG-4 : la Télévision Numérique Terrestre

MPEG-7, MPEG-21 : futures normes de composition de scènes, très riches en métadonnées.

La plus performante actuellement est MPEG-4 qu’il convient d’utiliser avec un codage nommé H264. H.264, ou MPEG-4 AVC (Advanced Video Coding), est une norme de codage vidéo développée conjointement par l’UIT (Union Internationale des télécommunications) et l’ISO. La norme UIT-T H.264 et la norme MPEG-4, Part 10 (ISO/CEI 14496-10) sont techniquement identiques,

MJPEG2000

Motion JPEG2000

Partie 3 de la norme JPEG2000

Format publié et ouvert

Norme ISO/CEI 15444-1

Chaque image de la vidéo est codée au format JPEG 2000. Une vidéo MJPEG 2000 n'est qu'une simple concaténation d’images au format JPEG 2000, incluant quelques modifications sur les en-têtes.

Ce format est bien adapté pour l’indexation ou le montage vidéo. Il bénéficie de toutes les propriétés de JPEG 2000 en particulier le codage sans perte.

OGG

Format publié et ouvert

Format ouvert promu par la fondation Xiph.org.

Ce format doit être utilisé avec le codage Theora. Il s’agit du mode de compression vidéo libre et sans brevets promu par la même fondation.

Matroska (extension mkv)

(Матрёшка ou Poupée russe en russe)

Format ouvert

Matroska est un format qui peut regrouper au sein d'un même fichier plusieurs pistes vidéo et audio ainsi que des sous-titres et des chapitres.

On peut, comme pour MPEG 4, recommander le codage H264.

AVI

Audio Video Interleave

Format propriétaire (Microsoft)

Format conteneur publié

Ce conteneur peut accueillir n'importe quel codec. En mode non comprimé, les fichiers sont rapidement très volumineux.

WMV

Windows Media Video

Format propriétaire (Microsoft)

Peu recommandé pour l'archivage

5.5. Formats des fichiers produits par les applications « maison »

Jusqu’à maintenant, nous avons essentiellement parlé des formats de représentation ouverts ou propriétaires, qui sont disponibles sur le marché et pour lesquels il existe des logiciels d’écriture, de lecture, de conversion, etc.

De nombreuses entreprises ou institutions développent leurs propres applications logicielles afin de répondre à leurs besoins. Les données numériques produites par ces applications ont donc un format propre à ces applications.

Au lieu de s’appuyer sur une documentation descriptive du format disponible dans un organisme de normalisation ou chez son propriétaire, il sera nécessaire ici, de réaliser sa propre documentation descriptive des données. Cette description devra impérativement :

  • être complète,

  • être précise,

  • avoir été validée de façon rigoureuse.

AttentionEssentiel

La validité et la complétude de cette description du format des données issues de l'application « maison » sont des éléments déterminants pour l'archivage des données issues de cette application. Toute non-conformité de cette documentation entraîne immédiatement un risque majeur de perte ou d'interprétation fausse de l'information archivée.

La présentation des méthodes de description des formats de données sort du cadre du présent cours mais il est bon de savoir :

  • que des méthodes de description formelle existent. Ces méthodes permettent de produire une description du format qui sera interprétable aussi bien par des personnes que par des logiciels,

  • que des outils permettent alors de s’assurer de la cohérence entre un document numérique et la description formelle de son format.

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimerRéalisé avec Scenari (nouvelle fenêtre)