Chapitre 5. Tour d'horizon des formats de données
Nous avons vu jusqu'ici comment représenter des entités simples comme les nombres ou les caractères.
Il s’agit maintenant de représenter des objets numériques plus complexes et pouvant contenir du texte, des images, des graphiques, du son, de la vidéo. Ces différentes catégories d’informations pouvant par ailleurs être rassemblées, organisées, combinées au sein de documents appelés multimédias.
La représentation de ces objets pose d'autres problèmes qui se superposent aux précédents.
5.1. Rôle particulier de XML
Origine
Dès les années 1970 et au début des années 1980, IBM étudie la possibilité de stocker des textes sur ordinateur.
Trois de ses ingénieurs conçoivent un langage de balisage destiné à séparer les instructions de style et le contenu des documents ; Charles Goldfarb, Edward Mosher et Raymond Lorie nomment ce langage de leurs initiales : GML.
Les travaux d'IBM sont repris par l'ISO et conduisent à la norme ISO 8879/1986 baptisée SGML.
SGML signifie Standardized General Markup Language.
Concepts
Deux concepts essentiels sont introduits par SGML :
la séparation du contenu et du style : le contenu est ce qu'il faut pérenniser, un même contenu peut être utilisé avec différents styles
papier
écran
téléphone portable
la structure du document est aussi importante à pérenniser que son contenu : le balisage est le moyen d'y parvenir ; cela permet d’affecter une véritable sémantique aux différents éléments de la structure (titre de document, titre de chapitre, glossaire, note de bas de page,…).
De SGML à XML
En dehors de grands centres de documentation technique, il n’y aura que fort peu d'applications de SGML jusqu'en 1990. La mise en œuvre reste complexe, les outils logiciels sont coûteux.
En 1990, Tim Berners Lee crée le Web avec HTML (Hypertext Markup Language) qui est un langage construit sur les principes de SGML. A la suite des évolutions anarchiques de HTML entre 1993 et 1996, le W3 Consortium crée un groupe de travail pour dépoussiérer SGML et en faire une version allégée pour les réseaux.
Cela aboutit à la Recommandation du W3C : Extensible Markup Language (XML) 1.0 du 10 Février 1998.
Principes
XML est un métalangage (ou une grammaire) permettant d'écrire des langages qui auront les propriétés suivantes :
ils seront tous conformes à XML, c'est à dire qu'ils partageront la même syntaxe, les mêmes règles et pourront donc être manipulés par des outils génériques;
ils seront interopérables c'est à dire qu'on pourra créer des documents composites où coopèreront plusieurs langages XML ;
ils seront balisés de telle sorte qu'ils matérialiseront la structure du document ; le contenu et le style seront séparés.
Ainsi tout document XML pourra être :
vérifié par un analyseur syntaxique (appelé aussi « parseur »),
mis en forme : cette mise en forme peut être réalisée par les langages CSS (Cascading Style Sheets : feuilles de style en cascade) ou XSL-FO (eXtensible Stylesheet Language - Formatting Objects). CSS et XSL-FO sont deux standards du W3C,
transformé par le langage de transformation XSLT (eXtensible Stylesheet Language Transformations), ce qui permettra de composer des documents à partir de plusieurs autres documents, ou encore de produire plusieurs versions du même document en fonction des destinataires, etc.
Langages et formats
Lorsqu'un document a été structuré par le langage XML, on connaît en pratique l'ensemble des règles d'organisation de l'information au sein de ce document. A ce titre, XML peut donc être considéré comme un format. C’est un format ouvert, lisible par les ordinateurs et les humains. XML utilise le jeu de caractères d'Unicode et permet l'utilisation de différents encodages dont UTF-8 qui est le codage par défaut. XML est standardisé par le W3C.
Il existe à ce jour des centaines, peut-être des milliers de langages XML dédiés à des applications métier particulières. Un grand nombre de formats de données et de métadonnées dans les domaines les plus divers s'appuient sur la syntaxe XML. Certains sont assez génériques pour être largement employés
• SMIL (Synchronized Multimedia Interface Language) pour les documents multimédia,
• SVG (Scalable Vector Graphics) pour les graphismes vectoriels 2D,
• Xforms pour les formulaires.
XML n’est pas normalisé par l'ISO mais de nombreuses normes ISO s'appuient sur lui. Il bénéficie d’un grand nombre d’outils pour toutes plates-formes.
Attention : Important
Il faut ajouter que si on veut archiver des documents XML, il faut pouvoir valider ces documents à l'entrée de l'Archive et par conséquent pouvoir disposer des modèles auxquels se réfèrent les fichiers et archiver ces modèles. Il pourra s’agir de DTD (Définition de type de document), de schémas XML ou de tout autre type de grammaire standardisée.
L'adoption de modèles tels que DocBook, TEI (Text Encoding Initiative), textML, ALTO, est essentielle dans la perspective de l'archivage.
XML, un atout pour la pérennisation des documents numériques
XML est un format ouvert standardisé par le W3 Consortium et mondialement utilisé dans tous les secteurs d’activité,
XML est lisible par les humains et les ordinateurs et peut donc être transcodé sans difficultés. Il est syntaxiquement vérifiable,
XML dissocie le contenu et le style et permet donc d'associer différents styles à un même contenu,
XML est interopérable et ne dépend donc pas de la plateforme informatique utilisée,
XML ne dépend que de l'encodage des caractères qui est assuré par UTF-8
5.2. Formats texte
Documents en texte intégral
On parle aussi de texte but, de texte simple (Plain Text), ce sont les documents qui portent une extension .txt sous Windows.
C’est un format ouvert dont le contenu va dépendre de l’encodage des caractères. En pratique, le document se réduit à une suite de caractères, d’espaces et de retours à la ligne.
Il existe de très nombreux outils d’édition, de manipulation, de conversion sur tous les systèmes d’exploitation.
Exemple :
Sous Windows : le bloc note, Textedit, Notepad++, Ultraedit…
Sous Linux : Vi, Emacs…
Les documents en texte intégral ne posent pas de difficulté quant à leur pérennisation dès lors qu'on a mémorisé le codage utilisé. Cependant, ce sont des documents pauvres contenant du texte sans structure et sans style.
Formats bureautiques :
Il existe un certain nombre de formats utilisés par les suites logicielles bureautiques.
Nous ne citerons que les deux principaux
ODF (Open Document Format)
et OOXML (Office Open XML).
Complément :
Format | Description |
ODF – Open Document Format | Le format ODF (Open Document Format) est un format ouvert basé sur un langage normalisé de définition de schéma de document RELAX NG, lui même construit sur le langage XML. ODF a été standardisé par le consortium OASIS (Organization for the Advancement of Structured Information Standards) en 2005 puis est devenu la norme ISO 26300 en 2006 (Technologies de l'information - Format de document ouvert pour applications de bureau, OpenDocument v1.0). ODF a été retenu par nombre d'organismes publics nationaux et internationaux Plusieurs suites logicielles libres utilisent ce format. C'est le cas de la suite Open Office qui est distribué sous la licence GNU LGPL (Lesser General Public Licence1) qui fonctionne sur plusieurs plates-formes dont Microsoft Windows, Linux, Sun Solaris, ou encore Apple Mac OS. Le code source d'Open Office et sa documentation sont accessibles. D'autres suites bureautiques libres comme Lotus Note Symphony d'IBM ou encore Koffice permettent d'enregistrer des données au format ODF, ce qui renforce encore le poids de ODF dans la perspective de pérennisation des documents. |
OOXML – Office Open XML | Les formats proposés par la suite logicielle bureautique Office de Microsoft (.doc, .xls, .ppt pour les versions anciennes et .docx, .xlsx et .pptx à partir de la version 2007) ont été des formats fermés non publiés jusqu'au début des années 2000. Ces formats, ainsi que la suite logicielle Microsoft Office ont évolué au rythme soutenu d'une version tous les deux ans depuis 1990. Attention Très important ! La compatibilité ascendante, permettant de lire, avec une version récente de la suite Office, un fichier créé avec une version plus ancienne n’est pas assurée au-delà de 10 ans (voir la section 12 de ce module sur les retours d’expérience). Depuis le début des années 2000, la structure des formats, basée sur le langage XML, a été publiée. Ce format est complexe et sa documentation souvent peu explicite. Microsoft a ensuite été moteur dans la normalisation par le consortium ECMA en 2006 du format OOXML (Office Open XML), format qui a été proposé à l'ISO. La normalisation ISO d'OOXML a été obtenue en mars 2008. Par ailleurs, Microsoft avait annoncé son intention d'intégrer les formats ODF et PDF 1.5 à la suite Office 2007. La mise en application du format OOXML ne sera quant à elle effective qu’avec Office 2010. La documentation du format OOXML reste trop volumineuse (6000 pages), à la mesure de la complexité du format. Cette complexité n'est pas un avantage par rapport à la problématique de conservation à long terme. Le coût de développement d’une solution logicielle alternative à celle de Microsoft serait naturellement extrêmement élevé. |
La situation à l'égard des formats des documents bureautiques a évolué de façon spectaculaire au cours des dernières années. ODF parait être actuellement la meilleure base pour l'archivage long terme dès que l'on souhaite archiver des documents sous une forme révisable. Nous ne saurions prédire ce qu'il adviendra dans le futur. Les épisodes passés nous incitent à rester prudents dans ce domaine.
Le format PDF (Portable Document Format) et sa version PDF/A dédiée à l'archivage
Format | Description |
PDF 1.7 | PDF est un format propriétaire publié. Il appartient à la société Adobe. C’est un format conteneur. Il permet de contenir d’autres types de format de données tels que des images couleur compressées en JPEG, du son, de la vidéo, etc. Il existe de nombreux outils pour manipuler ce format. Aussi bien des outils issus du monde du logiciel libre que des outils propriétaires. La politique d’Adobe est de distribuer gratuitement les outils de lecture et de vendre les outils de création. Le fait qu’il soit un format conteneur oblige à vérifier rigoureusement que les fichiers PDF destinés à l’archivage ne contiennent que les éléments attendus et tous les éléments attendus Le format peut inclure des métadonnées au format XMP (Extensible Metadata Platform). En juillet 2008, la version 1.7 de PDF est devenue la norme ISO 32000-1 2008 (Gestion de documents - Format de document portable - Partie 1: PDF 1.7). Cette normalisation ne change rien à la nécessité de prendre les précautions indispensables définies ci-avant. |
PDF/A | La version 1.4 de PDF a été la base sur laquelle a été définie en 2005, la norme ISO 19005-1 : Electronic Document file format for long-term preservation, PDF/A-1. PDF/A comporte un certain nombre de restrictions par rapport à PDF mais il intègre au sein du format tous les éléments nécessaires à la restitution du document et notamment les polices de caractères dont il a besoin. Il s'ensuit une augmentation du volume des fichiers mais en contrepartie, une indépendance de ces fichiers par rapport aux plates-formes sur lesquelles on les utilise. Les restrictions imposées par la norme sont susceptibles d'entraîner une perte d'informations (cas d'utilisation du mode de transparence, existence d'audiogrammes ou de vidéogrammes, ...). Il est donc nécessaire de s'assurer, avant toute conversion de PDF en PDF/A, que le fichier PDF origine ne fait pas appel à des fonctionnalités de PDF non supportées par PDF/A. |
Attention : A savoir
Le format PDF est destiné aux documents non révisables. Il présente l’avantage de pouvoir restituer la présentation originale du document de façon fidèle alors que cette garantie ne peut pas être totalement assurée par les formats bureautiques révisables.
Il ne faut pas pour autant croire qu’un document PDF ne pourra pas être modifié de façon malveillante.
5.3. Formats image et graphiques vectoriels
Il existe deux types de description pour les images :
Les images à description de pixel. Chaque pixel de l'écran est affecté individuellement d'un ou de plusieurs nombres entiers représentant sa luminosité, sa couleur ou son opacité. Ces images sont faciles à mettre en œuvre mais d'une précision limitée si l'on veut rester avec des volumes raisonnables. Il pourra s'agir d'images obtenues par numérisation ou d'images nativement numériques comme c'est le cas pour les photographies. Le nombre de formats de ce type est très important (plusieurs centaines),
Les images à description vectorielle. Les objets de la scène sont décrits de façon mathématique dans un espace orthonormé. La description est alors aussi précise que nécessaire. Il s’agira par exemple de graphiques mathématiques ou statistiques.
Formats d'image à description de pixels
Abréviation | Nom et statut | Principales caractéristiques |
GIF | Graphics Interchange Format Format propriétaire publié Contrainte liée au brevet | Ce format d'image, très utilisé au début du Web, est assez peu performant. Il est frappé d'un brevet détenu par Compuserve. |
TIFF | Tagged Image File Format Format publié Propriété de la société Adobe Pas de licence d’utilisation | C’est un format conteneur : Il définit une structure. Il permet d’inclure les profils ICC ((International Color Consortium) dans le fichier. Le profil ICC permet une gestion des couleurs indépendante des plates-formes et des périphériques. L’image peut être enregistrée selon différents algorithmes de compression selon le choix de l’utilisateur. Les images peuvent aussi être enregistrées sans compression. Le succès de ce format est dû à deux raisons principales :
TIFF est fréquemment utilisé comme format de numérisation. |
JPEG et JPEG2000 | JPEG (Joint Photographic Expert Group) est un format publié et ouvert Norme ISO/IEC IS 10918-1. JPEG2000 est un format publié et ouvert Norme ISO/CEI 15444-1 | La norme JPEG décrit l’algorithme de compression et les informations minimales pour l’utiliser. La raison de son succès est qu’il est largement implémenté en Open Source et qu’il a été adopté par tous les navigateurs Internet. Son défaut est qu’il est un algorithme de compression avec perte (suivant le paramétrage retenu, ce taux de compression peut être très faible). JPEG n’est pas à proprement parler un format de fichier, JPEG s’appuie sur le format JFIF (JPEG File Interchange Format). Avec JPEG2000, la compression est l'une des améliorations importantes de ce format : par rapport au JPEG, à qualité de rendu égale, elle est beaucoup plus importante (surtout valable dans les forts taux de compression). |
JBIG | Joint Bi-level Image experts Group Format publié ouvert. Norme ISO/IEC IS 11544 Limitation au niveau du brevet sur l’algorithme de compression | JBIG utilise un algorithme de compression sans perte. Il peut également être employé pour le codage à niveau de gris et les images de couleur avec un nombre limité de bits par pixel. L'inconvénient est que l'algorithme de compression sur lequel il repose est soumis à un brevet détenu par IBM, Mitsubishi et Lucent. C'est probablement l'une des raisons de sa faible diffusion |
PNG | Portable network Graphics Format publié ouvert Standard du W3C Norme ISO/IEC 15948:2003 | Format performant qui supporte les images en niveaux de gris ou en couleur. Il est accepté par la plupart des navigateurs modernes. |
Formats à description vectorielle
Abréviation | Nom et statut | Principales caractéristiques |
SVG | Scalable Vector Graphics Standard ouvert du W3C | Ce format ouvert et performant est doté de nombreux outils gratuits. Les fichiers au format SVG sont lisibles sur la plupart des navigateurs. Ce format est notamment utilisé en cartographie. |
DWG | Abréviation de DraWinG (Dessin) Format fermé, propriété de la société Autodesk, distributeur du logiciel Autocad | Ce format est très utilisé par les architectes, les géomètres, les géographes, etc. Pourtant, son caractère fermé et non publié ne le rend pas adapté à une conservation à long terme, prisonnière de Autocad |
5.4. Formats audio et vidéo
Les formats audiovisuels et les formats sonores constituent un domaine techniquement complexe. Cependant, les critères d'évaluation des formats par rapport à l’archivage numérique s'appliquent entièrement.
Une distinction systématique sera faite entre la spécification du format qui définit le mode d'encapsulation du contenu, c'est à dire l'organisation de l'information au sein d'un conteneur et l'encodage proprement dit de l'information qui utilisera souvent un algorithme de compression des données visant à réduire leur volume. Nous ne donnons ici que quelques indications générales sur une sélection de formats existants.
Attention : Remarque
Il est fréquent ici de séparer les formats d'archivage, c'est à dire ceux qui permettent de conserver toute l'information utile, des formats de diffusion correspondant à un usage donné de ces informations.
Formats Audio
Les formats audio sont des formats « enveloppe », appelés aussi format « conteneur ». Au sein de ces formats, l’information audio peut être codée et compressée de différentes manières. Pour définir entièrement la représentation audio, il convient donc à chaque fois de préciser le type de codage qui sera utilisé.
Des recommandations sur les formats sonores sont émises par l'IASA (International Association of Sound and Audiovisual Archives). Il n’y a pas malheureusement pas d’équivalent pour la vidéo.
Nous présentons ici une courte synthèse des principaux formats.
Abréviation | Nom et statut | Principales caractéristiques |
Wave | Format publié, propriété de Microsoft | Format très répandu. C'est l'encodage PCM (Pulse code modulation), encodage sans compression, qui est le plus utilisé, notamment pour le « disque compact ». Il peut aussi recevoir d'autres encodages comme MP3. |
AIFF | Audio Interchange File Format Format publié, propriété d’Apple | Format de fichier audio développé par Apple et utilisé sur les ordinateurs Macintosh. Les données sont codées en PCM big-endian sans compression |
MP3 | MPEG Audio Layer 3 Algorithme de compression normalisé (ISO/CEI IS 11172-3 et ISO/CEI IS 13818-3) mais soumis à des redevances | Format audio doté d’un algorithme de compression capable de réduire très fortement la quantité de données nécessaire pour restituer de l'audio avec une perte de qualité sonore acceptable pour l'oreille humaine. La mise en œuvre de l'encodeur est dans le champ d'un brevet détenu conjointement par un ensemble de sociétés. |
OGG | Format publié et ouvert | Format ouvert promu par la fondation Xiph.org. Ce format doit être utilisé avec le codage Vorbis, défini également par cette fondation. Vorbis est un algorithme de compression et de décompression audio numérique, ouvert et libre, plus performant en termes de qualité et taux de compression que le format MP3. |
Formats Vidéo
Comme pour les formats audio, on distinguera les formats « conteneur » des algorithmes de codage et décodage des données vidéo. Ces algorithmes sont appelés « codec » (pour codage-décodage).
Les données vidéo font l’objet d’une organisation complexe et le choix d’un format pour la conservation mérite systématiquement une analyse spécifique. Nous proposons ici quelques éléments comme une base de réflexion préalable et non exhaustive.
Abréviation | Nom et statut | Principales caractéristiques |
MPEG | Moving Pictures Expert Group Format ouvert Ensemble de normes ISO | Ce format correspond à une famille de normes ISO : MPEG-1 : les premiers films de l'Internet (ISO/CEI 11172-1 à 5) MPEG-2 : la télévision numérique actuelle MPEG-4 : la Télévision Numérique Terrestre MPEG-7, MPEG-21 : futures normes de composition de scènes, très riches en métadonnées. La plus performante actuellement est MPEG-4 qu’il convient d’utiliser avec un codage nommé H264. H.264, ou MPEG-4 AVC (Advanced Video Coding), est une norme de codage vidéo développée conjointement par l’UIT (Union Internationale des télécommunications) et l’ISO. La norme UIT-T H.264 et la norme MPEG-4, Part 10 (ISO/CEI 14496-10) sont techniquement identiques, |
MJPEG2000 | Motion JPEG2000 Partie 3 de la norme JPEG2000 Format publié et ouvert Norme ISO/CEI 15444-1 | Chaque image de la vidéo est codée au format JPEG 2000. Une vidéo MJPEG 2000 n'est qu'une simple concaténation d’images au format JPEG 2000, incluant quelques modifications sur les en-têtes. Ce format est bien adapté pour l’indexation ou le montage vidéo. Il bénéficie de toutes les propriétés de JPEG 2000 en particulier le codage sans perte. |
OGG | Format publié et ouvert | Format ouvert promu par la fondation Xiph.org. Ce format doit être utilisé avec le codage Theora. Il s’agit du mode de compression vidéo libre et sans brevets promu par la même fondation. |
Matroska (extension mkv) | (Матрёшка ou Poupée russe en russe) Format ouvert | Matroska est un format qui peut regrouper au sein d'un même fichier plusieurs pistes vidéo et audio ainsi que des sous-titres et des chapitres. On peut, comme pour MPEG 4, recommander le codage H264. |
AVI | Audio Video Interleave Format propriétaire (Microsoft) Format conteneur publié | Ce conteneur peut accueillir n'importe quel codec. En mode non comprimé, les fichiers sont rapidement très volumineux. |
WMV | Windows Media Video Format propriétaire (Microsoft) | Peu recommandé pour l'archivage |
5.5. Formats des fichiers produits par les applications « maison »
Jusqu’à maintenant, nous avons essentiellement parlé des formats de représentation ouverts ou propriétaires, qui sont disponibles sur le marché et pour lesquels il existe des logiciels d’écriture, de lecture, de conversion, etc.
De nombreuses entreprises ou institutions développent leurs propres applications logicielles afin de répondre à leurs besoins. Les données numériques produites par ces applications ont donc un format propre à ces applications.
Au lieu de s’appuyer sur une documentation descriptive du format disponible dans un organisme de normalisation ou chez son propriétaire, il sera nécessaire ici, de réaliser sa propre documentation descriptive des données. Cette description devra impérativement :
être complète,
être précise,
avoir été validée de façon rigoureuse.
Attention : Essentiel
La validité et la complétude de cette description du format des données issues de l'application « maison » sont des éléments déterminants pour l'archivage des données issues de cette application. Toute non-conformité de cette documentation entraîne immédiatement un risque majeur de perte ou d'interprétation fausse de l'information archivée.
La présentation des méthodes de description des formats de données sort du cadre du présent cours mais il est bon de savoir :
que des méthodes de description formelle existent. Ces méthodes permettent de produire une description du format qui sera interprétable aussi bien par des personnes que par des logiciels,
que des outils permettent alors de s’assurer de la cohérence entre un document numérique et la description formelle de son format.