Section 3 - Les multiples visages du document numérique

Chapitre 2. Notions de base sur le document numérique

Aujourd’hui, un ordinateur, c’est devenu banal. Que ce soit pour le travail ou une utilisation plus ludique, la plupart des gens ont déjà eu affaire à cet outil technologique. Beaucoup l’utilisent même sur une base quotidienne. Mais connaît-on vraiment cet outil dont on ne saurait plus ce passer ? Comment fonctionne-t-il ?

L’ordinateur est le nerf de notre société de l’information. Mais connaît-on vraiment cet outil si polyvalent et si précieux qu’on ne saurait plus s’en passer ?

2.1 - Le système binaire

Entre humains, l’information peut être transmise de différentes façons. Nous utilisons, pour ce faire, différentes formes de « langages », comme la parole, l’écrit et même le geste. Pour échanger de l’information avec un ordinateur, ces mêmes formes de langages ne suffisent pas : l’information que nous désirons transmettre doit être codée de manière à ce qu'elle soit comprise par l’ordinateur. Car l’ordinateur parle son propre langage, basé sur ce que l’on appelle « le système binaire ».

À la fin des années 30, Claude Shannon démontra qu’une machine pouvait manipuler de l’information. Comment ? En exécutant des opérations logiques à l'aide de « contacteurs » fermés pour « vrai » et ouverts pour « faux », associant à « vrai » le nombre « 1 » et à « faux » le nombre « 0 ». Pensez à un interrupteur ouvert ou éteint. En effet, le signal de base d'un ordinateur est matérialisé par l'absence ou non d'un courant électrique pendant un laps de temps donné :

  • si vous faites passer un courant électrique dans le fil de votre radio pendant une seconde, celle-ci s’allumera; on peut traduire cette action par le chiffre 1,

  • si vous ne faites pas passer de courant électrique dans le fil pendant le même laps de temps, la radio demeure éteinte et cette information sera traduite par le chiffre 0.

C’est là la base du langage avec lequel on stocke et utilise toute l'information contenue dans un ordinateur.

2.2 - Bits et octets

Le bit[1] (pour « binary digit ») est la plus petite unité d’information manipulable par un ordinateur. Un bit vient préciser si le courant passe ou non. Ainsi, il ne peut avoir que la valeur de 0 ou de 1.

Un bit tout seul ne signifie pas grand chose, mais groupés par huit, les bits forment des octets (« bytes » en anglais) qui sont à même de représenter différentes informations[2] comme les lettres de l’alphabet et les chiffres.

Concrètement :

  • avec un bit on peut représenter deux états différents : 0 ou 1’

  • avec deux bits on peut représenter quatre états différents (2x2) : 00 01 10 11,

  • et ainsi de suite jusqu’à un octet (un bloc de huit bits) qui peut représenter 256 états différents : (2x2x2x2 x2x2x2x2) = 256.

On utilisera également les bits pour représenter des nombres entiers sur 2 ou 4 octets ou encore des nombres décimaux sur 4 ou 8 et parfois 16 octets.

2.3 - Unités et ordres de grandeur

Il est important et utile de connaître les principales unités de mesure de volume de données numériques. Il est tout aussi important de disposer de références concrètes quant à ce que chacune de ces unités de mesure permet de stocker.

1 kilooctet (Ko) = 210 octets = 1024 octets : une photographie basse résolution.

1 mégaoctet (Mo) = 220 octets = 1024 ko = 1 048 576 octets.

2 mégaoctets : une photographie haute résolution,

5 mégaoctets : les œuvres complètes de Shakespeare,

10 mégaoctets : une minute de son Hi-fi,

100 mégaoctets : 1 mètre de livres sur une étagère,

500 mégaoctets : 1 CD-ROM.

1 gigaoctet (Go) = 230 octets = 1024 Mo = 1 073 741 824 octets.

1 gigaoctet : une camionnette pleine de livres,

20 gigaoctets : une collection des œuvres de Beethoven.

1 téraoctet (To) = 240 octets = 1024 Go = 1 099 511 627 776 octets.

10 téraoctets: l’ensemble des documents imprimés de la Bibliothèque du Congrès américain,

400 téraoctets: la base de données du centre de Données climatiques américain.

1 pétaoctet (Po) = 250 octets = 1024 To = 1 125 899 906 842 624 octets.

1 pétaoctet : 3 années d’images d’observation de la Terre par EOS (Earth Observation Satellite),

2 pétaoctets : l’ensemble des bibliothèques universitaires américaines,

200 pétaoctets : la totalité des documents imprimés sur la planète.

1 exaoctet (Eo) = 260 octets = 1024 Po = 1 152 921 504 606 846 976 octets.

5 exaoctets : volume total de l’information générée sur la planète en 2002,

5 exaoctets : tous les mots prononcés par les hommes depuis qu'ils existent.

Les éléments de comparaison proposés dans cette page proviennent d'un rapport intitulé "How much information", publié et mis en ligne en 2003 par l'université de Berkeley.

2.4- La représentation hexadécimale

L'ordinateur manipule des bits, le plus souvent organisés en octets.

Dans la suite de ce cours, nous serons amenés à regarder et à comprendre la structure interne d'un document numérique. Ce document est constitué d'une ou plusieurs séries de bits. Une série de bits peut avoir une longueur quelconque et se présente sous une forme non compréhensible

Exempleexemple ci-dessous

0110111101110011011010000110111101110000001000000100010101101100011001010110110101100101011011100111010001110011001000000011001100101110001100000010000001001101011000010110001101101001011011100111010001101111011100110110100000000000001100100011000000110000..................

Cette représentation binaire étant assez peu pratique à manipuler pour l'Homme, nous utiliserons la représentation dite hexadécimale construite sur un système à base 16, compatible avec le système binaire (à base 2) des ordinateurs, mais beaucoup plus concise.

« La représentation hexadécimale ou représentation à base 16 est une notation condensée des nombres binaires. En remarquant que 24 = 16, on peut représenter la moitié d’un octet binaire à l'aide de l'un des 16 symboles du système hexadécimal. Dans ce système les dix premiers symboles sont identiques à ceux utilisés dans le système décimal : 0, 1, 2, 3, 4, 5, 6, 7, 8 et 9, et les six derniers correspondent aux premières lettres de l'alphabet latin : A, B, C, D, E et F, lesquelles valent respectivement : 10, 11, 12, 13, 14 et 15 en base 10. »

La représentation hexadécimale des bits

hexadécimal

binaire

hexadécimal

binaire

0

0000

8

1001

1

0001

9

1000

2

0010

A

1010

3

0011

B

1011

4

0100

C

1100

5

0101

D

1101

6

0110

E

1110

7

0111

F

1111

Ainsi, il sera plus simple de représenter la lettre Z par le code hexadécimal "5A" que par l'octet "1011010".

Nous réutiliserons la représentation hexadécimale dans plusieurs parties du présent module.

2.5 - Premières notions de codage

Le codage consiste à établir une correspondance entre un élément ayant un premier niveau de sémantique et une représentation de cet élément dans un système conventionnel.

Ainsi la représentation du phonème « A » de notre alphabet latin par le symbole graphique « A » que nous utilisons constitue un codage qui est le plus souvent perçu comme implicite.

Exemple : Le système d'écriture tactile Braille standard

Dans ce système, un caractère est représenté par la combinaison de 1 à 6 points en relief, disposés sur une matrice de 2 points de large sur 3 points de haut.

Titre image : La représentation des lettres A et B dans

l’alphabet Braille

Braille
La représentation des lettres A et B dans l'alphabet Morse

Exemple

L’alphabet Morse est un autre type de codage :

L'alphabet morse est quant à lui, un code permettant de transmettre un texte à l'aide de séries d'impulsions courtes et longues. Ce codage des caractères assigne à chaque lettre, chiffre et signe de ponctuation une combinaison unique de signaux intermittents. C'est un précurseur des communications numériques qui n'est pratiquement plus utilisé aujourd'hui. Voici la représentation des lettres A et B dans cet alphabet.

Il paraîtra évident, pour un archiviste qui doit conserver des documents en code Braille ou en code Morse, de conserver en même temps la description du code en question. Dans la représentation binaire, c'est le même principe.

Représentation A et B

Représentation normalisée des lettres A et B sous forme binaire ainsi que la représentation hexadécimale correspondante.

2.6 - Données, information et documents

Afin d'établir une terminologie commune au présent module, nous proposons quelques définitions essentielles. Les définitions des termes "Information[2]" et "Données[3]" sont celles de la norme ISO 14721: 2003 "Modèle de référence pour un système ouvert d'archivage", norme essentielle pour l'archivage des documents numériques et dont nous donnerons les caractéristiques principales dans la partie 5 de ce module, dédiée en majeure partie à ce Modèle.

Un texte sur une feuille de papier, un texte écrit en braille, un fichier issu d'un logiciel de bureautique, une image, un tableau de chiffres, un graphique sont des conteneurs d’information, c'est-à-dire des données : lorsqu’ils sont transmis à un individu, celui-ci pourra, sous certaines conditions, en dériver une information qui modifiera un capital de connaissances personnel ou collectif.

La dérivation de l'information à partir d'une donnée pourra imposer aussi le recours à un appareil.

Ce qu'il importe de retenir ici, c'est que l'information est indépendante de la manière dont elle sera représentée par des données.

Nous parlerons également souvent de Document[4].

Définition

Information [2] : L'information est définie comme une connaissance pouvant être échangée. En pratique, l'information est donc un élément de connaissance susceptible d'être codé pour être conservé, traité ou communiqué.

Donnée [3] : Représentation formalisée de l'information, adaptée à la communication, l'interprétation ou le traitement. Par exemple : une séquence de bits, un tableau de nombres, les caractères d'une page, un enregistrement audio, etc. Une donnée est donc un conteneur porteur d'une information ou d'un fragment d'information.

Document [4] : Tout écrit ou enregistrement considéré comme une unité documentaire (ISO 15489-1 "Records Management").

Le document est donc un « ensemble d'informations enregistrées », considéré comme une unité qui pourra être utilisable à des fins de consultation ou comme preuve.

Document numérique [5] : C’est un document constitué sous forme numérique, soit de façon native/initiale, soit par numérisation de document non numérique.

Dans le domaine du numérique, l'association entre le support et l'information qu'il porte perd son sens. Le document pourra au cours du temps être stocké sur des supports différents sans pour autant que cela ne change sa nature ni n'altère son intégrité.

2.7 - Un document numérique très simple

Création d'un tout petit document [4] : Nous allons regarder de plus près ce que peut contenir un document numérique très simple. Créons, pour cela, à l'aide d'un éditeur de texte disponible sur tous les ordinateurs (bloc-notes, textedit...), un fichier contenant simplement la phrase « Les feuilles mortes » (1), titre du célèbre poème de Jacques Prévert.

Enregistrons ce fichier sur un répertoire de notre ordinateur. Le nom du fichier sera suivi d'un point et de l'extension "txt" signifiant qu'il s'agit d'un fichier de type texte intégral. (2)

Du point de vue de l'information qu'il contient, ce fichier constitue un document très élémentaire.

Précisons en outre qu'en matière de codage, l'espace entre deux mots est considéré comme un caractère à part entière : le caractère "espace" est porteur d'une information particulière, à savoir qu'il faut insérer un espace pour séparer deux mots. En prenant cette considération en compte, nous pouvons compter que notre fichier contient 19 caractères : 17 caractères alphabétiques et deux caractères "espace".

En pointant avec la souris sur le nom du fichier et en appuyant sur le bouton droit, nous aurons accès à un menu dit contextuel nous permettant d'accéder aux propriétés du fichier. Ces propriétés sont résumées dans une fenêtre qui s'ouvre lorsqu'on pointe sur "propriétés" et qu'on appuie sur le bouton gauche de la souris. (3)

Dans les propriétés, nous pouvons observer que la taille du fichier est de 19 octets, ce qui est très intéressant car cela nous montre que ce fichier n'est qu'une simple suite d'octets, chaque octet correspondant à un caractère.

Il est difficile d'imaginer plus simple.

1 - les feuilles mortes
2.txt
3- Propriétés

ComplémentDécortiquons notre petit document

Le recours à un éditeur hexadécimal nous permet de voir ce que le fichier contient réellement (et pas seulement ce que l'éditeur de texte nous avait montré). Cet éditeur hexadécimal nous permet de voir en quoi consiste réellement la suite des octets contenus dans le fichier :

4c 65 73 20 66 65 75 69 6c 6c 65 73 20 6d 6f 72 74 65 73 (en représentation hexadécimale)

Ou encore :

01001100 01100101 01110011 00100000 01100110 01100101 01110101 01101001 01101100 01101100 01100101 01110011 00100000 01101101 01101111 01110010 01110100 01100101 01110011 (en représentation binaire)

Sachant que dans le codage normalisé utilisé, 4c correspond à la lettre "L" (majuscule), 65 correspond à la lettre "e" minuscule, etc., nous pouvons ainsi décortiquer le contenu de notre petit document et constater qu'il n'y a rien d'obscur ni de magique dans tout cela.

Remarque

Nous avons utilisé pour cela, l'éditeur hexadécimal gratuit « Hex editor neo » disponible sur Internet et que vous pouvez installer facilement sur votre ordinateur.

  1. bit

    Le bit (pour "bynari digit") est la plus petite unité d'information manipulable par un ordinateur. Un bit vient préciser si le courant passe ou non. Ainsi, il ne peut avoir que la valeur de 0 ou de 1.

  2. Information

    L'information est définie comme une connaissance pouvant être échangée. En pratique, l'information est donc un élément de connaissance susceptible d'être codé pour être conservé, traité ou communiqué.

  3. Donnée

    Représentation formalisée de l'information, adaptée à la communication, l'interprétation ou le traitement. Par exemple : une séquence de bits, un tableau de nombres, les caractères d'une page, un enregistrement audio, etc. Une donnée est donc un conteneur porteur d'une information ou d'un fragment d'information (glossaire du modèle de référence OAIS).

  4. Document

    Tout écrit ou enregistrement considéré comme une unité documentaire (ISO 15489-1 "Records Management").

    Le document est donc un « ensemble d'informations enregistrées », considéré comme une unité qui pourra être utilisable à des fins de consultation ou comme preuve.

    Dans le domaine du numérique, l'association entre le support et l'information qu'il porte perd son sens. Le document pourra au cours du temps être stocké sur des supports différents sans pour autant que cela ne change sa nature ni n'altère son intégrité.

  5. Document numérique

    Tout écrit ou enregistrement considéré comme une unité documentaire (ISO 15489-1 "Records Management").

    Le document est donc un « ensemble d'informations enregistrées », considéré comme une unité qui pourra être utilisable à des fins de consultation ou comme preuve.

    Dans le domaine du numérique, l'association entre le support et l'information qu'il porte perd son sens. Le document pourra au cours du temps être stocké sur des supports différents sans pour autant que cela ne change sa nature ni n'altère son intégrité.

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimerRéalisé avec Scenari (nouvelle fenêtre)