12.1. Caractéristiques des enregistrements sonores et audiovisuels
Les enregistrements sonores et audiovisuels sur support sont omniprésents aujourd’hui, qu’ils aient nativement été produits sous cette forme ou soient le produit de la numérisation de documents créés sous forme analogique.
Les enregistrements sonores et audiovisuels sur support numérique sont structurés de deux manières
sous la forme de fichiers (file-based) : il existe des centaines de formats de fichiers possibles, ouverts ou propriétaires, dépendants ou non d’environnements matériels et logiciels spécifiques ;
sous la forme de flux (stream-based) : les enregistrements sont de plus en plus souvent créés à la volée et diffusés directement sur des plateformes de diffusion comme YouTube et Instagram. Ces enregistrements n’existent que sous la forme d’un flux de données et n’aboutissent pas à la création d’un fichier au sens traditionnel du terme. Même si une version sous forme de fichier existe, elle n’est pas nécessairement facilement disponible.
Caractéristiques des formats de fichiers correspondant à des enregistrements sonores et audiovisuels
Les formats de fichiers correspondant à des enregistrements sonores et audiovisuels présentent un certain nombre de caractéristiques qui nécessitent d’être explicitées :
il s’agit de formats conteneur (ex. le format WMV de Windows Media Player) qui non seulement embarquent des composants différents dont chacun doit être pris en compte (flux vidéo, flux audio, flux audios supplémentaires pour les doublages avec une piste par langue ou des sous-titres), mais aussi permettent d’identifier les données, de comprendre les types de flux de données présents et les informations à leur sujet, de stocker des données temporelles ou des métadonnées d’identification. Les conteneurs déterminent l’extension appropriée pour le fichier ;
les flux de données audio et vidéo sont encodés et décodés au moyen d’un codec, qui peut utiliser une compression avec ou sans perte pour mettre en œuvre une transmission ou un stockage ;
ils sont constitués de trames, correspondant à une série d’images pour la vidéo – chaque trame correspond à une image affichée pendant une durée déterminée – et aux échantillons audio pris pendant l’intervalle de la trame vidéo ;
Pour ce qui est des flux vidéos...
chaque image est composée d’une matrice de pixels plus ou moins fine (la résolution) ;
la couleur est une composante essentielle du flux vidéo. Différents espaces colorimétriques sont utilisés dans les vidéos, en fonction de leur source et des migrations qui ont eu lieu. Les espaces colorimétriques les plus courants pour les documents audiovisuels sont le Rouge-Vert-Bleu (RVB), le YUV et le YCbCr ;
la profondeur de bits fait référence à la quantité d’information stockée pour les images qui apparaissent à l’écran. La profondeur généralement recommandée pour la vidéo est de 8 bits, ce qui signifie qu’il y a 256 couleurs possibles pour un pixel particulier ;
les fichiers vidéos sont également caractérisés par leur fréquence d’images qui déterminent la vitesse à laquelle les choses se déroulent. Pour les enregistrements sur support numérique, les fréquences sont variées ;
les rapports d’aspect déterminent la largeur et la hauteur d’une image et la façon dont elle est affichée. Les plus connus sont le 4:3, utilisé dans la télévision traditionnelle à définition standard, le 16:9, utilisé par la télévision haute définition, le 21:9 utilisé dans le cinéma moderne et le 19:10 utilisé dans les fils IMAX. Avec le développement des réseaux sociaux, les formats carré (1:1) et portrait (9:16) sont de plus en plus populaires ;
l’entrelacement permet d’optimiser la perception du mouvement dans un matériel vidéo avec perte. Il peut être repéré quand des lignes irrégulières apparaissent aux endroits où il y a du mouvement. L’entrelacement a été fréquent quand les signaux vidéo devaient être envoyés plus rapidement que ne le permettait le transfert de chaque image complète. Cette pratique n’est plus utilisée dans la vidéo contemporaine où l’optimisation de la bande passante est réalisée autrement ;
Les timecodes attribuent un numéro à chaque image, selon le format heures, minutes, secondes et images (HH:MM:SS:FF). Les timecodes peuvent être intégrés dans les images elles-mêmes, et ils apparaissent donc à l’écran pour chaque image. Ils peuvent sinon être soit stockés dans le fichier, soit être inscrits dans une piste séparée. Les formats les plus importants de timecodes sont les suivants :
Burnt-In Time Code (BITC) : les données stockées dans la trame de l'image et ne peuvent pas être supprimées.
Linear Timecode (LTC) : les données sont sur une piste audio séparée.
Vertical Interval Time Code (VITC) : les données sont stockées dans l'intervalle de suppression verticale d'une piste vidéo. Cela signifie que les données sont stockées dans le flux vidéo, sur une seule ligne de balayage non visible.
Pour ce qui est des flux audios
les échantillons correspondent à des valeurs à un moment précis dans le temps, sachant que l’audio est souvent décrit par son taux d’échantillonnage, généralement exprimé en échantillons (en Hertz – Hz ou en cycles par seconde) par seconde ;
les flux audio peuvent englober plusieurs canaux : les fichiers audio mono comprennent un ou 2 canaux avec le même contenu ; les fichiers stéréo contiennent 2 canaux distincts ; le son surround tente de créer une expérience auditive.