2.1.2. Les fichiers de traitement de texte à proprement parler

Les fichiers de traitement de texte à proprement parler, produits à partir de logiciels de traitement de texte (ex. Microsoft Word, OpenOffice Writer, etc.). Ces fichiers ne contiennent pas seulement du texte, mais peuvent aussi incorporer d’autres types de contenus (images, son, vidéo, carte, etc.). Les formats de fichiers les plus récents de cette catégorie sont en fait des formats conteneurs de type ZIP intégrant de multiples fichiers, notamment des fichiers XML compressés (il est possible de le constater en changeant l’extension des fichiers correspondants).

La préservation à long terme de ces fichiers présente plusieurs difficultés

  • il peut ne plus exister de logiciel pour lire les fichiers concernés. Les versions récentesdes logiciels de traitement de texte ne permettent pas systématiquement de relire des versions obsolètes des formats de fichiers concernés. Bien souvent, les résultats sont souvent meilleurs avec les logiciels ouverts qu’avec les logiciels propriétaires, les premiers prenant en charge les versions obsolètes des formats de fichiers. Par ailleurs, lire avec un logiciel de traitement de texte exploité sous Windows un fichier créé avec un logiciel de traitement de texte exploité sous Mac n’est pas évident ;

  • les métadonnées embarquées dans les fichiers eux-mêmes (accessibles depuis les propriétés) ne sont pas nécessairement fiables. Les dates embarquées (notamment la date de dernière modification) peuvent par exemple correspondre à des événements techniques (enregistrement sur un espace de stockage) et non à des événements « métier » ;

  • les fichiers peuvent contenir des données dynamiques (par exemple des dates) qui se mettent à jour automatiquement à chaque lecture du fichier ;

  • des erreurs d’enregistrement ont pu intervenir, notamment en cas de téléchargement des fichiers depuis une source externe ;

  • tous les logiciels ne prennent pas en compte de la même manière l’encodage des caractères ;

  • les liens vers des ressources extérieures au fichier (adresse d’un site internet par exemple) peuvent être cassés suite à la disparition de la ressource ou à son changement de localisation ;

  • des dispositifs de sécurité (saisie de mots de passe, chiffrement) peuvent empêcher l’accès au contenu des fichiers.

Stratégies et solutions à considérer/adopter

Plusieurs stratégies sont possibles pour conserver ces formats de fichiers :

  • maintenir le fichier dans son format d’origine et identifier un logiciel permettant de lire les versions actuelles et les versions antérieures du format :

    • cette solution est la meilleure pour les fichiers plein texte. Pour ceux de traitement de texte, elle est acceptable si les fichiers sont aux formats ODT ou DOCX ;

    • cette solution est financièrement avantageuse, mais la lecture dans un logiciel d’une version plus récente que celui ayant servi à créer le fichier peut générer des changements d’apparence, de mise en page ou de pagination ;

  • convertir le fichier dans un format d’une version plus récente ou l’imprimer au format PDF. Cette stratégie, valable pour la seconde catégorie, a le mérite de faciliter la lecture par les logiciels de lecture les plus récents, mais, comme toute opération de migration de formats, elle est consommatrice de ressources et peut porter atteinte aux propriétés essentielles du fichier d’origine ;

  • recourir à l’émulation, notamment pour les formats de fichiers les plus anciens. Cette solution, comme cela a été expliqué dans la section 3 de ce module, nécessite cependant de mettre en œuvre une plateforme technique complexe et d’avoir le droit d’utiliser les logiciels anciens. 

Conseil

Comme pour tous les autres formats de fichiers, la stratégie retenue doit dépendre de la finalité de la préservation et des propriétés et fonctionnalités des documents représentés par les fichiers qu’il convient de préserver.