2.3.3. Limites de l'extraction

Points d’attention :

  • tous les formats de fichiers ne disposent pas d’outils d’extraction de métadonnées ;

  • les outils génériques sont peu nombreux. Il est donc souvent nécessaire d’utiliser plusieurs outils pour couvrir le maximum de formats de fichiers ;

  • l’extraction de métadonnées est une opération technique qui prend du temps (jusqu’à 10 heures pour extraire les métadonnées de 100 000 fichiers avec un outil comme PreScan, par exemple) ;

  • les outils d’extraction de métadonnées peuvent renvoyer des messages d’erreur difficilement compréhensibles, car très techniques ;

  • le nombre de métadonnées extraites automatiquement peut être très important et celles-ci peuvent n’avoir aucun intérêt pour la préservation numérique (ex. numéro de série d’un appareil de prise de vue photographique). Il est souvent nécessaire d’opérer une sélection des métadonnées extraites ;

  • la manière dont les métadonnées extraites sont formatées est souvent propre à chaque outil. Leur interprétation peut s’avérer délicate ;

  • la valeur et la qualité des métadonnées extraites dépendent de la manière dont celles-ci ont été générées ou produites dans le fichier :

    • à titre d’exemple, dans un fichier bureautique, la métadonnée Author peut correspondre non seulement à l’auteur du document au sens diplomatique (la personne qui valide le document) mais aussi à l’auteur du modèle de document (celui qui a conçu le formulaire, par exemple). Il peut être renseigné nommément (nom, prénom) ou sous la forme de l’identifiant enregistré dans un annuaire (ce qui ne garantit pas une identification précise de la personne concernée) ;

    • les métadonnées d’ordre temporel (date de création du fichier, par exemple) nécessitent, pour être interprétées et interprétables, de savoir quel référentiel de temps est utilisé par le système de production (temps universel, temps observé sur le lieu de création du fichier) ;

  • il convient de savoir comment exploiter ces métadonnées extraites. La meilleure solution consiste à les réinjecter dans les outils de recherche du service d’archives.