Kitabı oku: «Informationswissenschaft: Theorie, Methode und Praxis / Sciences de l'information: théorie, méthode et pratique», sayfa 4
Avantage et désavantages
Comme le profil de métadonnées se décline en deux types (GEVER ou FILES), l’évaluation des métadonnées n’est pas une tâche requise. Ainsi, elle n’implique pas l’engagement de ressources humaines et financières qui peuvent donc être utilisées pour d’autres activités et projets du centre d’archives. Découlant de cette constatation, ce profil de métadonnées tend à permettre une plus grande automatisation du processus de versement des documents, sans devoir systématiquement analyser et évaluer les métadonnées générées par les divers logiciels à l’origine des données électroniques à pérenniser. Cet avantage s’adapte bien à l’administration fédérale, dont le nombre de logiciels est relativement limité. Par exemple, ce sont Fabasoft et GEVER Office qui sont principalement utilisés à l’heure actuelle pour la gestion des documents.
L’inconvénient majeur de ce standard se rapporte à son orientation qui est très, voire trop, tournée sur les besoins de l’administration fédérale. Il peut représenter un frein certain à son utilisation dans d’autres organismes publics (cantons ou communes) et privés (entreprises). A titre d’exemple, mentionnons la présence de notions spécifiques, comme GEVER, ou de contraintes issues de l’environnement propre aux Archives fédérales suisses, telle l’absence d’un champ de métadonnée pour la cote. Le premier exemple se réfère au projet de mise en œuvre du Records Management au sein de l’administration fédérale. Quant au second, il tend à montrer que le profil de métadonnées n’est pas suffisamment neutre et générique pour d’autres institutions: le champ cote peut être très utile pour des institutions faisant de la numérisation de documents qu’elles conservent et qui portent déjà une cote. Certes, il est possible d’utiliser le champ de métadonnée «Données supplémentaires», mais il s’agit d’une solution «fourre-tout». Par analogie à l’évaluation des plans de classement, les positions «Divers» contiennent tout ce qui ne peut pas être classé ailleurs et ne sont pas conservées sur le long terme. Les bonnes pratiques tendent à éviter le plus possible leur utilisation, ce qui devrait aussi se faire pour les métadonnées et le champ «Données supplémentaires».
L’absence d’information de représentation peut poser un problème pour la conservation des données électroniques et pour les mesures de préservation. Le paquet d’informations n’est dès lors plus indépendant de l’environnement logiciel. En effet, cette information peut exister dans le logiciel de gestion de la plateforme d’archivage, mais elle n’est, dans ce cas, pas directement rattachée au fichier concerné.
Ne s’appuyant pas sur des standards de métadonnées connus internationalement, ce profil de métadonnées peut engendrer des coûts supplémentaires lors de l’acquisition du logiciel de gestion de la plateforme d’archivage numérique, dont les fournisseurs sont plutôt étrangers à la Suisse. L’un des tests proposé par ce genre d’application consiste à garantir la conformité du fichier contenant les métadonnées. Il faut dès lors le personnaliser entièrement selon ce profil de métadonnées.
Matterhorn METS17 Profile
Ce profil de métadonnées a été élaboré en collaboration par les Archives de l’Etat du Valais et par l’entreprise Docuteam GmbH. Il s’appuie sur les deux standards internationaux et principaux de l’archivage numérique: METS et PREMIS, 18 qui sont créés et maintenus par la Bibliothèque du Congrès (Etats-Unis). De plus, il combine les trois normes du Conseil international des archives: ISAD(G)19 pour la description des documents d’archives, ISAAR(CPF)20 pour les producteurs et ISDF21 pour les fonctions. En novembre 2012, le profil de métadonnées a été publié par la Bibliothèque du Congrès sur son site internet. Il est devenu «the first profile that describes the use of EAD within METS in any detail», 22 c’est-à-dire qu’il est le premier profil à contenir la description des documents d’archives sous la forme de la description archivistique encodée (Encoded Archival Description, EAD).
Le Matterhorn METS Profile est un profil générique qui s’adapte à différentes utilisations. Il répond à une exigence émise lors de sa création, puisque la plateforme d’archivage des Archives de l’Etat du Valais sert également à la Médiathèque Valais et aux Musées cantonaux.23 Ce profil représente donc le premier niveau d’une hiérarchie en comportant quatre au total.
D’abord, le profil générique contient les métadonnées communes à chaque paquet d’informations.
Vient ensuite le profil utilisé par chaque institution. La différence majeure à ce niveau correspond au standard utilisé pour la description: il s’agit de l’EAD pour les Archives de l’Etat du Valais et du Dublin Core pour la Médiathèque Valais et les Musées cantonaux.

Figure 3: Structure en quatre niveaux d’un SIP contenant des documents créés lors du processus de décision du Conseil d’Etat
Le niveau suivant se détermine par le processus à l’origine des documents (exemples: processus décisionnel, de numérisation, etc.).
Enfin, le profil d’implémentation est constitué des métadonnées définitives du paquet d’informations versé et archivé. Il est adapté après une évaluation des métadonnées générées par le logiciel à l’origine des documents.
La figure 3 montre un exemple concret d’un paquet numérique contenant des documents créés lors du processus décisionnel du Conseil d’Etat.
Description du profil de métadonnées
La documentation du Matterhorn METS Profile se résume à l’heure actuelle au schéma XML disponible sur le site internet de la Bibliothèque du Congrès. Sur demande aux Archives de l’Etat du Valais ou à Docuteam GmbH, une carte de métadonnées est disponible.
Comme auparavant, le schéma XML est laissé de côté afin de pouvoir se concentrer sur sa représentation graphique qu’est la carte de métadonnées. Ce document est construit à l’aide de classes UML détaillées: les attributs, sous la forme de nom des métadonnées, sont mentionnés. Bien évidemment, les relations entre les différentes classes sont également indiquées, mais ne seront pas toutes commentées dans les pages qui suivent.
Le standard METS sert de container aux métadonnées. Sa structure se compose de cinq parties: l’en-tête METS, la section des fichiers et la carte de structure dont le contenu correspond à l’information d’empaquetage d’OAIS, la section des métadonnées descriptives qui représente l’information de description et la section des métadonnées administratives où se trouve l’information de pérennisation.

Figure 4: Carte de métadonnées du Matterhorn METS Profile24
Graphiquement parlant, ce container METS est lié à l’interface entre le producteur et les archives. Cette information n’est pas une catégorie d’informations en tant que telle, mais un outil nécessaire pour régler les versements de documents. Il s’agit du protocole de versement (submission agreement) qui documente la provenance des données électroniques et les modalités du versement. Dans ce document est, entre autres, défini le profil de métadonnées à employer.
L’information de pérennisation (le rectangle au centre de la figure 4) est encodée en PREMIS. Ce standard international propose un dictionnaire de données nécessaires au bon fonctionnement d’une infrastructure pour l’archivage numérique. Sa conception envisage que les métadonnées soient complétées automatiquement par les logiciels liés à l’archivage numérique. PREMIS se compose de cinq entités, dont quatre sont ici présentes. L’entité «Objet» permet de documenter techniquement le (ou les) fichier(s) pérennisé(s) avec, par exemple, le format, la taille ou un lien vers les droits d’accès correspondants. Ces derniers se trouvent dans l’entité «Droits» qui contient, sous la forme de métadonnées ou de liens, toutes les informations relatives aux droits d’accès, soit quels droits sur quels objets possède tel groupe d’utilisateurs ou agents. Cette notion est justement le titre de la troisième entité de PREMIS. Elle donne le nom des agents et des liens, dont un qui pointe vers les événements que l’agent peut effectuer. Les renseignements sur les événements forment la dernière entité, intitulée «Evénement». Il s’agit essentiellement du type et de la date de l’événement, avec quelques liens supplémentaires.
L’entité «Agent» de PREMIS est liée au «User Management LDAP», qui doit gérer à travers le temps les groupes d’utilisateurs au sein de l’administration cantonale. Autrement dit, «tant qu’un objet est soumis à un délai de protection, tout changement dans la composition des agents dans le système de gestion des documents se répercute automatiquement sur la plateforme d’archivage».25
L’information de représentation est constituée de la mention du registre des formats PRONOM des Archives nationales d’Angleterre26 et de l’identifiant du format mentionné dans l’information de pérennisation.
Comme mentionné plus haut, l’information de description combine plusieurs normes de description, chacune encodée dans son format spécifique. Les documents sont décrits avec ISAD(G). L’une des métadonnées, le nom du (ou des) créateur(s), permet de faire le lien avec ISAAR(CPF) qui sert à décrire leur producteur. Les fonctions de ce dernier sont explicitées à l’aide d’ISDF et renvoient elles-mêmes aux documents. Cette relation entre ces trois standards pourrait être décrite autrement: le document est créé ou reçu par le producteur dans l’exercice de ses fonctions.
Adéquation avec OAIS
Les quatre catégories d’information énoncées par OAIS – information de pérennisation, d’empaquetage, de description et de représentation – sont présentes dans le Matterhorn METS Profile. Elles sont clairement délimitées et visibles, car la terminologie est justement issue de ce modèle de référence, sauf pour l’information d’empaquetage où les concepteurs préfèrent la notion de container.
Avantage et désavantages
L’utilisation du standard METS apporte un avantage indéniable au Matterhorn METS Profile, puisqu’il est utilisable dans un grand nombre de logiciels de gestion de plateforme d’archivage numérique. De par cette présence, il participe à la garantie de l’interopérabilité entre divers systèmes d’archivage numérique. En outre, l’utilisation de METS n’amène pas de contraintes qui empêcheraient ou gêneraient l’utilisation de ce profil par une bibliothèque. En effet, Dublin Core peut être utilisé avec METS.
L’évaluation des documents papier implique des ressources en temps, financières et personnelles que toute institution conservant des archives investit. Seulement, elle ne concerne pas les métadonnées, car ces dernières existent en nombre restreint. Au contraire, les possibilités de documenter tout le cycle de vie des données ont fortement augmenté avec l’avènement de l’informatique dans notre quotidien. Il est dès lors devenu nécessaire d’effectuer également une évaluation des métadonnées qui sous-entend une analyse du processus dématérialisé à l’origine des documents (lorsqu’il existe). Une nouvelle tâche est ainsi apparue dans le cahier des charges des archivistes. A terme, elle conduira à une plus grande richesse et qualité des métadonnées qui sera à la disposition de la communauté d’utilisateurs des fonds d’archives. Ainsi que nous le voyons, ce premier «désavantage» représente en fait une évolution du métier de l’archiviste.
Comme le Matterhorn METS Profile utilise PREMIS pour l’information de pérennisation, une difficulté peut apparaître quand les données électroniques à conserver ne proviennent pas de logiciels de gestion des documents. Rappelons que ce standard préconise une saisie automatique des métadonnées et aucune intervention directe de l’homme. Néanmoins, la plupart des activités informatiques27 sont inscrites dans des journaux d’événements, communément appelés fichiers log (à savoir un simple fichier texte). Prenons comme exemple les documents numérisés pour lesquels le processus de numérisation doit être documenté. Une solution possible consiste à programmer un outil qui extrairait les informations requises depuis les journaux d’événements créés lors de la numérisation et les inscrirait dans les métadonnées du paquet numérique correspondant. C’est cette approche que se proposent d’utiliser les Archives de l’Etat du Valais pour ce genre de cas.
Le Matterhorn METS Profile contient des métadonnées sur les droits d’accès relatifs aux documents encore soumis à un délai de protection. Cette affirmation sous-entend que des dossiers clos, mais encore utilisés par le producteur, sont versés aux archives. Autrement dit, les concepteurs du profil préfèrent la conception d’un cycle de vie continu des documents à la théorie des trois âges, 28 puisqu’elle répond mieux aux besoins actuels en matière de droits d’accès. Cette nouvelle approche du cycle de vie implique un lien dynamique avec l’application qui gère le personnel de l’administration. Les Archives de l’Etat du Valais font l’hypothèse que cette base de données est et sera mise à jour régulièrement (dès que des mutations au sein du personnel ont lieu) par le Service des ressources humaines. Cette situation entraîne le constat suivant: le lien entre les deux applications doit être maintenu actif tant que des documents conservés sur la plateforme de pérennisation et d’archivage seront soumis à un délai de protection et utilisés par le service versant. Elle ne concerne pas l’utilisation des archives par des tiers, dont les droits sont gérés par l’application scopeArchiv. Au final, ce «désavantage» peut différer d’une institution à l’autre et, dans certains cas, constituer un changement de paradigme.
Conclusion
Chacun des profils étudiés propose son interprétation du modèle de référence OAIS. Le standard eCH-0160 se détache d’OAIS et reste à un niveau de granularité assez haut quant à la majorité des informations de pérennisation. Le Matterhorn METS Profile utilise clairement les quatre catégories d’informations et ce à niveau de détails différent selon les besoins. En effet, la description d’un ouvrage, numérisé ou non, reste relativement sommaire alors que pour une décision du Conseil d’Etat, nous avons des informations précises sur le processus de sa création et sur son contenu.
La caractéristique la plus intéressante à souligner vient du Matterhorn METS Profile: une structure en plusieurs niveaux. Cet état de fait permet son utilisation en dehors du domaine des archives. N’oublions pas que les archivistes ne sont pas les seuls à être concernés par l’archivage numérique. Les bibliothécaires, les responsables des musées, les documentalistes, etc. sont également impliqués. Leurs besoins diffèrent de ceux de l’archiviste, puisqu’ils ne gèrent que la valeur d’information de leurs documents. Depuis novembre 2012, ils ont à leur disposition un profil de métadonnées dans lequel ils peuvent utiliser leurs propres formats de description des documents.
Comme nous avons pu le voir, les deux profils de métadonnées ont leur point fort et leurs inconvénients ou impacts sur le travail de l’archiviste, mais ils ont un trait commun: leur jeunesse. Des échanges d’expérience et de la veille technologique sont nécessaires pour leur maturité. Ainsi, autant le standard eCH-0160 que le Matterhorn METS Profile évolueront dans le temps afin de répondre aux nouveaux besoins, tant technologiques pour continuer à garantir la pérennisation des données électroniques qu’intellectuels pour répondre aux attentes de la communauté d’utilisateurs.
Choisir un format d’images numériques dans le cadre de la numérisation patrimoniale1
Théophile Naito
Introduction
En raison des opportunités rendues possibles par les nouvelles technologies et sous la pression initiale du projet de numérisation entrepris par Google, 2 les bibliothèques et les services d’archives ont entrepris et préparent régulièrement des projets de numérisation des documents sous leur responsabilité.
Dans ce contexte, les archivistes et bibliothécaires responsables se trouvent devant des choix techniques qui ne faisaient pas partie de leurs tâches il y a quelques années encore, ce qui ne va pas sans difficulté.
Tout comme il est indispensable de disposer de compétences en paléographie lorsque l’on gère des documents manuscrits anciens, il est nécessaire de détenir un savoir dans le domaine des formats d’images numériques lorsque l’on se lance dans la production et la conservation d’images numériques.
Ainsi, la première partie de cet article aborde quelques-uns des principaux éléments d’un format d’image. En particulier, les algorithmes de compression et la notion de profil ICC (utile pour gérer les couleurs des images numériques) sont abordés.
Ensuite, l’article présente brièvement les formats d’images les plus courants dans les institutions patrimoniales.
Finalement, un processus de décision permettant d’aboutir au choix d’un format d’images en fonction du contexte est présenté, après une discussion de méthodes déjà existantes.
Il est important de noter qu’il s’agit ici de choisir un ou plusieurs formats d’images pour un projet de numérisation à venir, et qu’il ne s’agit pas de déterminer si des images déjà produites doivent être converties en un format mieux adapté.
Les images numériques matricielles
Le concept d’image numérique matricielle
Une image numérique matricielle est une image, codée numériquement, obtenue par la description d’un ensemble de petits carrés de couleur unie placés l’un à côté de l’autre dans un tableau rectangulaire. L’idée est d’utiliser des carrés suffisamment petits pour que l’œil ne se rende pas compte que l’image est en réalité un assemblage de ces carrés.
On voit cet assemblage de carrés dans l’image de la figure 2 qui est un détail de l’image de la figure 1. Chacun de ces carrés est appelé «pixel», par contraction de «picture element».
Toute image numérique n’est pas nécessairement matricielle. En effet, il est également possible de décrire une image sous une forme vectorielle. Une image vectorielle est une image composée d’éléments géométriques de base, tels des segments de droite ou des arcs de cercles. L’avantage d’une description vectorielle, pour les images s’y prêtant bien, est double. D’une part, cela permet d’obtenir des fichiers de taille modeste puisqu’il est bien plus court de spécifier quelques caractéristiques (taille, couleur, position) d’un nombre relativement faible d’objets géométriques, que de spécifier la couleur d’une très grande quantité de pixels. D’autre part, il est possible de changer l’échelle d’une image vectorielle facilement et sans perte de qualité (dans le cas d’un zoom par exemple), alors que cela n’est pas possible sans perte de qualité pour une image matricielle. Cela se voit dans l’image de la figure 2, qui montre qu’un zoom important fait apparaître les pixels.
Toutefois, les descriptions vectorielles sont bien adaptées pour les images de synthèse. Pour les images naturelles obtenues à l’aide d’appareils photographiques ou de scanners de documents, une description matricielle est la règle.
Il est à noter que les images matricielles sont souvent appelées images bitmap ou images raster.
Formats d’images numériques matricielles
La description des pixels d’une image matricielle est souvent accompagnée par d’autres informations concernant l’image. Citons la date de création de l’image, la dimension de l’image, des informations concernant les couleurs utilisées dans l’image, l’auteur de l’image. Il est évident que toutes ces informations doivent être organisées. De même, les données décrivant l’image doivent être structurées et codées d’une manière bien définie. Dans le cas contraire, aucun logiciel ne pourrait lire l’image concernée. Cette organisation et ce codage sont déterminés par un format de fichier. Pour les images matricielles, il existe une très grande quantité de formats.

Figure 1: Fleurs

Figure 2: Fleurs (détail): image formée par des petits carrés de couleur homogène
A titre d’exemple, 3 une organisation simple en deux blocs, que l’on retrouve dans certains formats d’images matricielles est celle représentée dans la figure 3.
En-tête (Header)
Contient typiquement les informations suivantes:
– le format dont il s’agit;
– type de l’image (noir-blanc, niveaux de gris ou couleur);
– dimension de l’image;
– date (de création, de modification, etc.);
– algorithme de compression utilisé;
– etc.
Description de l’image
Contient la description (couleur et position) de chaque pixel.
Figure 3: Organisation en deux blocs d’un format d’image matricielle
D’autres formats adoptent une structure plus complexe, mais qui a l’avantage de s’adapter à de nombreux besoins. C’est le cas du format TIFF, dont on donne brièvement une idée de la structure. Un fichier respectant ce format débute toujours par un en-tête (header), qui contient quelques informations de base et qui pointe vers un répertoire (image file directory). Celui-ci contient l’essentiel des métadonnées liées à l’image, et il indique où se trouvent les données décrivant cette image et où se trouve le prochain répertoire s’il y en a un autre. On peut relever que les données relatives à une même image peuvent être structurées de différentes façons, puisque le répertoire peut être situé avant ou après les données décrivant l’image.