Kitabı oku: «Informationswissenschaft: Theorie, Methode und Praxis / Sciences de l'information: théorie, méthode et pratique», sayfa 6
Les formats courants d’images
Il existe un très grand nombre de formats d’images, comme cela est illustré par le travail de J. Murray et W. van Ryper.17 Dans le présent article, on se contente d’examiner l’utilisation des formats largement acceptés dans le monde des archives, des bibliothèques et au-delà. En effet, porter son choix sur un format rarement utilisé comporte des risques importants pour des raisons évidentes.
Le format TIFF (Tagged Image File Format)
Le format TIFF, propriété d’Adobe et publié pour la première fois en 1986 par Aldus, est un format dont la principale caractéristique est une grande souplesse. Par exemple, il peut être utilisé sans compression, mais il peut aussi être utilisé avec une compression sans perte (algorithme RLE, de Huffman, LZW, Groupe 3 et Groupe 4) ou avec perte (JPEG). Il peut également être utilisé en mode «multi-page», qui permet de conserver et transmettre plusieurs images en un seul fichier. En ce qui concerne les couleurs, il peut aller jusqu’à 48 bits par pixel, voire plus.
Toutefois, cette souplesse peut aussi être un obstacle: en effet, un logiciel de visualisation donné ne décode pas nécessairement toutes les versions possibles du format TIFF. Par exemple, les logiciels de visualisation peuvent se contenter d’afficher la première image d’un fichier multipage, sans capacité de lire les images suivantes.
Le format TIFF est répandu. En particulier, le secteur des archives et des bibliothèques a fait du format TIFF (TIFF 6.0 datée de 1992) sans compression le standard de fait dans le domaine de l’archivage à long terme.18 De même, Google fait usage de ce format pour sa bibliothèque numérique «Google Livres» selon A. Jacquesson.19
La spécification du format TIFF est divisée en deux parties. La première partie définit le format TIFF Baseline, et les Archives et bibliothèques exigent souvent que les images respectent ces exigences plus restrictives.
La spécification du format TIFF, gratuitement disponible sur le site web d’Adobe, ne prévoit pas l’intégration d’un profil ICC. Mais la flexibilité du format TIFF permet tout de même l’intégration d’un profil ICC dans un fichier respectant ce format. Ceci est expliqué dans l’annexe de la spécification du format ICC.20 Toutefois, étant donné l’absence d’indication dans la spécification du format TIFF, les logiciels capables de décoder un fichier TIFF n’en tiennent pas nécessairement compte.
Le format JPEG (JPEG File Interchange Format)
En fait, JPEG n’est pas un format mais un algorithme de compression efficace, mis au point par le comité JPEG et normalisé par l’ISO et l’UIT en 1992 (ISO/IEC 10918–1 ou UIT-T T.81). L’algorithme JPEG peut être utilisé dans divers formats, tel TIFF ou PDF. Toutefois, il existe un format spécifiquement conçu pour JPEG: c’est le format JFIF (ISO/IEC FDIS 10918–5), et c’est à lui que l’on pense lorsqu’il est question de JPEG comme format d’image. Ce format permet de gérer des images en couleurs allant jusqu’à 24 bits par pixel.
JPEG est un algorithme de compression avec perte.21 Autrement dit, un cycle de compression avec JPEG entraîne une modification de l’image. Mais l’efficacité de l’algorithme permet de garder ces modifications dans le domaine du raisonnable: il est possible d’obtenir un taux de compression d’environ 20:122 sans que l’œil humain ne s’en rende compte! Lorsque le taux de compression est très élevé, une image compressée avec l’algorithme JPEG peut souffrir de l’apparition de petits carrés clairement visibles. Cela provient du fait que la compression se fait sur des blocs de 8 x 8 pixels.
En théorie, le taux de compression est au choix de l’utilisateur, mais un taux par défaut est souvent proposé par les logiciels.
L’efficacité de JPEG en fait un algorithme de compression et un format très répandu. Malgré la perte d’information que JPEG provoque, il est parfois utilisé pour conserver des images lorsque des questions de coûts et d’espace de stockage jouent un rôle important. Ainsi, comme exemple parmi d’autres, les Archives d’Etat de Genève (AEG) utilisent le format TIFF uniquement pour les cadastres et les plans, alors que les registres et les documents textuels sont numérisés et conservés selon le format JPEG.23 En effet, les images sont considérées comme un moyen de diffusion, alors que les documents originaux sont seuls considérés comme documents à archiver pour le long terme. Ainsi, les AEG ont la possibilité de numériser une deuxième fois un document pour lequel il y aurait une demande qui ne pourrait pas être satisfaite par l’image respectant le format JPEG.
De plus, la compression JPEG est acceptée par le format PDF/A. Ce format, dont il est question plus loin dans cet article, est très largement accepté pour l’archivage à long terme.
En ce qui concerne la gestion des couleurs, comme pour le format TIFF, il est nécessaire de consulter l’annexe de la spécification du format ICC pour obtenir la manière de procéder pour inclure un profil ICC dans un fichier JPEG.
Le format JPEG 2000
A l’image de JPEG, JPEG 2000 est un algorithme de compression avant d’être un format. Toutefois, la spécification de JPEG 2000, rédigée par le comité JPEG, publiée et normalisée par l’ISO et l’UIT en 2004 (ISO/IEC 15444–1 et UIT-T T.800) contient la définition d’un format d’image en annexe. C’est de ce format, nommé JP2, que l’on parle lorsque JPEG 2000 est considéré comme un format.
Parmi les éléments différenciant JPEG 2000 de JPEG se trouve l’amélioration de la qualité visuelle des images. En effet, on obtient une qualité légèrement supérieure en utilisant JPEG 2000 pour un taux de compression équivalent. D’autre part, JPEG 2000 permet tant la compression sans perte qu’avec perte. La différence réside uniquement dans le degré de compression souhaité.
De plus, JPEG 2000 a été pensé pour faciliter toute une série de fonctionnalités. Par exemple, la transmission et la visualisation d’images à travers un réseau sont en principe facilitées. Toutefois, ce format ne s’est pas encore imposé aussi largement que JPEG, qui lui est encore très souvent préféré.
Dans le domaine de l’archivage à long terme, JPEG 2000 connaît un succès croissant, 24 et il est accepté par les formats PDF/A-2 et PDF/A-3.
L’inclusion d’un profil ICC dans un fichier JPEG 2000 est prévue par la spécification de JPEG 2000, avec certaines restrictions.25
Le format PDF (Portable Document Format)
Le format PDF est un format créé par Adobe. Il a été normalisé par l’ISO en 2008 (ISO 32000–1). Le format PDF n’est pas un format d’image. C’est un format de type plus général dont le but est la description de documents, de sorte à pouvoir représenter un document donné exactement comme l’auteur l’a conçu. C’est un format très couramment utilisé, en particulier pour échanger des documents. Ainsi, de nombreuses bibliothèques numériques utilisent ce format.
Il existe une version du format, appelée PDF/A, qui a été standardisée par l’ISO en 2005, 2011 et 2012 (ISO 19005–1 pour PDF/A-1, ISO 19005–2 pour PDF/A-2 et ISO 19005–3 pour PDF/A-3), et dont le but est de satisfaire le mieux possible aux exigences de l’archivage à long terme. Ces trois standards sont valides en parallèle, l’un ou l’autre peut être utilisé selon les besoins.
Il est courant de convertir des documents numériques au format PDF/A lorsque l’on veut archiver ces documents pour le long terme, à l’image de la pratique des Archives fédérales suisses qui exigent le format PDF/A pour les documents bureautiques.26
Le format PNG
Le statut légal de l’algorithme de compression LZW, qui était protégé par des brevets, a incité un groupe ad hoc à créer un format pouvant remplacer le format GIF. C’est ainsi que la spécification de PNG a été publiée en 1996. Ce format est un standard depuis 2004 (ISO/IEC 15948). Quelques-unes des caractéristiques de ce format sont:
— un algorithme de compression sans perte efficace, surtout pour les images de synthèse;
— des couleurs pouvant aller jusqu’à 48 bits par pixel;
— de ne pas être restreint par des questions légales.
Le format PNG est souvent reconnu comme un format apte à l’archivage à long terme. Mais en raison de la concurrence des formats déjà vus ci-dessus, il est rarement utilisé dans ce cadre.
Le choix d’un format d’images pour un projet de numérisation: méthodes existantes
Différents auteurs se sont intéressés à la manière d’évaluer et de choisir un format d’images parmi d’autres formats. Par exemple, la Bibliothèque nationale des Pays-Bas 27 et le Centre de coordination pour l’archivage à long terme de documents électroniques (CECO)28 ont étudié et établi de telles méthodes d’évaluation, orientées vers la conservation des images à long terme.
Une tendance se dégage de ces études: l’idée générale est de déterminer des critères importants pour la conservation à long terme, et ensuite de noter les différents formats envisagés vis-à-vis de ces critères. Cette façon de faire permet d’établir aisément un classement des formats en fonction des notes attribuées. De plus, le procédé pour arriver à ce résultat semble relativement facile à appliquer, puisqu’il suffit de suivre une «recette de cuisine». Celle-ci consiste à confronter chaque format aux différents critères pour en tirer une note.
Par exemple, les critères définis par le CECO sont les suivants: «Ouverture du format», «Licence libre», «Diffusion», «Fonctionnalités», «Implémentation», «Densité de mémorisation», «Vérifiabilité», «Bonnes pratiques» et «Perspectives». La signification plus précise de chacun de ces termes est expliquée dans le travail du CECO.
Ensuite, ce dernier attribue une note à chaque format et ce pour chaque critère. Finalement, un calcul de moyenne est fait en tenant compte du facteur de pondération attribué à chaque critère. Cette moyenne permet d’établir le classement suivant pour les formats d’images matricielles, étant précisé que les formats qui ne sont pas indiqués n’ont pas été évalués.
1. | TIFF 6.0 sans compression et PDF/A-2 | Note: 1,51. |
3. | JPEG, JPEG 2000 et DNG | Note: 0,89. |
6. | PNG | Note: 0,73. |
L’étude de la Bibliothèque nationale des Pays-Bas établit une méthode similaire, dotée de quelques raffinements. Ainsi, les sept critères (Openness, Adoption, Complexity, Technical Protection Mecanism (DRM), Self-documentation, Robustness, Dependencies) sont chacun partagés en différentes caractéristiques. Par exemple, le critère Openness admet les trois caractéristiques suivantes: «Standardisation, Restrictions on the interpretation of the file format» et «Reader with freely available source». Finalement, un type de moyenne pondérée est établi à partir des notes qui correspondent aux diverses caractéristiques. Cette moyenne permet d’aboutir au classement suivant, seuls les formats indiqués ayant été évalués.
1. | TIFF (Baseline 6.0 sans compression) | Note: 84,8. |
2. | PNG 1.2 | Note: 78. |
3. | JP2 (JPEG 2000 Part 1) lossless | Note: 74,7. |
4. | JP2 (JPEG 2000 Part 1) lossy | Note: 66,1. |
5. | Basic JFIF (JPEG) 1.02 | Note: 65,4. |
6. | TIFF 6.0 LZW | Note: 65,3. |
On constate que ces deux classements sont différents. Si l’établissement d’une méthode universelle, valable dans toute situation, était le but de ces deux études, alors cette constatation serait une contradiction. Mais les études de la Bibliothèque nationale des Pays-Bas 29 indiquent que les facteurs de pondération doivent être établis en fonction des situations particulières. Dans le même esprit, les recommandations du CECO précisent bien qu’il n’existe pas un unique format valable dans toute situation, et qu’il est nécessaire de tenir compte de l’application prévue pour faire un choix.
En effet, les deux méthodes décrites ci-dessus sont imparfaites. Ces méthodes visent à simplifier le plus possible l’évaluation et le choix d’un format en ramenant tous les critères sur une seule dimension. Ainsi, en additionnant des nombres correspondant à divers critères, on établit un moyen permettant de comparer des critères qui peuvent ne rien avoir en commun. Une telle simplification est discutable.
Une autre observation que l’on peut faire est que les processus définis par les méthodes brièvement présentées ci-dessus impliquent de noter les formats selon divers critères. Mais la façon dont il s’agit d’attribuer les notes est subjective. Elle dépend des personnes chargées de cette tâche. Or, les compétences et l’expérience de ces gens influent certainement sur les notes distribuées.
En résumé, les méthodes d’évaluation de formats vues plus haut donnent un faux sentiment de rigueur. Elles permettent d’obtenir des chiffres et d’en déduire un ou plusieurs formats plus adaptés que les autres, alors qu’il n’est pas possible de définir ces chiffres de manière unique. Il est d’ailleurs utopique de vouloir créer une méthode absolument rigoureuse, puisque le choix d’un format dans le domaine de la conservation à long terme n’est pas seulement une question de compétence et de réflexion, mais aussi un pari sur l’avenir.
Le choix d’un format d’images pour un projet de numérisation: Méthode alternative (arbre de décision)30
Les limites des méthodes discutées plus haut incitent à réfléchir à une méthode mieux adaptée. Le point essentiel est de pouvoir distinguer entre différentes situations, et il est par conséquent nécessaire de renoncer à un format unique qui serait valable dans tous les cas.
D’ailleurs, certaines institutions renoncent au format TIFF 31 pourtant généralement indiqué comme le format à privilégier, comme cela est illustré par les études citées ci-dessus. Bien qu’il soit possible d’analyser ces choix divergents comme des erreurs, il semble beaucoup plus raisonnable de voir dans ces exemples une preuve de la nécessité de reconnaître que selon les cas, il s’agit de choisir des formats différents.
Dans la suite de cet article, on propose une méthode d’évaluation en arbre, qui permet de distinguer différentes situations en plusieurs étapes. Pour faciliter le choix, le processus décrit ci-dessous limite les possibilités à quelques formats dont les qualités sont telles que les risques sont aussi faibles que possible.
L’utilisation et les limites de la méthode en arbre
— Cet article n’a pas pour objectif d’étudier tous les formats d’images existants, ce qui serait impossible, mais il propose un processus permettant d’effectuer un choix raisonnable en fonction du contexte. Les formats et les algorithmes de compression proposés ici peuvent être considérés comme aptes à l’archivage à long terme, comme cela est brièvement expliqué plus haut.
Toutefois, d’autres formats et d’autres algorithmes de compression peuvent également être envisagés en cas de nécessité. Ainsi, cet article prend le point de vue d’une institution engagée dans des travaux de numérisation de documents originaux, ce qui lui laisse un contrôle entier sur le choix du format. Mais on peut imaginer une situation différente: une institution patrimoniale peut tout-à-fait se voir proposer des images numériques produites hors de son contrôle. Dans une telle situation, il vaut mieux commencer par étudier l’aptitude à l’archivage du format proposé plutôt que de convertir les images dans le format précédemment choisi par l’institution pour ses propres travaux.
— Le processus décrit ci-dessous, et permettant d’aboutir à un choix de format d’images n’est pas décrit en détail et laisse une liberté considérable aux personnes engages dans le choix d’un format d’images. En effet, il est impossible de prévoir toutes les situations et ce ne sont donc que les grandes lignes qui sont décrites ci-dessous. Certaines étapes nécessitent un travail d’analyse et de réflexion important, qu’il n’est pas possible d’éviter.
— Tous les formats dont il est question dans cet article sont des formats laissant une marge de manœuvre plus ou moins grande. Parmi les éléments le plus souvent discutés se trouvent l’algorithme de compression, qui peut soit être choisi (cas du format TIFF et du format PDF), soit être réglé à un niveau qui est à la convenance du producteur (cas de JPEG et de JPEG 2000), et la résolution de l’image, qui ne dépend pas du format. Mais il y a en réalité une grande quantité d’autres éléments qui doivent être déterminés.
Par exemple, les métadonnées, de tout type, sont des informations qu’il est possible d’intégrer directement dans le fichier d’une image et qu’il est nécessaire de sélectionner préalablement. Par la suite, il faut trouver le moyen de les inscrire dans le fichier au moment de la production des images (dans le cas contraire, seules les métadonnées automatiquement inscrites sont présentes dans les fichiers).
D’autre part, les données qui décrivent une image peuvent être organisées de différentes manières, selon les possibilités offertes par les formats et selon le choix du producteur. Ainsi, et à titre d’illustration, TIFF donne la possibilité d’organiser les images en tuiles (il s’agit de diviser une image en plusieurs petites images rectangulaires, de sorte à faciliter l’accès à une région de l’image) au lieu de l’organisation en lignes qui est en principe l’organisation par défaut. Pour sa part, JPEG 2000 permet de choisir entre différentes organisations qui facilitent l’une ou l’autre utilisation. Par exemple, il est possible d’organiser les données d’une image de sorte à faciliter la transmission de cette image à une résolution plus faible que celle de l’image originale. L’idée est de placer d’abord les données permettant de construire l’image à une faible résolution, puis celles permettant de construire l’image à une résolution moyenne, et finalement les données permettant d’obtenir l’image originale de haute qualité. De cette façon, un utilisateur du web pourrait visualiser une copie de faible résolution sans avoir à attendre le chargement de toutes les données de l’image originale.
Il est donc très important de ne pas se contenter de choisir un format et un éventuel algorithme de compression, mais de déterminer aussi les caractéristiques, avec tous les détails nécessaires, que l’on souhaite pour les images numériques qu’une institution veut produire. Ces choix doivent faire l’objet d’une spécification, telle celle de la Bibliothèque nationale des Pays-Bas pour les caractéristiques techniques, 32 et tel le travail effectué par les AEG et les Archives de la Ville de Genève pour les métadonnées.33
Première étape
La première étape, qui peut aussi être comprise comme une sorte d’étape préliminaire, consiste à regrouper toutes les informations nécessaires. Il s’agit de déterminer les éléments permettant de caractériser les documents originaux, les objectifs de la numérisation, les ressources disponibles, et éventuellement certaines conditions spéciales.
— Déterminer les caractéristiques des documents originaux est évidemment nécessaire pour définir l’aspect technique de la numérisation, et en particulier le format des images numérisées. Parmi les éléments importants se trouvent la couleur (noir-blanc, niveaux de gris, couleur) et le contraste des documents originaux, le type de document (textuel, iconographique, etc.), et la finesse des détails.
— La numérisation peut répondre à deux objectifs principaux. Il peut s’agir de diffuser un ou plusieurs documents de manière facilitée, ou il peut s’agir de prendre une mesure de conservation pour préserver au mieux un document nécessitant un traitement particulier. Et en mettant les choses au pire, un document numérique peut remplacer un document original dont l’existence est menacée à court terme. Dans ce dernier cas, il est important de réaliser que le remplacement se fait au prix d’une perte importante puisqu’une image numérique ne peut être qu’une approximation du document original.
— Les ressources à disposition jouent évidemment un rôle important aussi. Il est nécessaire d’en dresser un inventaire, quel que soit le type (ressources en finances, personnel, temps, infrastructure, organisation, etc.).
— Enfin, il peut arriver qu’il soit nécessaire de tenir compte de conditions spéciales, qui sont aussi susceptibles d’apparaître dans la suite du processus de choix.