27.07.2008

Conservation à long terme des documents numérisés

Via @rchinet-aedaa (c'est bien, cette initiative des étudiants en archivistique d'Angers), j'apprends la publication par le MINCUL (oui, c'est facile) d'un document relatif à la conservation des documents numériques.

Dénué de toute prétention, il se fixe pour seule ambition de sensibiliser les acteurs du ministère de la Culture ainsi que les autres acteurs culturels aux enjeux de la conservation à long terme des documents numérisés, en présentant thématiquement des ressources déjà publiées sur les réseaux. Les thèmes : normes et standards, politique de conservation, production de documents numérisés, supports et infrastructures de stockage, questions juridiques, projets et expériences en cours.

Utile. 

 

 

07.06.2008

Un accord TGN/NARA

Le 20 mai dernier, NARA (Archives nationales des USA) a annoncé qu'elle venait de conclure un accord avec TGN (sites Ancestry), pour la numérisation et la mise en ligne d'archives intéressant la généalogie. La numérisation se fera sur place, dans les locaux de NARA, la consultation en ligne des documents sera (bien sûr) payante, mais des accès libres seront possibles à partir de postes de consultation installés dans toutes les salles de consultation de NARA. TNG fournira à NARA une copie des fichiers numériques ainsi que des métadonnées, dont NARA pourra se servir librement à l'issue d'une période de 5 ans. Je n'ai pas regardé en détail les termes de l'accord, qui me paraît assez proche de l'accord TNG/TNA.

C'est moins cet accord lui-même qui m'a intéressé que le fait que NARA en ait soumis le projet à commentaires sur internet dès le 10 mars. Je sais, je me suis déjà pâmée devant cette transparence, mais cette pratique est tellement difficile à imaginer en France, où on semble préfèrer les effets d'annonce (au fait, où il en est, ce projet de portail généalogique ?). Dommage, cependant, les commentaires n'étaient pas publics, cette transparence a donc quand même des limites. Mais le débat s'est tout de même engagé, via certains blogs et sites. Voir notamment, le billet d' Archivesnext, un archiviste de NARA réagissant à un billet de Free government information, et les 11 commentaires qu'il a suscités. Avec ça, on a un éventail assez complet des positions possibles.

 

 

29.03.2008

Le TIFF est trop lourd

De plus en plus en plus nombreuses sont les institutions qui croulent déjà sous le poids des fichiers résultant de leurs campagnes de numérisation et qui, planifiant les campagnes à venir, se rendent compte que cela va coûter cher, très cher en simple stockage. Partant de ce constat, la Koninklijke Bibliotheek (la bibliothèque nationale néerlandaise) a décidé de réviser sa stratégie de conservation. Jusqu"à présent, elle faisait comme tout le monde, en conservant ses masters au format TIFF, sans compression aucune. Dans un rapport tout récent, elle livre les résultats de la réflexion et des tests qu'elle a menés pour déterminer quels formats pourraient constituer une alternative au TIFF pour la conservation à long terme de ses masters. En introduction, l'acception du terme master est précisée (Images bitmap qui sont des copies de haute qualité d'un original et dont, le plus souvent, on dérive des fichiers destinés, eux, à l'accès et l'utilisation) comme sont précisées les raisons pour lesquelles on peut envisager de conserver ces masters dans le long terme : parce que ce sont les fichiers de substitution d'un original fragile et qu'aucun autre mode de substitution n'est possible, parce que la numérisation a été si coûteuse et dévoreuse de temps que la renumérisation est inenvisageable, parce que le master est en même temps le fichier d'usage. Cette très rapide mise au point montre d'ailleurs au passage combien leur politique de numérisation est au clair et je me promets bien de revenir sur la question, comme sur la notion de master, mais restons-en aux formats. Quatre formats ont été passés en revue :

• JPEG 2000, partie 1 : compression avec (lossy) et sans perte (lossless)
• PNG 1.2
• Basic JFIF 1.02 (JPEG)
• TIFF LZW

Les conclusions du rapport permettent de recommander :

JPEG 2000 sans perte et PNG pour la substitution, avec plutôt un avantage à JPEG 2000.

JPEG 2000 et JPEG quand la renumérisation n'est pas envisageable et que l'on peut s'accomoder d'une perte d'information. Sinon retour à la case 1. 

JPEG 2000 avec perte et JPEG avec un fort taux de compression quand le master est aussi le fichier d'usage. 

Bref, JPEG 2000, le nouveau standard qu'il faut connaître

 

 

26.03.2008

NARA sur le point de conclure un accord cadre avec TGN

NARA a soumis à commentaires (quelle transparence, quand même, moi je n'en reviens pas !) les termes d'un accord cadre qu'elle souhaite conclure avec TG N(mais oui, cette même société qui essaie de mettre un pied en France, voir mon précédent billet) pour la numérisation et la mise en ligne de documents qu'elle conserve. Les principales dispositions de l'accord sont les suivantes :

  1. Les documents à numériser seront choisis d'un commun accord entre TGN et NARA
  2. NARA recevra une copie des fichiers numériques
  3. Les chercheurs auront un accès libre aux images numérisées et à l'indexation réalisée par TNG à partir des salles de lecture de NARA.
  4. L'accord est non exclusif
  5. TGN paye les frais liés à la numérisation, la conservation (à vérifier en ce qui concerne celle des copies remises à NARA), la création des metadonnées...

 

05.02.2008

Réutilisation des données publiques : le cas des Archives nationales du Royaume-Uni

Au moment où Ancestry.com et autres Geneanet se lancent à l'assaut des services d'archives français et, surtout, des sources numérisées ou numérisables dont ils pourraient monnayer l'accès en ligne, j'ai cru bon d'aller voir ce qui se faisait chez nos voisins britanniques.

Les Archives nationales du Royaume-Uni (TNA) proposent des licences non-exclusives à tous ceux qui désirent exploiter leurs données, contre royalties qui vont de 7 à 15%.

Pour numériser plus rapidement ses collections, TNA propose également depuis quelques années une LIA (licensed internet Associateships), pour une durée de 10 ans renouvelables. Les partenaires financent tout (de la préparation et la numérisation des documents au développement des applications nécessaires à leur exploitation en passant par l'hébergement des fichiers), et bénéficient d'une exclusivité tandis que les Archives nationales perçoivent des royalties sur les transactions tout en promouvant de diverses manières les services du partenaire, notamment en faisant de leur propre site un portail d'accès vers ces services.TNA s'entoure quand même de quelques précautions d'ordre éthique (le partenaire et ses pratiques doivent être compatibles avec la mission, les règles, les valeurs de TNA), financier (le partenaire doit pouvoir prouver qu'il a les épaules assez solides), technique (le site du partenaire doit respecter les règles gouvernementales pour l'accessibilité des sites internet et se conformer à certaines spécifications), juridique (le partenaire n'acquiert aucun droit de propriété intellectuelle sur les documents numérisés ou les fichers dérivés de cette numérisation. En revanche, sa propriété sur les applications développées, l'indexation ou les transcriptions qu'il aurait réalisé, etc., est bien entendu reconnue). TNA demande également un accès gratuit multi-utilisateurs pour ses sites de consultation de Kew et Islington. De plus, TNA reste maître de la stratégie puisque c'est elle qui fixe les ensembles qui peuvent faire l'objet d'une LIA.

C'est sur ces bases que TNA a conclu un accord avec findmypast.com, pour la mise en ligne des listes de passagers au départ des Iles britaniques entre 1890 et 1960, ou avec S&N Genealogy Supplies pour celle de registres d'état-civil.

Le tout s'inscrit  dans un dispositif national, piloté par l' Office of Public Sector Information (OPSI) et visant à mettre en oeuvre la directive européenne sur la réutilisation des données publiques, inscrite dans la législation nationale depuis 2005.

 

03.02.2008

Archives en ligne : 5 points à garder en tête

Le 25 janvier dernier, table ronde organisée dans le cadre des Rencontres 2008 du cinéma de patrimoine et des films restaurés et prix Henri Langlois (c'est peut-être un peu long, comme intitulé de manifestation, non ?). Trop d'intervenants, qui ont présenté leur institution et leur problématique en guise d'introduction à un échange qui n'a pas eu le temps d'avoir lieu, dommage. Seul Jean-Yves de Lépinay, qui intervenait avec la double casquette de directeur des programmes du Forum des images et membre du P.I.A.F (Professionnels des images et des archives de la francophonie, à ne pas confondre avec le Portail international archivistique francophone !), a su d'emblée poser un discours fort, récapitulant heureusement en 5 points des idées que je n'avais jusqu'ici vu surgir dans mon agrégateur que de façon dispersée. J'ai malheureusement perdu les notes que j'avais prises, mais voici ce dont je me souviens :

1- La numérisation n'est pas un moyen de préservation, mais de diffusion.

OK, mais au prix que cela coûte, mieux vaut penser à conserver les fichiers dans le long terme ! D'autre part, ne pas utiliser les originaux permet de les préserver (logique de substitution). Enfin, l'intervenant n'a pas vraiment dégagé les perspectives que permettent d'ouvrir ce constat (Voir le rapport de l'OCLC, Shifting gears : gearing up to get into the flow, dont j'ai déjà parlé dans un billet).

2- Ce qui est sur internet oblitère ce qui n'y se trouve pas.

OK, sauf si je ne néglige pas de mettre en ligne mes instruments de recherche (aussi sommaires soient-ils ?), même si les documents correspondants ne sont pas en ligne. Evidemment ce qui est décrit (en ligne ou pas) oblitère ce qui ne l'est pas, mais c'est une vieille problématique !

3- Une mise en ligne ne se conçoit pas sans documentarisation (= description, indexation), voire une redocumentarisation, longue et coûteuse. 

OK, mais on part rarement de rien en la matière ! Tout le problème est de savoir si on se satisfait de l'existant, aussi imparfait soit-il, du moment qu'il permet un accès aux documents, ou si on s'astreint à le peaufiner afin de multiplier les accès et accroître la granularité de l'ensemble. Là encore, voir Shifting gears : gearing up to get into the flow.

4- Mise en ligne = fragmentation.

J'ai tout de suite acquiescé mentalement en pensant  à mes propres stratégies de lecture sur internet (butinage, focalisation) et au fait qu'un coup de Google peut vous propulser au milieu d'une page du contexte de laquelle on ne connaît rien, mais Lépinay ne parlait pas de cela mais tout simplement des possibilités offertes à l'internaute de "sampler", mixer, "mashuper", voire redocumentariser lui-même les documents mis à sa disposition.

5- La mise en ligne oblige les "médiateurs", (médiateur entre le public et le document) au rang desquels se rangeait J.-Y. de Lépinay et au rang desquels je me range volontiers, à reconsidérer leur rôle. Une des voies s'ouvrant à eux consiste en l'animation de communautés visant à construire collaborativement un savoir, une redocumentarisation (voir mon post sur les usages de Flickr, qui mériterait d'être mis à jour quant à l'initiative de la Bibliothèque du Congrès qui vient de mettre, pour ceux qui l'ignoreraient encore, près de 3000 photos sur ce site, et pour les réfractaires, affordance vous explique en quoi c'est chouette).

30.11.2007

La numérisation aux Archives municipales d'Amsterdam

Le dernier numéro de la Gazette des archives (septembre-octobre 2007) contient le compte-rendu de la rencontre des archivistes municipaux au sein de l'ICA (conseil international des archives), qui s'est tenue à Amsterdam. Cela nous vaut d'apprendre que les Archives municipales de cette ville ont calculé que, pour numériser leurs 32 km l d'archives, il leur faudrait 431 années à raison de 10000 prises de vues par semaine et en comptant 7000 vues en moyenne par ml ! Dans ces conditions, ils ont choisi de laisser leur politique de numérisation se construire sur la base des demandes du public, lequel peut commander la numérisation des documents à partir des instruments de recherche disponibles sur leur site internet. Je suis allée y faire un tour et j'ai été un peu déçue. La commande a en effet l'air d'être très aisée (un simple clic sur "aanvragen" en regard de la description de l'article concerné) mais il semble que les documents numérisés ne puissent être visualisés que sous la forme de vignettes basse définition (lecture des textes impossible !). Mais le barrage de la langue m'a peut-être empêché de trouver le moyen de passer en mode consultation.

17.11.2007

Numérisation : just do it !

L'OCLC a récemment fait paraître, en guise de synthèse d'une journée d'études qui s'est tenue au mois d'août dernier à la Newberry library de Chicago (dans le cadre du congrès annuel de la SAA, société des archivistes américains), un rapport au ton et au contenu volontairement provocateurs sur la numérisation et la mise en ligne des "sources primaires" ("primary sources", au rang desquels les fonds d'archives, les collections de manuscrits ou de cartes..), lesquelles restent très marginales par rapport aux imprimés. Comment "changer de vitesse et rejoindre le courant (Shifting gears : gearing up to get into the flow)" ?

De cette synthèse, on peut retenir deux idées-forces.

Lire la suite

14.11.2007

La 71e réunion de la société des archivistes américains (août 2007)

Le n°29 du Bulletin des Archives de France sur l'EAD contient un intéressant compte-rendu de certains ateliers et séances pleinières de la dernière réunion annuelle de la société des archivistes américains, qui s'est tenue durant l'été 2007 à Chicago.

Sessions pleinières 

Session 104. Solutions logicielles libres pour la gestion et l’affichage sur le web des collections numériques

Session 205. Évaluer les outils archivistiques dans une approche centrée utilisateurs

Session 305. Etat de développement de l’application logicielle « Outil des archivistes » (Archivists Toolkit, AT).

Session 406. Appliquer les recommandations de Greene et Meissner dans une institution

Session 503. Repenser les pratiques descriptives et l’accès aux archives dans un environnement numérique

Session 607. Les dynamiques dans l’agrégation : métadonnées partageables et prochaine génération de systèmes d’accès

Session 707. Le projet de mise en ligne de reliures de livres imprimés (Publishers’ Bindings Online ou PBO)

Session 804. Préserver le contexte et l’ordre originel dans un monde numérique

Groupes et comités techniques de la SAA

Comité des normes et sous-comité technique des normes de description

Section sur la description

Table ronde EAD :  L’application Outil des archivistes (Archivists’Toolkit ou AT) et l’EAD,  le programme « Ouvrir les archives en Floride »

Groupe international EAD

 

 

09.10.2007

Guide technique pour la numérisation des archives en vue d'un accès en ligne (NARA, USA)

Technical Guidelines for Digitizing Archival Materials for Electronic Access:   Creation of Production Master Files - Raster Images

For the Following Record Types - Textual, Graphic Illustrations/Artwork/Originals, Maps, Plans, Oversized, Photographs, Aerial Photographs, and Objects/Artifacts

June 2004

Concerne la création de documents de substitution en vue de la mise en ligne et de la reproduction, pas en vue d'une préservation à long terme.