AIB. Gruppo di studio sulle biblioteche digitali |
|
|
La Carta sulla conservazione dell'eredità culturale digitale [pdf, 17 KB], recentemente adottata dalla Conferenza Generale dell'UNESCO, ha posto i documenti in formato digitale sullo stesso piano di quelli in formati o su supporti tradizionali, affermando l'esigenza di conservarli al fine di mantenerli accessibili nel tempo. Ha inoltre individuato, fra gli strumenti chiave necessari al conseguimento di questo fine, il deposito legale o volontario dei documenti digitali in istituzioni pubbliche, come le biblioteche.
Con la nuova legge sul deposito legale (106/2004) anche i documenti digitali diventano dunque oggetto di deposito: l'articolo 4 parla infatti di "documenti diffusi su supporto informatico" e di "documenti diffusi tramite rete informatica".
Il deposito legale potrebbe essere definito come un servizio che garantisce nel lungo periodo l'accesso alla produzione editoriale di un determinato paese: l'articolo 1 parla infatti di "conservare la memoria della cultura e della vita sociale italiana".
È un servizio che le biblioteche nazionali esercitano da molto tempo e che fa parte integrante della loro missione.
Il termine "deposito" nel contesto del web richiede sicuramente qualche precisazione. La legge per essere operativa rinvia a un regolamento (da emanare entro sei mesi) dove dovranno essere definite, tra le altre cose, "speciali criteri e modalità di deposito".
Oggi le biblioteche nazionali indicano nell'harvesting - ossia nella raccolta delle pagine web effettuata tramite un software (crawler) - la modalità più efficiente e sostenibile di deposito.
In pratica chi pubblica siti web liberamente accessibili in rete non deve "depositare" assolutamente niente: sarà il crawler gestito dall'istituzione depositaria che provvederà a "raccogliere" il sito web.
L'esperienza di motori di ricerca - come Google - sta a dimostrare che l'harvesting dello spazio web è un'impresa tecnologicamente sostenibile.
Ma le biblioteche nazionali guardano soprattutto a esperienze come Internet Archive che usa la tecnologia dell'harvesting per archiviare dal 1996 lo spazio web "conosciuto". L'harvesting viene infatti impiegato per campionamenti periodici (snapshot) dei siti web visitati: a oggi Internet Archive ha ritimi di crescita di 20 terabyte al mese.
Da maggio 2004 è presente in rete il sito web dell' International Internet Preservation Consortium. Si tratta di un Consorzio tra importanti biblioteche nazionali internazionali e Internet Archive. Fanno parte del Consorzio la Biblioteca Nazionale Centrale di Firenze, la Biblioteca Nazionale Francese (che ha attualmente il ruolo di coordinatore), la Library of Congress, la British Library, la Biblioteca nazionale australiana e quella canadese; inoltre le biblioteche nazionali di Svezia, Finlandia, Norvegia, Danimarca e Islanda portano nel consorzio l'esperienza dell'harvesting dello spazio web nazionale del Nordic Web Archive.
Il Consorzio si propone di:
La nuova legge non ha quindi l'obiettivo di punire con una multa di 1500 euro chi non consegna il sito web personale alle biblioteche nazionali di Firenze e Roma - come è stato detto. La legge - per quanto riguarda lo spazio web - ha l'obiettivo di "proteggere" dal punto di vista giuridico la raccolta dello spazio web, considerato "eredità culturale digitale".
Una tutela di natura giuridica appare infatti necessaria in quanto nessuna iniziativa di harvesting (compresa quella di Internet Archive) ha il "diritto" di archiviare lo spazio web e chiunque può chiedere che le proprie pagine web non siano raccolte e archiviate.
In ogni caso la sanzione ha come oggetto solo la mancata consegna di documenti con "valore commerciale" (articolo 7). ). In fase regolamentare allora sarà necessaria grande attenzione nel definire regole che escludano il sito casalingo, o documento elettronico similare, da qualsiasi valore commerciale, ammettendolo di fatto tra "i casi di esonero totale o parziale dal deposito" (articolo 5).
Con questo quadro legislativo le biblioteche nazionali possono offrire due servizi fondamentali per il nostro essere "nani su spalle di giganti":
La persistenza nel tempo dei riferimenti (URL) non è un problema tecnologico che può essere risolto solo con qualche nome / identificatore conforme a una determinata sintassi (p. es. URN, DOI ecc). Tutti gli identificatori per essere efficaci (portarci alla risorsa) devono avere alle spalle un impegno istituzionale di persistenza nel lungo periodo.
Tutto il mondo della ricerca si basa sul sistema dei riferimenti (delle citazioni). Sappiamo bene come sia rischioso ma inevitabile citare attraverso un riferimento di tipo URL. Solo un sistema - possibile, ma ancora tutto da creare - che abbia come "ultima spiaggia" il servizio offerto dalle biblioteche nazionali potrà rendere valutabili nel tempo le fonti delle nostre ricerche.
In ogni caso il deposito presso un "terzo" - che istituzionalmente ha il mandato per il lungo periodo - offre la base di partenza per i servizi di autenticità e persistenza (ad di la di tutte le tecnologie che potranno essere usate)
Per convenzione si parla di deep web con riferimento a siti non raggiungibili dai tradizionali motori di ricerca (e quindi non raggiungibili nemmeno da un crawler). Tra questi si indicano di solito:
Nel primo caso l'harvesting potrà funzionare solo se il sito "aprirà le porte" al crawler (per esempio fornendo la password all'istituzione depositaria).
Nel secondo caso occorrerà una forte collaborazione tra il produttore dell'informazione e la biblioteca depositaria. Non è ovviamente pensabile che l'istituzione depositaria installi e mantenga tutti i database e tutte le applicazioni che generano le pagine HTML. Ci sono sperimentazioni a questo proposito (Francia e Australia) di invio alla biblioteca depositaria di record esportati in formato XML da database che "alimentano" il deep web. In questo caso si potrebbe parlare quindi di deposito, su richiesta o volontario, tramite l'adozione di un formato standard.
Specifici accordi potrebbero poi contemperare l'esigenza della biblioteca di conservare e mantenere accessibili i documenti e quella del produttore di liberarsi di documenti non più di attualità. L'accordo di deposito garantirebbe anche in questo caso integrità ed autenticità dei documenti e un loro utilizzo controllato.
Si ritiene in ambito IIPC che uno dei compiti del crawler possa essere la segnalazione della presenza di siti appartenenti al deep web.
I "documenti diffusi su supporto informatico" presentano molte criticità. Come è noto infatti "conservare il digitale" non significa "conservare il supporto del digitale". Tutti i supporti presentano problemi di durata nel tempo e in ogni caso l'evoluzione tecnologica rende i supporti di ieri non più usabili oggi (pensiamo a un floppy da 5.25).
Il "refresh" ovvero la copia periodica su supporti aggiornati è una tecnica ben conosciuta e usata da tutti i centri di elaborazione dati del mondo a partire dagli anni dei primi nastri magnetici. Il documento digitale è infatti indipendente dal suo supporto (si tratta infatti di una "sequenza di bit" che può essere copiata, trasferita ecc.).
Conservare "la sequenza di bit" integra non significa però mantenere nel tempo la possibilità di accedere a quel documento. Il documento digitale è indipendente dal supporto ma è dipendente da una determinata configurazione hardware/software (p. es. da un sistema operativo, da un programma di videoscrittura ecc). Anche qui l'evoluzione tecnologica diventa un ostacolo alla fruibilità di "sequenze di bit" create con tecnologie oggi obsolete: la "sequenza di bit" è integra ma mancano le "chiavi" di accesso.
Inoltre in molti casi i produttori per impedire la "copia pirata" introducono sistemi di protezione che impedirebbero alle biblioteche depositarie di intraprendere attività di base come il "refresh". In maniera paradossale introducono una dipendenza del software dal supporto. In questi casi è evidente che il deposito ha senso solo se il supporto è "aperto" .
Oggi si stanno consolidando strumenti per la conservazione a lungo termine delle risorse digitali. Il modello OAIS (Open Archival Information System - ISO 14721:2002) è diventato il punto di riferimento.
Le biblioteche nazionali conoscono bene le problematiche collegate alla fragilità dei documenti digitali (il progetto NEDLIB è del 1997) e sanno che ogni "sequenza di bit" deve essere conservata assieme alle sue "chiavi".
Si tratta di raccogliere - contestualmente al deposito - tutte quelle informazioni (metadati gestionali) che consentiranno di intraprendere attività di conservazione (il riferimento è alle ben note strategie di emulazione o di migrazione).
Nel caso dell'harvesting la raccolta dei metadati gestionali sarà automatica, mentre nel caso dei "documenti diffusi su supporto informatico" occorrerà in molti casi una collaborazione da parte del produttore (in qualche caso - come per il deep web - occorrerà prevedere la tipologia del deposito su richiesta in un formato standard).
È vero che a oggi non tutti i problemi di conservazione nel lungo periodo sono risolti, ma questo non è un buon motivo per non dare vita a sistemi di archiviazione del digitale (come qualcuno ha osservato sarebbe come dire "non costruiamo più ospedali dato che ancora oggi non sappiamo come guarire tutte le malattie")
Data l'enorme mole di documenti presenti sul web ci si chiede se abbia senso (sia anche economicamente sostenibile) conservare "tutto". Semplificando, le alternative che oggi si presentano sono:
Ogni harvesting ha tutti i limiti della periodicità del campionamento e della navigazione "anonima" (ad esempio vi sono siti come Amazon che presentano pagine personalizzate se un utente effettua il login).
Per i costi, il traffico generato dal crawler e per la larghezza di banda richiesta è ragionevole ipotizzare che l'harvesting sia gestito solo da una istituzione (all'interno di IIPC vi sono allo studio ipotesi di collaborazione a livello internazionale per evitare duplicazioni nell'harvesting).
Per assicurare livelli elevati di sicurezza e per le problematiche di "disaster recovery" è ancora ragionevole ipotizzare che vi debba essere un'altra istituzione "centrale" con una copia continuamente allineata.
Per quanto riguarda il deep web e "i documenti diffusi su supporto informatico" che richiedono una trattativa diretta con il produttore è auspicabile una collaborazione in fase di acquisizione tra tutte le biblioteche depositarie
Occorre chiarire il significato del secondo comma dell'articolo 1: "dalla predetta disposizione non possono derivare nuovi o maggiori oneri a carico della finanza pubblica". Servizi a costo zero sono difficilmente sostenibili.
In ogni caso oggi possiamo avere tutti gli elementi per procedere a una stima dettagliata dei costi derivanti dall'estensione del depostito legale ai documenti digitali.
Non tutto il materiale depositato potrà avere lo stesso livello di catalogazione. In alcuni casi (per esempio periodici elettronici scientifici) potrà essere applicata la catalogazione secondo gli standard biblioteconomici correnti.
Nel caso dei siti web in generale occorrerà prevedere sistemi di "gestione controllata" del contenuto (collegata all'attività di parametrizzazione dell'harvesting descritta al punto 10). Non si può catalogare tutto "sito per sito" ma non si può archiviare senza sapere "cosa si archivia".
Tutte le risorse digitali archiviate (libere o pagamento) devono essere accessibili presso le istituzioni centrali depositarie (vedi punto 11). Dovrebbe essere inoltre assicurato l'accesso anche da parte degli utenti delle altre biblioteche individuate dal regolamento come depositarie.
Funzione fondamentale del deposito legale è quella di garantire a tutti condizioni di uguaglianza nell'accesso alla produzione editoriale. Tale funzione va accuratamente bilanciata con i legittimi interessi del produttore.
Per le risorse digitali libere da diritti si potrebbe pensare a una fruizione in rete senza il vincolo del luogo. Occorre tuttavia in questo caso prendere in conto attentamente implicazioni di tipo giuridico (p. es. siti web con materiale diffamatorio ecc.)
Molte attività (vedi ad es. 11, 13 e 14) richiedono una forte collaborazione tra le nazionali centrali e le altre biblioteche depositarie.
Data la continua evoluzione dei documenti digitali e delle tecnologie di harvesting è ragionevole pensare a un Consorzio nazionale tra le biblioteche depositarie che definisca priorità, livelli di servizio e di cooperazione.
Nei confronti dell'utente finale il Consorzio si porrebbe come Comunità distributiva di contenuti digitali e dei relativi servizi di accesso. È presumibile che a tali servizi possano accedere anche altre biblioteche o altre istituzioni, sulla base di specifici accordi.
Bergaman, Michael K. The deep web:
surfacing hidden value <<The journal of electronic
publishing>> 7(2001), 1
http://www.press.umich.edu/jep/07-01/bergman.html
Punto di riferimento essenziale per il deep web
Charlesworth, Andrew. Legal issues relating to the
archiving of Internet resources in the UK, EU, US and Australia A
feasibility study undertaken for the JISC and Wellcome Trust. - Version
1.0 (25 February 2003).
http://www.jisc.ac.uk/uploaded_documents/archiving_legal.pdf
[pdf, 344 KB]
Day, Michael. Collecting and preserving the World
Wide Web. A feasibility study undertaken for the JISC and Wellcome
Trust. - Version 1.0 (25 February 2003).
http://www.jisc.ac.uk/uploaded_documents/archiving_feasibility.pdf
[pdf, 493 KB]
Gambari, Stefano - Guerrini, Mauro. Definire e
catalogare le risorse elettroniche. Milano : Bibliografica, 2002 p.
288-299
Accurata analisi del deep web
Guidelines for legal deposit legislation. - 2000.
http://www.ifla.org/VII/s1/gnl/legaldep1.htm
Il capitolo 6 è dedicato alle pubblicazioni
elettroniche
IIPC - International Internet Preservation Consortium
http://netpreserve.org
Legal deposit / PADI
http://www.nla.gov.au/padi/topics/67.html
La legislazione sul deposito legale delle risorse digitali nei vai
paesi e un'ampia bibliografia
Masanès, Julien. Towards continuous
web archiving <<D-lib magazine>>, 8(2002), 12.
http://www.dlib.org/dlib/december02/masanes/12masanes.html
Studio e sperimentazione di un crawler avanzato per
l'harvesting delle biblioteche nazionali
UNESCO. Charter on the Preservation of the Digital
Heritage. - 2003
http://www.ifap.ru/ofdocs/digite.doc
[doc, 30 KB], oppure
http://infolac.ucol.mx/observatorio/memoria/carta%20ingles.pdf
[pdf, 17 KB]
Web Archiving - Bibliography / Austrian On-Line Archive
http://www.ifs.tuwien.ac.at/~aola/links/WebArchiving.html
Aggiornata al 2004
Werf, Titia van der. Experience of the National
Library of the Netherlands. - 2002.
http://www.clir.org/pubs/reports/pub107/vanderwerf.html
Una concreta applicazione del modello OAIS
Copyright AIB
2004-06,
ultimo aggiornamento
2004-06-15
a cura di
Giovanni Bergamin
URL: https://www.aib.it/aib/commiss/bdigit/deplegdig.htm