AIB. Gruppo biblioteche digitali. Deposito legale documenti in rete

Proposte tecniche per il deposito legale dei"documenti diffusi tramite rete informatica"[1]

Scopo del presente documento è quello di delineare alcune proposte tecniche sostenibili relativamente al deposito legale dei documenti diffusi tramite rete informatica.

La prima sezione richiama alcune problematiche tecniche e giuridiche collegate alla tecnologia di raccolta automatica (harvesting). La seconda sintetizza il lavoro di archiviazione del web portato avanti da Internet Archive

La terza sezione cerca di fare il punto sull'uso dell' harvesting nel contesto del deposito legale.

La quarta e la quinta sezione cercano di offrire - senza alcuna pretesa di completezza - una panoramica internazionale sull'applicazione del deposito legale dei documenti diffusi tramite rete informatica.

1. Harvesting

E' uno degli strumenti fondamentali per la vita della rete. Da oltre dieci anni tutti i motori di ricerca lo usano.

Come è noto il crawler (o spider o robot) può essere visto come un browser (ad esempio Firefox, Safari o Internet Explorer) che viene attivato in maniera automatica. In pratica vengono forniti in input uno più indirizzi di rete (URL). Il crawler provvede quindi alla chiamata automatica di tali indirizzi e registra (raccoglie) le risposte ottenute. Se la riposta ottenuta (tipicamente una pagina HTML) contiene altri indirizzi (URL) il crawler - compatibilmente con le istruzioni ricevute - provvede ad attivare iterativamente nuovi cicli di raccolta.

Normalmente tutti i crawler rispettano le regole di robots exclusion [2]. Ogni sito ha infatti la possibilità di limitare in tutto o in parte l'harvesting esponendo le regole della casa in un file apposito - robots.txt - posto nella radice del sito o - pagina per pagina - in opportuni campi HTML contenenti metainformazioni sulla pagina (campi META)[3]. Inoltre tutti i crawler di norma accompagnano la propria richiesta fornendo anche il proprio nome o User-agent. In questo modo un sito può limitare selettivamente l'harvesting.

Esempio di robots.txt del sito La repubblica (vengono escluse alcune directory dall'harvesting per tutti - questo è il significato dell'asterisco - i crawler)

Esempio di robots.txt del sito dramma.it (vengono escluse alcune directory dall'harvesting per tutti - questo è il significato dell'asterisco - i crawler) e viene inoltre escluso l'accesso a tutto il sito (questo è il significato della barra "/") ad alcuni crawler puntualmente identificati con webmirror, webcopy, WinHTTrack ecc.

Dal punto di vista del diritto d'autore l'harvesting si configura come una copia: le pagine vengono infatti trasferite - di solito mediante il protocollo http - dal server web alle memorie di massa gestite dal crawler. Nel caso di Google ad esempio la pagina raccolta - oltre ad essere indicizzata - viene anche memorizzata come copia cache[4].

La copia è esplicitamente vietata dalla normativa sul diritto d'autore. Solo l'autore ha infatti "il diritto esclusivo di autorizzare o vietare la riproduzione diretta o indiretta, temporanea o permanente, in qualunque modo o forma, in tutto o in parte" [art. 2 direttiva 2001/29 CE del 22 maggio 2001]. Per evitare sanzioni all'utente che semplicemente naviga tra i siti web, ma che per vedere deve comunque copiare (in pratica navigare è utilizzare una tecnologia di harvesting - sia pure in maniera limitata e temporanea) la normativa comunitaria prevede eccezioni per gli "atti di riproduzione temporanea privi di rilievo economico proprio" e che siano "parte integrante e necessaria e essenziale di un procedimento tecnologico" allo scopo di consentire la "trasmissione in rete" e "l'uso legittimo" [art 5, c. 1 direttiva 2001/29 CE del 22 maggio 2001 o per le banche dati art. 6 direttiva 96/9 CE del 11 marzo 1996].

I motori di ricerca come ad esempio Google quindi non godrebbero a rigore di questa eccezione. Il fatto di offrire tecniche di a priori opt-out (robots.txt) non li mette infatti al riparo. Il detentore dei diritti non è tenuto ad applicare queste tecniche e il silenzio non può essere interpretato come assenso all'harvesting.Tuttavia nessuno fino a oggi ha seriamente sostenuto l'illegalità dei motori di ricerca. In questo come in altri casi prevale una caratteristica fondamentale della rete: i motori di ricerca fanno parte di un gioco a guadagno condiviso. Internet senza motori di ricerca perderebbe gran parte del suo valore e sarebbe come una biblioteca senza catalogo [5].

2. Internet Archive

E' una fondazione senza scopo di lucro che archivia il risultato della raccolta automatica dei siti web dal 1996 e li mette a disposizione - di solito dopo un anno dalla raccolta - attraverso la sua Wayback Machine. Dal punto di vista del copyright l'archiviazione e la ripubblicazione costituirebbero aggravanti rispetto alla semplice raccolta. Internet Archive oltre ad offrire le possibilità tipiche dei motori di ricerca - a priori opt-out (robots.txt) - offre anche la possibilità di un a posteriori opt-out: chi non vuole essere archiviato e ripubblicato può chiedere la rimozione delle proprie pagine pubblicate dallaWayback Machine. A questo indirizzo http://web.archive.org/web/*/http://www.aib.it si possono trovare ad esempio tutte le sessioni di raccolta dal 1997 del sito AIB-WEB.

Nella logica del fair use e del gioco a guadagno condiviso Internet Archive non ha mai dovuto affrontare obiezioni bloccanti dal punto di vista legale (in un ambiente come quello americano sicuramente non tranquillo quanto a aperture di contenzioso)[6].

Internet Archive è membro di IIPC [7] e collabora con molte istituzioni : ad esempio per conto di UK Archive [8] effettua periodicamente l'harvesting dei siti della pubblica amministrazione del Regno Unito.

3. Harvesting per il deposito legale

In generale l'harvesting viene considerata la tecnologia più efficiente e sostenibile per il deposito legale dei siti web [9]. Altre soluzioni sono:

più costose e poco efficienti (ad esempio lo scarico - download - del sito in un formato standard e la consegna all'istituzione depositaria) [10];
più invasive (plug-in lato Server Web).[11].

Alternative all'harvesting sono (e devono essere) prese in conto solo dove l'harvesting non è in grado di dare i risultati cercati (per esempio per il deep web)[12]

La raccolta automatica - se usata responsabilmente - non crea alcun problema al sito (ad esempio lanciare contemporaneamente un eccessivo numero di istanze di un crawler verso il medesimo sito, potrebbe essere considerato un uso non responsabile).

La legge 106/2004 non entra nel merito nelle tecnologie utili al deposito. L'art. 5, c 5 lettera g) rinvia al regolamento per la definizione di "speciali criteri e modalità di deposito" per i documenti h) [manifesti] q) [su supporto informatico] r) [diffusi tramite rete informatica].

Se il deposito legale di un documento tradizionale (libro) si effettua mediante il trasferimento di proprietà del supporto (ma come sappiamo non vi è trasferimento del diritto d'autore e dei diritti connessi), il deposito legale dei documenti diffusi tramite rete informatica si effettua mediante una copia del documento dalle memorie di massa del sito web alle memorie di massa gestiste dall'istituzione depositaria. Quanto ai problemi di copyright - "diritto alla copia" - è evidente che l'harvesting - in quanto tecnica di copia - in questo caso sarebbe pienamente autorizzato dal deposito legale (il deposito legale è una di quelle eccezioni e limitazioni al diritto di autore che molte legislazioni prevedono).[13]

Non si vedono quindi ragioni per non usare per il deposito legale una tecnologia collaudata e consolidata come l'harvesting naturalmente nel pieno rispetto delle regole della casa sopra richiamate: prendendo cioè sempre atto della volontà del soggetto obbligato rispetto alle tecnologie di raccolta automatica. In altre parole si potrebbe lasciare sempre al soggetto obbligato la decisione su come effettuare il deposito legale: se accettare l'harvesting qualificato dell'istituzione depositaria o se attivare direttamente la procedura di consegna. E' ragionevole ritenere che il soggetto obbligato ricorra a questa seconda e più costosa modalità solo se ne ha fondati motivi.[14]

4. Cooperazione internazionale e sperimentazione BNCF

4.1. Deposito volontario

Dal 2000 la BNCF ha stipulato accordi di deposito volontario di pubblicazioni digitali con editori, università e altre istituzioni culturali [15] . Il deposito viene effettuato con regolarità mediante l'uso dell'harvesting.

4.2. International Internet Preservation Consortium

Dal 2002 è attivo un Consorzio denominato IIPC (International Internet Preservation Consortium). Si tratta di un Consorzio tra importanti biblioteche nazionali internazionali e Internet Archive. Fanno parte del Consorzio la Biblioteca Nazionale Centrale di Firenze, la Biblioteca Nazionale Francese (che ha attualmente il ruolo di coordinatore), la Library of Congress, la British Library, la Biblioteca nazionale australiana e quella canadese; inoltre le biblioteche nazionali di Svezia, Finlandia, Norvegia, Danimarca e Islanda portano nel consorzio l'esperienza dell'harvesting dello spazio web nazionale del Nordic Web Archive.

Il Consorzio si propone di:

rendere possibile la conservazione (intesa come salvaguardia e possibilità di accesso nel lungo periodo) della ricchezza dei contenuti di Internet provenienti da tutto il mondo;
favorire lo sviluppo e l'uso di strumenti, tecniche e standard condivisi per la creazione di archivi internazionali;
sostenere le biblioteche nazionali che intendono occuparsi dell'archiviazione di Internet.

5. Situazione internazionale

Francia

Coordina IIPC
Ha sperimentato l'harvesting soprattutto in relazione al deep web e harvesting selettivo (campagne elettorali)
l'approvazione del progetto di legge 1206/2003 (che prevede anche l'harvesting) è prevista per il 2006: "la loi habilite l'organisme dépositaire à collecter selon des procédures automatiques. Un robot, à l'image des moteurs de recherche parcourra de liens en liens les sites afin de les collecter. L'organisme dépositaire devra alors rendre disponible l'information sur les procédures de collecte qu'il met en oeuvre ; le robot devra se signaler". Da: http://www.bnf.fr/pages/infopro/depotleg/dl-internet.htm

Partecipa a IIPC
Nel 2003 è stato emanato il Legal deposit Act: "Subsection (5) makes provision for regulating "web harvesting" by deposit libraries, that is copying material directly from the internet. Where the copying is in accordance with regulations under this subsection, the restrictions and exemptions created by sections 7 and 8 and subsection (6) of this section will apply. The regulations will set out the description of works that may be so copied (which must have a connection with the United Kingdom), and any conditions imposed on the copying."
E' in preparazione il regolamento

Danimarca

Sperimentazione dal 2001 "The Royal Library's special focus is snapshot harvesting whereas The State and University Library will concentrate on selective and event-based harvesting and delivered material. The two libraries work closely together on the establishment of the whole archive and develop, in collaboration, strategies and software for the collection, archiving, preservation and access of material."
A new Legal Deposit Act, which allows for harvest of the Internet, was passed by the Danish parliament on December 16, 2004 and will take effect on July 1, 2005. The new act covers "materials made public" (offentliggjort materiale) by which is meant:
- Works published in physical form This section, which is identical to the present law, covers works published in physical form, regardless of medium.
- Materials made public via electronic communication network [16]This section, which is new to Legal Deposit in Denmark, allows for the harvesting of materials made public on Danish Internet domains and materials aimed ata Danish audience and made public on non-Danish Internet domains.

Svezia

Un decreto del 2002 autorizza la Biblioteca Nazionale all'harvesting

Finlandia

L'harvesting viene effettuato dal 1999 dalla Biblioteca Nazionale: è in preparazione una nuova legge sul deposito legale. Da: http://www.minedu.fi/julkaisut/tiede/2003/tr14/Legal_Deposit_Act.pdf [pdf, 99 k].

Norvegia

Dal 2000 "The Nordic Web Archive (NWA) project is a cooperation between all the national libraries in the nordic countries (Denmark, Finland, Iceland, Norway and Sweden). All these libraries are working on legal deposit of the national web-spaces. In NWA we try to find a common way to meet this challenge. The current activity of the project is funded by Nordunet, and the focus lies on access to a historical web archive": http://nwa.nb.no/

Olanda[17]

Non esiste una legge sul deposito legale. Anche le pubblicazioni tradizionali vengono inviate alla Biblioteca Nazionale in seguito a accordi di deposito volontario.
Data la presenza in Olanda della sede principale di vere e proprie multinazionali dell'editoria elettronica a pagamento (Elsevier, Kluwer ecc) la Biblioteca nazionale olandese ha siglato accordi con questi editori per il deposito volontario degli articoli dei periodici: "In 2002, the KB took the step to include international scientific e-journals in its deposit collection by signing the first formal archiving agreement with Elsevier Science. By doing so the KB became treasurer of an important part of the digital Records of Science. This responsibility implies an ongoing search for solutions for preservation and permanent access."
Interessante notare:
- in questo caso non si fa ricorso alla tecnologia dell'harvesting, ma a un formato concordato (possibile e conveniente perché le pubblicazioni sono tutte concentrate su pochi editori)
- la fruizione delle pubblicazioni acquisite come "open access": "The BioMed periodicals are freely available, both inside and outside the KB. BioMed Central is an 'Open Access' publisher, which means that the research results published by BioMed Central can be distributed online for free and without licensing limitations. At the moment BioMed Central's collection consists of 1,000 periodicals with more than 2,500 articles, and it is growing rapidly".

6. Nota tecnica finale

Dagli elementi raccolti una proposta di regolamento sostenibile per quanto riguarda documenti diffusi tramite rete informatica potrebbe avere (dal punto di vista tecnico ) le linee guida che seguono:

è conveniente effettuare una sperimentazione - per uno o due anni e senza l'applicazione di sanzioni - con le caratteristiche indicate nei punti successivi;
il soggetto obbligato ha la facoltà di scegliere tra consegna in un formato concordato e la raccolta automatica;
le istituzioni depositarie garantiscono che l'accesso alle pubblicazioni depositate sia esclusivamente effettuato da utenti registrati e da postazioni interne alle istituzioni stesse;
il soggetto obbligato può esplicitamente autorizzare l'istituzione depositaria alla diffusione in rete di quanto depositato;
la Biblioteca Nazionale Centrale di Firenze propone le caratteristiche tecniche e i formati per la sperimentazione - sia per la consegna che per la raccolta automatica ( l'evoluzione del formato usato da Internet Archive - WARC è in corso di standardizzazione a livello internazionale)
le istituzioni depositarie si coordinano - coinvolgendo anche le associazioni degli editori - e concordano:
- le priorità nell'harvesting;
- il controllo di qualità e il controllo bibliografico di quanto viene raccolto automaticamente;
- le priorità e le modalità di trattamento del deep web

Note

<-- 1 Appunti di lavoro preparati da Giovanni Bergamin, Responsabile Servizi Informatici della Biblioteca Nazionale Centrale di Firenze per la preparazione del Regolamento di applicazione della L. 106/2004. Ultima revisione 2005-03-30. Il testo è stato aggiornato e adattato alla pubblicazione su AIB-WEB dall'autore il 2005-12-08. Per la nascita e le coordinate di questo documento occorre riferirsi a Nuova legge sul deposito legale e documenti digitali / documento di lavoro preparato dal Gruppo AIB Biblioteche digitali -Versione 8 del 1 giugno 2004.

<-- 2 Si veda http://www.robotstxt.org/wc/norobots.html. Il crawler naturalmente potrebbe non tenere conto di queste regole (non si tratta in altre parole di divieti protetti tecnologicamente)

<-- 3 Per esempio Google consente a chi pubblica il sito il controllo completo di quello che viene indicizzato: http://www.google.it/intl/it/webmasters/remove.html

<-- 4 Si tratta di una archiviazione temporanea tra due sessioni di raccolta

<-- 5 Per l'espressione a priori opt-out si può vedere Legal issues relating to the archiving of Internet / Andrew Charlesworth - Version 1.0 (25 February 2003). [pdf, 344 KB] Per l'epressione gioco a guadagno condiviso - traduzione di win win game - si rinvia all'interessante La rete continua a espandersi anche se il "grande balzo" è finito / Giuseppe Caravita apparso sul n. 26(2001) di Telèma

<-- 6 Internet Archive attualmente - classifica Alexa - è tra i 500 siti più consultati al mondo: 149. posto (2005-12-08)

<-- 7 Si veda più avanti nella quarta sezione una sintesi sugli obiettivi di IIPC

<-- 8 Si veda UK Government Web Archive

<-- 9 Questo è tra gli altri il parere del IIPC (International Internet Preservation Consortium) del quale fa parte anche la BNCF - si veda ai paragrafi 4 e 5.

<-- 10 Sarebbe più costoso perché l'istituzione depositante si dovrebbe dotare di un software per lo scarico in formato standard; inoltre l'istituzione depositaria sarebbe impegnata in una non facile verifica di quanto perviene. Nel caso dell'harvesting l'istituzione depositante non ha alcun onere a suo carico: può - se lo ritiene necessario - preparare un file (robots.txt) da mettere nella radice (root) del sito con le istruzioni per il crawler.

<-- 11 Per esempio PageVault che installato sul Sever registra tutte le risposte alle richieste pervenute.

<-- 12 Si veda a questo proposito caso olandese descritto nella 5. sezione

<-- 13 Il supporto è in questo caso inessenziale e non vi è la possibilità di distinguere originale da copia . Interessanti riflessioni in http://www.interlex.it/docdigit/intro/intro9.htm.

<-- 14 Una soluzione operativa "In 1993 and 1994 there have been occasions where robots have visited WWW servers where they weren't welcome for various reasons. Sometimes these reasons were robot specific, e.g. certain robots swamped servers with rapid-fire requests, or retrieved the same files repeatedly. In other situations robots traversed parts of WWW servers that weren't suitable, e.g. very deep virtual trees, duplicated information, temporary information, or cgi-scripts with side-effects (such as voting).These incidents indicated the need for established mechanisms for WWW servers to indicate to robots which parts of their server should not be accessed. This standard addresses this need with an operational solution". Da: http://www.robotstxt.org/wc/norobots.html.

<-- 15 L'accordo tipo che al momento riguarda una ventina di istituzioni si può trovare in http://www.bncf.firenze.sbn.it/progetti/Europe/index.html

<-- 16 La formulazione è davvero molto vicina a quella italiana. Le citazioni sono tratte da http://www.netarchive.dk/index-en.htm

<-- 17 Le notizie sono raccolte e citate da http://www.kb.nl/bst/jaar/kb2003/act21-en.html

Gruppo di studio sulle biblioteche digitali