[AIB]

Gruppo di studio sulle biblioteche digitali

Posta elettronica: <messina@marciana.venezia.sbn.it>
AIB-WEB   |   Commissioni e gruppi   |   Gruppo biblioteche digitali

Proposte tecniche per il deposito legale dei"documenti diffusi tramite rete informatica"[1]

 

Scopo del presente documento è quello di delineare alcune proposte tecniche sostenibili relativamente al deposito legale dei documenti diffusi tramite rete informatica.

La prima sezione richiama alcune problematiche tecniche e giuridiche collegate alla tecnologia di raccolta automatica (harvesting). La seconda sintetizza il lavoro di archiviazione del web portato avanti da Internet Archive

La terza sezione cerca di fare il punto sull'uso dell' harvesting nel contesto del deposito legale.

La quarta e la quinta sezione cercano di offrire - senza alcuna pretesa di completezza - una panoramica internazionale sull'applicazione del deposito legale dei documenti diffusi tramite rete informatica.

1. Harvesting

E' uno degli strumenti fondamentali per la vita della rete. Da oltre dieci anni tutti i motori di ricerca lo usano.

Come è noto il crawler (o spider o robot) può essere visto come un browser (ad esempio Firefox, Safari o Internet Explorer) che viene attivato in maniera automatica. In pratica vengono forniti in input uno più indirizzi di rete (URL). Il crawler provvede quindi alla chiamata automatica di tali indirizzi e registra (raccoglie) le risposte ottenute. Se la riposta ottenuta (tipicamente una pagina HTML) contiene altri indirizzi (URL) il crawler - compatibilmente con le istruzioni ricevute - provvede ad attivare iterativamente nuovi cicli di raccolta.

Normalmente tutti i crawler rispettano le regole di robots exclusion [2]. Ogni sito ha infatti la possibilità di limitare in tutto o in parte l'harvesting esponendo le regole della casa in un file apposito - robots.txt - posto nella radice del sito o - pagina per pagina - in opportuni campi HTML contenenti metainformazioni sulla pagina (campi META)[3]. Inoltre tutti i crawler di norma accompagnano la propria richiesta fornendo anche il proprio nome o User-agent. In questo modo un sito può limitare selettivamente l'harvesting.

[ROBOTS.TXT del sito La repubblica]
Esempio di robots.txt del sito La repubblica (vengono escluse alcune directory dall'harvesting per tutti - questo è il significato dell'asterisco - i crawler)
[ROBOTS.TXT del sito dramma.it]
Esempio di robots.txt del sito dramma.it (vengono escluse alcune directory dall'harvesting per tutti - questo è il significato dell'asterisco - i crawler) e viene inoltre escluso l'accesso a tutto il sito (questo è il significato della barra "/") ad alcuni crawler puntualmente identificati con webmirror, webcopy, WinHTTrack ecc.

Dal punto di vista del diritto d'autore l'harvesting si configura come una copia: le pagine vengono infatti trasferite - di solito mediante il protocollo http - dal server web alle memorie di massa gestite dal crawler. Nel caso di Google ad esempio la pagina raccolta - oltre ad essere indicizzata - viene anche memorizzata come copia cache[4].

La copia è esplicitamente vietata dalla normativa sul diritto d'autore. Solo l'autore ha infatti "il diritto esclusivo di autorizzare o vietare la riproduzione diretta o indiretta, temporanea o permanente, in qualunque modo o forma, in tutto o in parte" [art. 2 direttiva 2001/29 CE del 22 maggio 2001]. Per evitare sanzioni all'utente che semplicemente naviga tra i siti web, ma che per vedere deve comunque copiare (in pratica navigare è utilizzare una tecnologia di harvesting - sia pure in maniera limitata e temporanea) la normativa comunitaria prevede eccezioni per gli "atti di riproduzione temporanea privi di rilievo economico proprio" e che siano "parte integrante e necessaria e essenziale di un procedimento tecnologico" allo scopo di consentire la "trasmissione in rete" e "l'uso legittimo" [art 5, c. 1 direttiva 2001/29 CE del 22 maggio 2001 o per le banche dati art. 6 direttiva 96/9 CE del 11 marzo 1996].

I motori di ricerca come ad esempio Google quindi non godrebbero a rigore di questa eccezione. Il fatto di offrire tecniche di a priori opt-out (robots.txt) non li mette infatti al riparo. Il detentore dei diritti non è tenuto ad applicare queste tecniche e il silenzio non può essere interpretato come assenso all'harvesting.Tuttavia nessuno fino a oggi ha seriamente sostenuto l'illegalità dei motori di ricerca. In questo come in altri casi prevale una caratteristica fondamentale della rete: i motori di ricerca fanno parte di un gioco a guadagno condiviso. Internet senza motori di ricerca perderebbe gran parte del suo valore e sarebbe come una biblioteca senza catalogo [5].

2. Internet Archive

E' una fondazione senza scopo di lucro che archivia il risultato della raccolta automatica dei siti web dal 1996 e li mette a disposizione - di solito dopo un anno dalla raccolta - attraverso la sua Wayback Machine. Dal punto di vista del copyright l'archiviazione e la ripubblicazione costituirebbero aggravanti rispetto alla semplice raccolta. Internet Archive oltre ad offrire le possibilità tipiche dei motori di ricerca - a priori opt-out (robots.txt) - offre anche la possibilità di un a posteriori opt-out: chi non vuole essere archiviato e ripubblicato può chiedere la rimozione delle proprie pagine pubblicate dallaWayback Machine. A questo indirizzo http://web.archive.org/web/*/http://www.aib.it si possono trovare ad esempio tutte le sessioni di raccolta dal 1997 del sito AIB-WEB.

Nella logica del fair use e del gioco a guadagno condiviso Internet Archive non ha mai dovuto affrontare obiezioni bloccanti dal punto di vista legale (in un ambiente come quello americano sicuramente non tranquillo quanto a aperture di contenzioso)[6].

Internet Archive è membro di IIPC [7] e collabora con molte istituzioni : ad esempio per conto di UK Archive [8] effettua periodicamente l'harvesting dei siti della pubblica amministrazione del Regno Unito.

3. Harvesting per il deposito legale

In generale l'harvesting viene considerata la tecnologia più efficiente e sostenibile per il deposito legale dei siti web[9]. Altre soluzioni sono:

Alternative all'harvesting sono (e devono essere) prese in conto solo dove l'harvesting non è in grado di dare i risultati cercati (per esempio per il deep web)[12]

La raccolta automatica - se usata responsabilmente - non crea alcun problema al sito (ad esempio lanciare contemporaneamente un eccessivo numero di istanze di un crawler verso il medesimo sito, potrebbe essere considerato un uso non responsabile).

La legge 106/2004 non entra nel merito nelle tecnologie utili al deposito. L'art. 5, c 5 lettera g) rinvia al regolamento per la definizione di "speciali criteri e modalità di deposito" per i documenti h) [manifesti] q) [su supporto informatico] r) [diffusi tramite rete informatica].

Se il deposito legale di un documento tradizionale (libro) si effettua mediante il trasferimento di proprietà del supporto (ma come sappiamo non vi è trasferimento del diritto d'autore e dei diritti connessi), il deposito legale dei documenti diffusi tramite rete informatica si effettua mediante una copia del documento dalle memorie di massa del sito web alle memorie di massa gestiste dall'istituzione depositaria. Quanto ai problemi di copyright - "diritto alla copia" - è evidente che l'harvesting - in quanto tecnica di copia - in questo caso sarebbe pienamente autorizzato dal deposito legale (il deposito legale è una di quelle eccezioni e limitazioni al diritto di autore che molte legislazioni prevedono).[13]

Non si vedono quindi ragioni per non usare per il deposito legale una tecnologia collaudata e consolidata come l'harvesting naturalmente nel pieno rispetto delle regole della casa sopra richiamate: prendendo cioè sempre atto della volontà del soggetto obbligato rispetto alle tecnologie di raccolta automatica. In altre parole si potrebbe lasciare sempre al soggetto obbligato la decisione su come effettuare il deposito legale: se accettare l'harvesting qualificato dell'istituzione depositaria o se attivare direttamente la procedura di consegna. E' ragionevole ritenere che il soggetto obbligato ricorra a questa seconda e più costosa modalità solo se ne ha fondati motivi.[14]

4. Cooperazione internazionale e sperimentazione BNCF

4.1. Deposito volontario

Dal 2000 la BNCF ha stipulato accordi di deposito volontario di pubblicazioni digitali con editori, università e altre istituzioni culturali [15] . Il deposito viene effettuato con regolarità mediante l'uso dell'harvesting.

4.2. International Internet Preservation Consortium

Dal 2002 è attivo un Consorzio denominato IIPC (International Internet Preservation Consortium). Si tratta di un Consorzio tra importanti biblioteche nazionali internazionali e Internet Archive. Fanno parte del Consorzio la Biblioteca Nazionale Centrale di Firenze, la Biblioteca Nazionale Francese (che ha attualmente il ruolo di coordinatore), la Library of Congress, la British Library, la Biblioteca nazionale australiana e quella canadese; inoltre le biblioteche nazionali di Svezia, Finlandia, Norvegia, Danimarca e Islanda portano nel consorzio l'esperienza dell'harvesting dello spazio web nazionale del Nordic Web Archive.

Il Consorzio si propone di:

5. Situazione internazionale

Francia

UK

Danimarca

Svezia

Finlandia

Norvegia

Olanda[17]

6. Nota tecnica finale

Dagli elementi raccolti una proposta di regolamento sostenibile per quanto riguarda documenti diffusi tramite rete informatica potrebbe avere (dal punto di vista tecnico ) le linee guida che seguono:

  1. è conveniente effettuare una sperimentazione - per uno o due anni e senza l'applicazione di sanzioni - con le caratteristiche indicate nei punti successivi;
  2. il soggetto obbligato ha la facoltà di scegliere tra consegna in un formato concordato e la raccolta automatica;
  3. le istituzioni depositarie garantiscono che l'accesso alle pubblicazioni depositate sia esclusivamente effettuato da utenti registrati e da postazioni interne alle istituzioni stesse;
  4. il soggetto obbligato può esplicitamente autorizzare l'istituzione depositaria alla diffusione in rete di quanto depositato;
  5. la Biblioteca Nazionale Centrale di Firenze propone le caratteristiche tecniche e i formati per la sperimentazione - sia per la consegna che per la raccolta automatica ( l'evoluzione del formato usato da Internet Archive - WARC è in corso di standardizzazione a livello internazionale)
  6. le istituzioni depositarie si coordinano - coinvolgendo anche le associazioni degli editori - e concordano:
    • le priorità nell'harvesting;
    • il controllo di qualità e il controllo bibliografico di quanto viene raccolto automaticamente;
    • le priorità e le modalità di trattamento del deep web

Note

<-- 1   Appunti di lavoro preparati da Giovanni Bergamin, Responsabile Servizi Informatici della Biblioteca Nazionale Centrale di Firenze per la preparazione del Regolamento di applicazione della L. 106/2004. Ultima revisione 2005-03-30. Il testo è stato aggiornato e adattato alla pubblicazione su AIB-WEB dall'autore il 2005-12-08. Per la nascita e le coordinate di questo documento occorre riferirsi a Nuova legge sul deposito legale e documenti digitali / documento di lavoro preparato dal Gruppo AIB Biblioteche digitali -Versione 8 del 1 giugno 2004.

<-- 2   Si veda http://www.robotstxt.org/wc/norobots.html. Il crawler naturalmente potrebbe non tenere conto di queste regole (non si tratta in altre parole di divieti protetti tecnologicamente)

<-- 3   Per esempio Google consente a chi pubblica il sito il controllo completo di quello che viene indicizzato: http://www.google.it/intl/it/webmasters/remove.html

<-- 4   Si tratta di una archiviazione temporanea tra due sessioni di raccolta

<-- 5   Per l'espressione a priori opt-out si può vedere Legal issues relating to the archiving of Internet / Andrew Charlesworth - Version 1.0 (25 February 2003). [pdf, 344 KB] Per l'epressione gioco a guadagno condiviso - traduzione di win win game - si rinvia all'interessante La rete continua a espandersi anche se il "grande balzo" è finito / Giuseppe Caravita apparso sul n. 26(2001) di Telèma

<-- 6   Internet Archive attualmente - classifica Alexa - è tra i 500 siti più consultati al mondo: 149. posto (2005-12-08)

<-- 7   Si veda più avanti nella quarta sezione una sintesi sugli obiettivi di IIPC

<-- 8   Si veda UK Government Web Archive

<-- 9   Questo è tra gli altri il parere del IIPC (International Internet Preservation Consortium) del quale fa parte anche la BNCF - si veda ai paragrafi 4 e 5.

<-- 10   Sarebbe più costoso perché l'istituzione depositante si dovrebbe dotare di un software per lo scarico in formato standard; inoltre l'istituzione depositaria sarebbe impegnata in una non facile verifica di quanto perviene. Nel caso dell'harvesting l'istituzione depositante non ha alcun onere a suo carico: può - se lo ritiene necessario - preparare un file (robots.txt) da mettere nella radice (root) del sito con le istruzioni per il crawler.

<-- 11   Per esempio PageVault che installato sul Sever registra tutte le risposte alle richieste pervenute.

<-- 12   Si veda a questo proposito caso olandese descritto nella 5. sezione

<-- 13   Il supporto è in questo caso inessenziale e non vi è la possibilità di distinguere originale da copia . Interessanti riflessioni in http://www.interlex.it/docdigit/intro/intro9.htm.

<-- 14   Una soluzione operativa "In 1993 and 1994 there have been occasions where robots have visited WWW servers where they weren't welcome for various reasons. Sometimes these reasons were robot specific, e.g. certain robots swamped servers with rapid-fire requests, or retrieved the same files repeatedly. In other situations robots traversed parts of WWW servers that weren't suitable, e.g. very deep virtual trees, duplicated information, temporary information, or cgi-scripts with side-effects (such as voting).These incidents indicated the need for established mechanisms for WWW servers to indicate to robots which parts of their server should not be accessed. This standard addresses this need with an operational solution". Da: http://www.robotstxt.org/wc/norobots.html.

<-- 15   L'accordo tipo che al momento riguarda una ventina di istituzioni si può trovare in http://www.bncf.firenze.sbn.it/progetti/Europe/index.html

<-- 16   La formulazione è davvero molto vicina a quella italiana. Le citazioni sono tratte da http://www.netarchive.dk/index-en.htm

<-- 17   Le notizie sono raccolte e citate da http://www.kb.nl/bst/jaar/kb2003/act21-en.html


© AIB 2005-12, aggiornamento 2005-12-08 a cura di Giovanni Bergamin e della Redazione AIB-WEB ([MAIL:]  <AW-cg-tecn@aib.it>)
URL: <http://www.aib.it/aib/cg/gbdigd05.htm3>

AIB-WEB   |   Commissioni e gruppi   |   Gruppo biblioteche digitali