AIB Notizie 1/2005. Baldacchini Lorenzo. Roncaglia Gino.

AIB Notizie 1/2005

AIB-WEB | AIB Notizie | Sommario fascicolo 1/2005

Google a "Fahrenheit"

Il 15 dicembre nella trasmissione radiofonica di Rai Tre “Fahrenheit”, sull’onda del clamore suscitato dal progetto di Google sulla biblioteca universale in rete sono stati intervistati Lorenzo Baldacchini e Gino Roncaglia. Per tutti quelli che avrebbero voluto e non hanno potuto ascoltarli abbiamo chiesto ai due professori di intervenire su «AIB notizie».

Lorenzo Baldacchini

La notizia, apparsa nei giorni immediatamente precedenti Natale del progetto Google relativo alla c.d. biblioteca universale, era di quelle destinate a suscitare inevitabilmente non solo discussioni e dibattiti, ma anche entusiasmi e depressioni, che alla lunga si riveleranno probabilmente ingiustificati. Anche la stampa quotidiana e i media in genere (tranne la televisione italiana, per quanto mi risulta, ma non sono un telespettatore attento) hanno dato più o meno spazio, non solo alla notizia in sé, i cui contorni non sono ancora del tutto chiari, come qualcuno ha fatto notare su AIB-CUR, ma anche a commenti più o meno interessanti. L’articolo di Franco Carlini su «Il manifesto» del 19 dicembre è stato apprezzato in ambito bibliotecario e non solo per il riferimento alle «attività preziose finora svolte dai bibliotecari, un mestiere che non solo è destinato a permanere, ma anche, si spera, a estendersi e rafforzarsi». Di tono un po’ più trionfalistico è invece l’intervento di Vittorio Zucconi su «la Repubblica»” del 15 dicembre. D’altra parte non sono mancate “risposte” anche importanti al progetto Google, come quella illustrata da Mark Chillingwort relativa al progetto Internet Archivi, (http://www.iwr.co.uk/News/1160176), segnalata anch’essa su AIB-CUR. Accanto al problema di fondo, quello dell’accessibilità (gratuita per Internet Archive, e – sembrerebbe – anche per Google) ce ne sono altri non meno importanti quali la selezione dei testi, la conservazione delle riproduzioni, la fedeltà delle copie all’originale ecc. Anch’io sono stato interpellato in una trasmissione radiofonica, la quale, parlando di libri, non poteva non mettere l’accento su un tema che si ripropone, forse anche un po’ stancamente, a ondate periodiche: quello del destino del libro cartaceo. La preoccupazione maggiore riecheggia quella del famoso passo di Victor Hugo in Notre Dame de Paris: «L’arcidiacono osservò per qualche tempo in silenzio il gigantesco edificio, poi stendendo con un sospiro la mano destra verso il libro stampato che era aperto sul suo tavolo e la mano sinistra verso Notre-Dame, e andando tristemente con lo sguardo dal libro alla chiesa: Ahimè – egli disse, – questo ucciderà quella». Più avanti l’arcidiacono aggiunge: «Ahimè! Ahimè! le piccole cose hanno la meglio sulle grandi». Oggi sembrerebbe che siano le cose prive di corpo ad avere la meglio sulle quelle materiali. La grande biblioteca universale su Google, se da una parte sembra realizzare un sogno vecchio di secoli, dall’altro rischia di uccidere il vecchio libro in forma di codice. Ma le cose stanno veramente così? Lo stesso Hugo, nel capitolo successivo suggerisce una chiave di lettura che può tornare utile anche per analizzare meglio certe paure di oggi: «Era il timore di un sacerdozio di fronte a un fenomeno nuovo, la stampa. Era lo spavento e lo stupore dell’uomo del santuario di fronte al torchio luccicante di Gutenberg». Nella lettura dei fenomeni – semplifico naturalmente – cerchiamo di spogliarci del nostro ruolo di donne e uomini “del santuario”. E cerchiamo di non essere vittime di sogni ed incubi. Il sogno è quello della biblioteca universale: bisogna evitare però che questa grande utopia positiva, nell’avverarsi si trasformi in utopia negativa, tema caro ad Alberto Petrucciani. La prima questione è – a mio avviso – quella delle condizioni della lettura. Il codice è una macchina a suo modo perfetta che si utilizza con tutti e cinque i sensi: facile da trasportare, economica, durevole. La sua particolarità è che si tratta di una macchina, per usare la quale non occorrono particolari strumenti, anzi il software sono in fondo io stesso con la mia capacità di leggere. In ogni caso la proprietà di questo software, fin quando non intervengano fattori biologici, ai quali comunque esiste il modo di ovviare, rimane a vita, ne sono titolare per sempre e nessuno può in alcun modo costringermi a rinegoziarlo. La seconda riguarda il rischio di manipolazioni: dobbiamo esserne coscienti ed essere preparati ad una sorta di nuova filologia. In ogni operazione di riproduzione, sono possibili sia manipolazioni volontarie che involontarie. Chi opera materialmente le riproduzioni spesso non sa nulla intorno ai testi che riproduce, molto meno di quanto ne sapevano gli scribi che copiavano i testi classici e i compositori che li trasferivano nei caratteri mobili. Dunque il patrimonio riprodotto potrà subire alterazioni e mutilazioni. È prevedibile un nuovo Rinascimento che restauri alla fine le versioni originali? In ogni caso le biblioteche potrebbero vedere in questo processo esaltata la loro funzione: sono quasi sempre le custodi degli originali e il loro ruolo deve diventare quello di garanti della fedeltà delle copie. Sanno cogliere questa nuova loro funzione le biblioteche in questo momento storico, sono preparate ad affrontarla? In particolare alle biblioteche nazionali, ma in qualche modo a tutte quelle titolari di documenti digitalizzati e messi in rete, spetta questo compito fondamentale che non è solo la tutela del copyright o del diritto d’autore, comunque importantissimi, ma è qualcosa di più: si tratta della garanzia dell’autenticità, o – come ha detto qualcuno – le biblioteche come luogo della verità. In conclusione, non mi pare che esista per il libro cartaceo un rischio di estinzione immediata, né che questo possa venire da progetti come quello di Google, a patto che ci sia una consapevolezza diffusa su quali siano i problemi reali che comporta il passaggio dall’analogico al digitale. Mi inquietano di più certe notizie come quelle diffuse pure nel periodo prenatalizio (cfr. Riccardo Chiaberge, Alla Feltrinelli il libraio è esaurito, «Il Sole 24 ore», 12 dicembre e Stefano Salis, I librai applaudono, Feltrinelli tace, «Il Sole 24 ore», 19 dicembre). Sarebbe in atto una vera e propria espropriazione di competenze dei librai in alcune grandi catene, come la Feltrinelli, dove le strategie di promozione sarebbero decise da un pull centrale. Anche in questa svalutazione di professioni antiche e gloriose come quella del libraio mi pare di intravedere delle analogie con quanto può accadere nelle biblioteche, ma anche la possibilità, soprattutto per le pubbliche, di svolgere un ruolo di controtendenza, a patto che non cedano alla tentazione – come purtroppo capita di vedere talvolta – di intendere la promozione della lettura come lo scimmiottamento della vetrina di una libreria.

lorenzo.baldacchini@unibo.it

Gino Roncaglia

La notizia del ciclopico progetto di digitalizzazione avviato da Google in collaborazione con alcune grandi biblioteche (fra cui quelle delle università di Harvard, Oxford e Stanford e la New York Public Library) non è certo un fulmine a ciel sereno. Per molti versi, l’annuncio di Google non è che il capitolo più recente – almeno per ora – di una storia già lunga e di enorme rilievo: quella dei tentativi di integrare l’informazione disponibile in rete e l’informazione disponibile fuori dalla rete.
Per capire l’importanza (ma anche la difficoltà) di questi tentativi, occorre tener presente che – nonostante l’indubbia centralità assunta da Internet negli ultimi anni – l’informazione disponibile in rete non è che una frazione dell’informazione circolante nella nostra società. La School of Information Management & Systems della University of California a Berkeley ha diffuso nel 2003 la più recente versione di How much information [1], uno studio non privo di aspetti discutibili, ma che ha il merito di far percepire le dimensioni del problema: secondo tale ricerca, nel 2002 sono stati prodotti complessivamente 5 exabyte [2] di informazione conservata su un qualche supporto (vi è naturalmente anche informazione “di flusso” che non viene conservata, come le telefonate [3]). Ebbene, di questi 5 exabyte ‘solo’ 170 terabyte – cioè meno di un decimillesimo – fanno parte del cosiddetto surface Web, ovvero dell’informazione disponibile su Web e raggiungibile da un motore di ricerca.
Dove si trova tutto il resto dell’informazione che produciamo? La maggior parte (circa il 90%) è sparsa in milioni e milioni di dischi rigidi, ed è fatta di audio, filmati, documenti d’ufficio, lettere (la posta elettronica genera a livello mondiale circa 400.000 terabyte di nuova informazione l’anno, e i sistemi di instant messaging generano nello stesso periodo quasi 300.000 terabyte di informazione). Non stupisce dunque che una delle tecnologie “calde” del 2004 (e prevedibilmente del 2005) sia stata quella dei cosiddetti strumenti di desktop search, che consentono di integrare ricerche in rete e ricerche sui documenti presenti nel nostro disco rigido. Così come non stupisce che Google si sia impegnata a fondo anche in questo campo, con il lancio di Google Desktop [4]. Un altro settore naturale di possibile allargamento delle capacità dei motori di ricerca è rappresentato dal cosiddetto deep Web, che comprende l’intero insieme dei database accessibili attraverso la rete, ai quali si deve – fra l’altro – la realizzazione on demanddelle pagine Web dinamiche. Si tratta di circa 90.000 terabyte di informazione, e gli sforzi fatti per rendere almeno i più importanti fra questi database direttamente interrogabili attraverso la stessa interfaccia utilizzata per la ricerca su Web rappresentano una fetta cospicua, anche se non sempre evidente per il grande pubblico, degli investimenti economici dei grandi motori di ricerca.
Ma arriviamo finalmente alla carta, e alle biblioteche. Secondo la valutazione degli studiosi californiani, una scannerizzazione di buona qualità dell’informazione prodotta nel 2002 e destinata a una fruizione primaria o secondaria su carta richiederebbe circa 1600 terabyte. Di questi, tuttavia, la grande maggioranza è costituita da documenti d’ufficio; in una valutazione puramente quantitativa, alle biblioteche sembrano restare le briciole: circa 39 terabyte di libri e circa 200 terabyte di quotidiani, riviste e periodici di vario genere. Ci sono tuttavia tre osservazioni essenziali, che rendono queste “briciole” particolarmente appetibili: da un lato, c’è un’ovvia considerazione qualitativa: pur essendo una parte relativamente piccola dell’informazione che produciamo complessivamente, libri e riviste contengono molta parte dell’informazione “autorevole”, quella che ha più valore, e dunque che è più importante poter reperire. In secondo luogo, a differenza di quanto avviene per molta parte dell’informazione cartacea “non pubblicata”, ma analogamente a quanto avviene nel caso dell’informazione disponibile su Web, il contenuto di libri e riviste nasce per essere diffuso nel modo più ampio possibile. C’è in questi contenuti, prima ancora di ogni considerazione economica e di gestione dei diritti, una sorta di naturale aspirazione alla reperibilità: potremmo dire che “cercano lettori”. In terzo luogo, non sfuggirà che le dimensioni quantitative di questa fetta così preziosa della nostra produzione informativa sono sostanzialmente dello stesso ordine di grandezza del surface Web con il quale i motori di ricerca sono già abituati ad avere a che fare. Il compito di digitalizzare milioni e milioni di libri è certo ciclopico, ma chi intende affrontarlo sa già – almeno a livello puramente quantitativo – di disporre di strumenti capaci di lavorare con il volume di dati prodotto anche dal più ambizioso dei progetti di digitalizzazione [5].
Questo insieme di considerazioni ci aiuta a capire il contesto dell’interesse manifestato dai principali motori di ricerca per la digitalizzazione e l’indicizzazione di libri e riviste su carta. Un interesse che come si accennava non è legato solo al recente annuncio di Google, ma è già evidente in strumenti come “Search inside the book”, un servizio avviato da Amazon nel 2003 e che permette la ricerca full text e la visualizzazione a schermo delle pagine di circa 100.000 fra i volumi presenti nel catalogo della libreria on-line [6], o come il Content Acquisition Program di Yahoo![7], lanciato nel marzo 2004 e che già prevedeva l’accordo con biblioteche del calibro della Library of Congress e della New York Public Library, oltre all’accordo con l’OCLC per l’integrazione dei record di WorldCat all’interno dei risultati forniti dal motore di ricerca [8]. Anche Google aveva del resto già avviato il programma GooglePrint [9], naturale cornice del progetto annunciato a dicembre. GooglePrint integra all’interno di una normale ricerca di Google [10] anche risultati relativi a un primo gruppo di libri digitalizzati in full text attraverso l’accordo con alcune case editrici, e consultabili di norma con limitazioni nella visualizzazione simili a quelle previste da Amazon. Del cosiddetto “Project Ocean”, ovvero l’allargamento dei contenuti di GooglePrint attraverso la digitalizzazione del patrimonio librario di alcune biblioteche, si parlava già prima dell’annuncio ufficiale dello scorso dicembre, anche se le indiscrezioni iniziali parlavano solo della biblioteca dell’Università di Stanford.
Come si vede, dunque, l’annuncio del progetto di digitalizzazione sponsorizzato da Google era in qualche modo nell’aria. E tuttavia sarebbe erroneo sottovalutarne l’importanza. Al contrario, questo annuncio rappresenta l’esempio finora più significativo e rilevante di quella che potremmo battezzare search engine convergence, ovvero la convergenza di contenuti informativi di origine e natura profondamente diversa all’interno della base dati dei grandi motori di ricerca. E proprio per questo propone (e impone) una riflessione attenta, che riguarda particolarmente da vicino proprio il mondo delle biblioteche.
Giacché non vi è dubbio, ad esempio, che il concetto di biblioteca digitale come offerta di contenuti e servizi attorno a un corpus testuale caratterizzato da una qualche autonomia e uniformità può essere messo in discussione da un modello basato sulla search engine convergence e dunque sull’integrazione di contenuti assai più eterogenei, operante attraverso il solo (o comunque largamente preponderante) servizio rappresentato dalla ricerca full text. Digitalizzando all’interno di un unico progetto un patrimonio librario così vasto, Google pone di fatto le premesse per l’assorbimento, in una forma o nell’altra, di buona parte degli attuali progetti di biblioteca digitale? O quella che viene realizzata è piuttosto una integrazione che non esclude un’offerta differenziata di servizi da parte di biblioteche digitali diverse? È preferibile lavorare per la realizzazione di una sorta di unica “biblioteca digitale universale”, con tutte le connotazioni utopiche dell’idea ma anche con tutti i connessi rischi di controllo non solo dei contenuti ma anche delle modalità di accesso (ad esempio attraverso il controllo degli algoritmi di ordinamento dei risultati di una ricerca, o, in altre forme, attraverso la profilazione dell’utenza [11]), o incoraggiare una diversificazione dei progetti, con il rischio della dispersione e di una perdita di interoperabilità?
Il lavoro sugli standard di codifica e di descrizione dovrebbe garantirci sul versante dell’interoperabilità, ma c’è il rischio che, mentre lavoriamo faticosamente per individuare standard di codifica e insiemi di metadati scientificamente soddisfacenti (e spesso dannatamente faticosi da implementare), milioni di testi vengano digitalizzati seguendo tutt’altri criteri, funzionali alla search engine convergence e, in ultima analisi, a considerazioni di mercato. Giacché vi sono pochi dubbi sul fatto che la consultazione di alcuni di questi contenuti, almeno quelli sotto diritti, verrà in un modo o nell’altro fatta pagare. Amazon insegna: il servizio “Search Inside” è prezioso, preziosissimo per l’utente, ma dal punto di vista commerciale è anche e in primo luogo uno strumento di promozione per contenuti in vendita. Una vendita che attualmente è cartacea, ma che, con l’evoluzione delle interfacce per la lettura in ambiente digitale, potrà presto avvenire attraverso meccanismi di pay per view o di abbonamento. E una biblioteca universale che diventasse anche libreria, punto di vendita, avrebbe evidentemente l’interesse a utilizzare i contenuti in libera consultazione principalmente come leva per la vendita di contenuti e servizi a pagamento.
D’altro canto, come sottovalutare la portata, per la ricerca e per la fruizione del nostro patrimonio testuale, dell’integrazione di una così enorme quantità di contenuti? Certo, altri modelli di integrazione, basati su standard condivisi ed elaborati collaborativamente, e sull’interoperabilità di iniziative pubbliche o comunque controllate in maniera pubblica, sarebbero indubbiamente preferibili. Ma il loro sviluppo è troppo lento. Riusciranno a crescere e affermarsi in tempo? Dobbiamo considerare l’iniziativa di Google come uno stimolo in questa direzione, o come un pericolo? Le biblioteche impegnate nel progetto riusciranno a influenzarne in maniera significativa l’indirizzo, o rischiano di fungere unicamente da fornitori di contenuti che saranno poi organizzati da altri, in base a criteri totalmente estranei rispetto al mondo delle biblioteche?
Le risposte a questi interrogativi non sono né facili, né – probabilmente – univoche. Certo, accanto ai molti interrogativi ai quali sarà importante cercare insieme una risposta, ci sono anche alcune indicazioni abbastanza chiare delle quali sarà bene fare tesoro. Ad esempio, l’iniziativa di Google e l’autorevolezza delle biblioteche che ad essa hanno aderito mostrano con evidenza che la digitalizzazione in full text di un patrimonio librario consistente è tutt’altro che un’utopia, e fanno ben capire la centralità della ricerca interna al testo per il reperimento e la fruizione dei contenuti. Ciò dovrebbe suggerire qualche riflessione di non poco conto, e probabilmente un ripensamento abbastanza radicale, a chi ritiene che un progetto di biblioteca digitale possa o debba basarsi unicamente sulla digitalizzazione di libri in formato immagine.
Un’altra considerazione rilevante riguarda l’importanza delle tematiche dell’identificazione univoca e della persistenza dei contenuti digitali in rete. All’interno di GooglePrint, ad esempio, ogni pagina di ogni libro ha una propria URL univoca, sintomo del fatto che il problema è percepito come rilevante da parte dei responsabili del progetto. Ma sappiamo bene che lo strumento rappresentato dalle URL non è affatto sufficiente a garantire identificazione univoca e persistenza dei contenuti. Se c’è qualcuno che può promuovere efficacemente in rete strumenti di identificazione e indirizzamento più evoluti (DOI, URN, PURL e quant’altro), si tratta indubbiamente di Google: da questo punto di vista – e non solo da questo –, il contatto più stretto con il mondo bibliotecario che sarà imposto a Google dal progetto di digitalizzazione potrebbe avere effetti positivi.
Infine, sarà interessante vedere se, e come, l’integrazione del patrimonio librario all’interno della base dati del principale motore di ricerca in rete influenzerà gli strumenti, gli algoritmi, l’interfaccia, le modalità di ordinamento e di visualizzazione dei risultati. Vi sarà, ad esempio, una spinta a integrare nel motore di ricerca anche semplici strumenti di analisi testuale? Sarà possibile utilizzare insieme, in una ricerca, metadati descrittivi e stringhe testuali? Vi saranno strumenti che permettano all’utente di modificare interattivamente i meccanismi di ordinamento dei risultati (sappiamo che alcuni algoritmi utilizzati dalla funzione di page ranking di Google sono stati in passato protetti come veri e propri segreti industriali...)? Alcuni di questi problemi sono già stati affrontati all’interno di singoli progetti di biblioteca digitale, ma le dimensioni dell’iniziativa avviata da Google e le indubbie competenze specifiche dell’azienda portano ad aspettarsi novità interessanti.
Le considerazioni fin qui svolte non esauriscono certo – né potrebbero farlo – i temi che dovrebbero essere affrontati. Spero possano fornire al lettore qualche spunto di riflessione, ma è bene ricordare che in casi come questo i problemi più difficili, e le possibilità più stimolanti, emergono spesso in maniera inaspettata, e sono talvolta assai diversi da quelli che sembrava di poter individuare all’inizio.

mc3430@mclink.it

[1] Peter Lyman – R. Varian Hal, How Much Information 2003, http://www.sims.berkeley.edu/how-much-info-2003; tutte le risorse in rete citate in questo intervento sono state visitate l’ultima volta il 16 gennaio 2005.
[2] L’exabyte è una unità di misura della memoria. Un exabyte equivale a 1024 petabyte, un petabyte equivale 1024 terabyte, un terabyte equivale a 1024 gigabyte.
[3] Sempre secondo How Much Information 2003, le telefonate del 2002 – fisse e mobili, su scala mondiale – occuperebbero, se digitalizzate, ben 17,2 exabyte di memoria: più di 30 volte la quantità di informazione in circolazione in rete nello stesso periodo (è facile prevedere che l’esplosione delle connessioni a banda larga cambierà sensibilmente questo rapporto nei prossimi anni). Come è ovvio, queste valutazioni dipendono in maniera essenziale dal tipo di digitalizzazione presa in considerazione: lo studio illustra i criteri metodologici adottati per la valutazione, criteri che sono in linea di massima uniformi per ciascuno dei media esaminati.
[4] http://desktop.google.com
[5] Tutt’altra questione è naturalmente quella dell’adeguatezza qualitativa degli strumenti di ricerca attualmente disponibili rispetto al tipo di contenuti proprio di libri e riviste: si tratta di un problema centrale, sul quale avrò occasione di tornare brevemente in seguito
[6] Nonostante la ricerca avvenga sul full text del libro, per motivi di tutela dei diritti (e di promozione delle vendite) la visualizzazione è di norma limitata a poche pagine per volta. L’integrazione con la ricerca su web è fornita da A9, lo strumento di ricerca proposto da Amazon all’indirizzo http://www.a9.com e disponibile anche sotto forma di toolbar.
[7] Cfr. http://docs.yahoo.com/docs/pr/release1144.html.
[8] Un accordo simile è stato stipulato con l’OCLC anche da Google, ma i relativi algoritmi di implementazione sembrano meno efficienti di quelli utilizzati da Yahoo!. I risultati di una ricerca ottenuti attraverso WorldCat sono riportati all’interno della pagina dei risultati di Yahoo o di Google, preceduti dall’indicazione "Find in a Library". Per una illustrazione del servizio si veda la pagina http://www.oclc.org/worldcat/open/about.htm.
[9] Per informazioni, si veda la pagina http://print.google.com.
[10] Per utilizzare al meglio il servizio occorre interrogare il motore di ricerca attraverso l’interfaccia in inglese; la sintassi suggerita per le ricerche di libri è ‘books on …’, e i relativi risultati appaiono preceduti dall’indicazione ‘Books results for…’ e dall’icona di alcuni libri allineati.
[11] Le preoccupazioni relative alla privacy sono state una delle più diffuse reazioni in rete all’annuncio fatto da Google. Per una interessante sintesi delle principali riserve sollevate su questo e altri aspetti del progetto si veda Rory Litwin, On Google’s Monetization of Libraries, nel blog Library Juice, http://libr.org/Juice/issues/vol7/LJ_7.26.html#3.

BALDACCHINI, Lorenzo - RONCAGLIA, Gino. Google a "Fahrenheit". «AIB Notizie», 17 (2005), n. 1, p. 7-9.

Copyright AIB, ultimo aggiornamento 2005-02-05 a cura di Franco Nasella
URL: http://www.aib.it/aib/editoria/n17/0501baldacroncaglia.htm

AIB-WEB | AIB Notizie | Sommario fascicolo 1/2005