[AIB]AIB-WEB. Contributi


Digital libraries e dintorni

Considerazioni in margine ad un viaggio studio nelle università della California

di Liliana Bernardis


Testo pubblicato anche a stampa in: "Formazione domani", a. 27 (2000), n. 35.


Sommario

Premessa

1 : Stanford: le tecnologie alla base della biblioteca del futuro
1.1 : Le linee organizzative
1.2 : I progetti
1.3 : L'uso delle risorse elettroniche

2 : Berkeley: alla ricerca di nuove forme per la comunicazione scientifica

3 : Biblioteche digitali ma anche archivi digitali

Conclusioni

Note


Premessa

Di digital libraries in California, in questo periodo, si parla in vari contesti e in diversi programmi, alcuni dei quali sono stati presentati e approfonditi nel corso del recente Seminario tenutosi, presso alcune prestigiose università californiane, dal 13 al 20 settembre 1999, per i partecipanti al Master in gestione e direzione della biblioteca, voluto dalla Università Cattolica del Sacro Cuore e dallo IAL nazionale.

Le attività ed i progetti che i partecipanti al Seminario hanno avuto modo di conoscere, in particolare, si inseriscono in un'iniziativa sostenuta da molti partner e agenzie nazionali statunitensi, la Digital Libraries Initiative Phase 2 (DLI 2) [1], il cui scopo è di fornire le direttive necessarie a facilitare lo sviluppo delle future generazioni di digital libraries, a perfezionare l'uso di risorse informative globalmente distribuite, grazie alle infrastrutture di rete, ad incoraggiare sia le comunità esistenti che quelle nuove a focalizzare la loro attenzione su aree di applicazione del tutto innovative. È risaputo che ci sono oggi strutture e/o persone che creano informazione elettronica, e che i dati raccolti dai vari sistemi in forme e formati differenti sono memorizzati in archivi diversamente distribuiti ma connessi in modo sempre più stretto attraverso le reti: la ricerca nel contesto della digital library, pertanto, accoglie la sfida ad utilizzare la crescente capacità computazionale e la potenza delle reti per rendere accessibile e coerentemente usufruibile una sempre maggiore quantità di dati distribuiti, trasformandola in informazione e conoscenza. L'intero ciclo vitale della digital library diventa oggetto di interesse e di studio per la DLI: dalla creazione dell'informazione, all'accesso e all'uso, all'archiviazione e alla conservazione.

Per sottolineare tutti gli attributi che danno coerenza al concetto di digital libraries ci piace riportare la seguente definizione: "...organizzazioni che forniscono le risorse, incluso lo staff, per selezionare, strutturare, offrire l'accesso, interpretare, distribuire, conservare l'integrità, assicurare la durata nel tempo di collezioni di opere digitali, affinché queste possano essere prontamente ed economicamente disponibili per una specifica comunità o per un insieme di comunità" [2]. Unitamente ai contenuti dei singoli programmi è stato in ogni caso particolarmente importante per i partecipanti al Seminario conoscere la struttura organizzativa, le strategie generali, le infrastrutture di supporto, le tecnologie attraverso cui le realtà visitate collaborano per costruire un futuro in cui, secondo le parole di Richard Atkinson, presidente della University of California, "premendo un bottone le nostre biblioteche possano arrivare fino a noi, ovunque noi siamo, e tutte le volte che lo desideriamo".


1 : Stanford: le tecnologie alla base della biblioteca del futuro

1.1 : Le linee organizzative

A Stanford la parola d'ordine è enterprise e la cultura organizzativa che definisce scelte e progetti all'interno di tutto il campus sollecita e facilita lo spirito di intraprendenza. L'organigramma delle biblioteche mette in risalto un'organizzazione per gruppi di lavoro trasversali alle singole strutture: le collezioni delle biblioteche sono organizzate in resource groups (scienze umane, scienze sociali, ingegneria e scienze, collezioni speciali e archivi dell'Università) a cui si aggiungono i servizi di accesso, vale a dire l'erogazione delle risorse. All'interno di ciascun gruppo sono state istituite delle unità bibliografiche responsabili dello sviluppo dei programmi digitali. È interessante notare come il tipo di lavoro che viene svolto nell'ambito di questi programmi è dettato dai relativi ambiti disciplinari; così mentre lo HDIS (Humanities Digital Information Service) punta alla creazione di una biblioteca di testi digitali, l'unità per le scienze sociali, Social Science Data Service (SSDS), si occupa di potenziare l'accesso per l'utente ai codebooks, importanti guide per la ricerca in questo settore, e ai dati numerici elettronici, oltre che di fornire consulenza per applicazioni di tipo statistico. Per l'unità di lavoro costruita all'interno del gruppo scientifico, Science and Engineering Information Service (SEIS), esiste soprattutto la necessità di dare accesso agli articoli di riviste e alle basi di dati con la creazione di nuovi e più sofisticati motori di ricerca. In tutti i programmi sono inoltre inseriti gli aspetti della formazione e dell'istruzione all'uso e alla gestione di risorse digitali.

Più in generale, la formazione sulle metodologie di ricerca bibliografica, la ricerca elettronica e la creazione di risorse informative multimediali è di competenza dell'area denominata SUL/AIR (Stanford University Libraries and Academic Information Resources). Gli strumenti utilizzati sono: le guide alle liste per soggetti e alle basi dati (in formato cartaceo e su Web), l'assistenza personalizzata presso i servizi di reference nelle singole biblioteche, le visite guidate, i seminari. Nell'ambito della struttura organizzativa di SUL/AIR troviamo sia le biblioteche che i servizi di informatica, che costituiscono un importante e decisivo supporto ai programmi di digital library. Abbiamo appreso che Stanford è stata una delle prime università americane a fornire ai bibliotecari competenze informatiche. Come molti dipartimenti e servizi del campus, le biblioteche, all'interno di ciascuna struttura, hanno un expert partner, vale a dire un membro dello staff bibliotecario che conosce le esigenze della propria unità ma che possiede le competenze tecniche per fornire ai propri colleghi un primo supporto [3]. L'expert partner riceve formazione e aiuto continui, comunica ai colleghi i cambiamenti nei sistemi e nelle procedure informatiche, individua i problemi tecnici, effettua gli aggiornamenti, richiede, se necessario, l'intervento di componenti dello staff del Sistema di assistenza tecnologica e supporto.

I servizi tecnici tradizionali dell'area biblioteconomica (acquisizione di libri e periodici, catalogazione, conservazione) costituiscono a Stanford un'area di lavoro e di ricerca parallela a quella delle gestione delle collezioni, articolata come si è detto in resource groups. Di recente questi servizi, che non esistono come unità operative all'interno delle singole biblioteche, ma sono centralizzati per tutte le strutture del campus, hanno avviato un'importante operazione di riconfigurazione ispirata ai seguenti principi:

  • eliminare le transazioni doppie
  • usare le tecnologie e i servizi innovativi forniti dai venditori per aumentare qualità ed efficienza
  • realizzare i flussi lavorativi nel momento e nel posto in cui sono necessari.

    Un'esemplificazione del nuovo modello di operatività è data dal servizio acquisizioni: la fornitura di monografie ed opere in continuazione viene effettuata da fornitori specializzati (Casalini, Harrassowitz, YBP) sulla base di profili disciplinari, messi a punto in collaborazione con bibliotecari specialisti, e già corredati di stringhe di collocazione. I file trasmessi dagli editori, utilizzando il formato EDIFACT, contengono dati bibliografici in formato MARC, record di copia, codici a barre e informazioni relative alle fatture e consentono il riversamento automatico dei record, attraverso la semplice lettura ottica dei codici a barre, nella base di dati bibliografica locale gestita con il sistema UnicornWorkflows. Il 63% delle monografie vengono acquisiste, con notevole risparmio di costi, attraverso processi di vendita assistita dal fornitore. I record non completi vengono integrati delle informazioni necessarie ricorrendo agli strumenti della catalogazione derivata o mediante l'invio all'unità di Classificazione e/o Catalogazione.

    Per quanto riguarda i periodici, il cambiamento ha comportato la creazione di una nuova base dati in linea centralizzata a cui possono accedere, per i vari controlli, le relative unità di servizio; questo processo è ancora in fase di perfezionamento, relativamente agli standard da adottare per l'inserimento dei dati e per la gestione dei dati di copia, oltre che per la necessità di implementare, nel sistema di gestione bibliografica locale, un'indicizzazione di parole chiave atta a facilitare il recupero dei titoli.

    La ricerca costante finalizzata alla necessità di ridurre tempi e costi del processo di catalogazione ha individuato uno strumento importante nel sistema Marcadia; questo servizio, nato dalla collaborazione del Research Libraries Group e da Retro Link (divisione dell'American Library Services), consente l'invio di record brevi, relativi al materiale che si deve catalogare, alla base dati RLIN (97 milioni di registrazioni); normalmente una struttura che usufruisce di questo servizio definisce un proprio profilo, per il modello di catalogazione che desidera effettuare, e costruisce un file con specifici parametri (n. di campi di ciascun record, soglie di perfetta rispondenza e di accettabilità, record da catalogare secondo AACR2, record corredati da intestazioni di soggetto, record in alfabeti non latini, ecc). I risultati vengono poi rispediti dalla base RLIN, via FTP, ad un server locale, nel giro di qualche giorno, con addebito (1.75 dollari l'una) delle sole copie ritrovate.

    Come abbiamo potuto riscontrare, oltre che sul risparmio dei costi e sulla qualità del servizio, i benefici di questa ristrutturazione si riflettono sull'assunzione, da parte dei bibliotecari, di nuove e più specifiche competenze; il bibliotecario a Stanford è fondamentalmente bibliografo, specialista nel recupero dell'informazione in una determinata area disciplinare (ciascun bibliotecario insegna metodologia e tecniche della ricerca), esperto e fortemente impegnato nei servizi di reference sui quali si stanno concentrando molti sforzi e molte risorse.


    1.2 : I progetti

    HighWire è stato definito una tipica realizzazione di uno university press nel nuovo millennio; nato nel 1995 con la produzione in linea del settimanale Journal of Biological Chemistry, questo servizio produce oggi (settembre 1999) 145 riviste in linea, tra quelle a più alto impatto nell'ambito della letteratura scientifica. Con la costituzione di HighWire, un insieme di strumenti e di procedure che consentono a università e case editrici di pubblicare in linea a basso costo, Stanford ha accettato ancora una volta il ruolo di agente del cambiamento e di partner trascinatore nel guidare la comunicazione scientifica verso l'uso di nuove tecnologie. L'approccio seguito con HighWire nella pubblicazione in linea di riviste scientifiche non consiste soltanto nel riprodurre immagini elettroniche di pagine a stampa; piuttosto, fornendo legami tra autori, articoli e citazioni, sofisticate possibilità di ricerca, immagini ad alta risoluzione, creazione di bibliografie, interazioni multimediali, le versioni elettroniche forniscono informazioni aggiunte rispetto a quelle contenute negli stessi giornali a stampa. Tra i benefici ottenuti con HighWire va sottolineato, inoltre, il passaggio dalle sottoscrizioni di tipo individuale a quelle disponibili in linea, ad un accesso istituzionale che può portare a politiche di accesso consortili o addirittura nazionali.

    Indubbiamente la preoccupante inflazione che ha interessato negli ultimi anni i prezzi delle riviste ha dato una forte spinta alla creazione dei seriali elettronici al punto che una rivista in linea è qualcosa di più definito (dal punto di vista dell'utilizzo di standard, dei canali di distribuzione e dello sviluppo dei metadata) di quanto non lo sia un libro. Sono tuttavia poche le biblioteche, anche oltreoceano, che sono preparate ad abbandonare completamente le sottoscrizioni a stampa; l'ostacolo principale riguarda le modalità di archiviazione dei materiali elettronici

    Allo stato attuale i documenti a stampa possiedono i requisiti per durare nel tempo ed essere trasmessi alle future generazioni; non altrettanto si può dire delle informazioni archiviate nei siti web. Di fatto l'editoria in rete è del tutto reversibile né la soluzione consiste nel confidare che gli editori conservino i loro archivi elettronici, che vengano presi degli impegni da parte di terzi, o che vi sia la possibilità di ricorrere a dei media specifici. Come ha sostenuto Victoria Reich nel suo intervento al convegno "Library leadership: confronting a tumultous future", che abbiamo seguito nel corso del Seminario, è necessario che i sistemi bibliotecari possano gestire localmente il contenuto del web. Il progetto LOCKSS (Lots of Copies Keeps Stuff Safe), al quale l'Università di Stanford sta lavorando insieme ad altri partner, si propone di offrire le basi tecnologiche per la realizzazione di questo obiettivo; l'idea è di garantire alle biblioteche la custodia fisica dell'informazione elettronica, registrata e recuperata via web, attraverso l'implementazione di memorie ad alta velocità di accesso (cache memory) che diversamente da quanto accade finora:

  • conservino i contenuti autorizzati
  • non vengano ripulite o scaricate attraverso automatismi di sistema
  • carichino originariamente determinati contenuti
  • vengano continuamente validate sulla base di altre cache memory
  • possiedano dei meccanismi per riconoscere le incongruenze tra le pagine originali da caricare e quelle conservate in altre cache.

    Indipendenza dall'hardware, facilità di installazione e d'uso, alta capacità di controllo su accessi e dati sono altrettanti requisiti che i progettisti di LOCKSS tengono presenti nell'ambito del loro lavoro.


    1.3 : L'uso delle risorse elettroniche

    I fornitori di fonti di informazione elettronica impiegano le licenze come mezzo legale per controllare l'uso dei loro prodotti; varie associazioni statunitensi, in una fase in cui legislazione e tecnologia stanno ancora evolvendo, hanno pertanto intrapreso delle iniziative per guidare le biblioteche nel delicato compito di negoziazione dei contratti per l'uso delle risorse elettroniche. Esiste a questo riguardo una bozza di principi <http://www.arl.org/scomm/licensing/principles.html> e in un contesto come quello di Stanford, sensibile a tutte le problematiche delle biblioteche nell'età digitale, è stato costituito un apposito Comitato per l'accesso all'informazione (A2I). Esso si occupa di acquisire risorse multidisciplinari o molto costose e che richiedano sostanziali modifiche nelle infrastrutture per il loro utilizzo. Il Comitato valuta le risorse elettroniche, ne analizza la funzionalità (una risorsa è semplice da usare? è veloce?), negozia il costo delle licenze, decide le condizioni di accesso (quanti utenti possono usarla contemporaneamente? è consentito l'accesso remoto? come viene controllato?), discute le operazioni e le procedure necessarie (come richiedere una risorsa elettronica, come catalogarla e renderla accessibile?); in attesa di poter affermare che i principi della legge del copyright (1976) siano applicabili all'emergente contesto elettronico, abbiamo comunque avuto la sensazione che le biblioteche americane stiano affrontando molto consapevolmente e con molta risolutezza il compito di garantire ad un'istituzione il più ampio accesso ad un'estesa categoria di risorse, provvedendo nel contempo a sensibilizzare la comunità degli utenti sulle restrizioni e sugli obblighi derivanti dall'uso di questi materiali.


    2 : Berkeley: alla ricerca di nuove forme per la comunicazione scientifica

    Come Stanford anche l'università di Berkeley collabora con altre strutture ad una serie di iniziative per la pianificazione e lo sviluppo dei servizi di digital library. Tra di esse la California Digital Library (CDL) i cui programmi sono definiti da un comitato, UC's Systemwide Library and Scholarly Information Advisory Committee (SLASIAC) composto da docenti, bibliotecari, amministratori e presieduto dal vice rettore di Berkeley, Carol Christ.

    Scopo della CDL è far progredire la ricerca mediante l'applicazione di specifiche tecnologie digitali, favorire il continuo perfezionamento nell'apprendimento e nell'insegnamento, promuovere i servizi al pubblico attraverso nuovi modelli di accesso (distribuiti, continui) alle collezioni; nel suo ambito operano una serie di gruppi di lavoro i cui membri provengono dall'università o da altre istituzioni partner.

    Education Working Group: definisce le strategie ed i programmi per sviluppare l'aspetto educativo della CDL che, attraverso un utilizzo più intenso delle risorse digitali, deve perseguire la soddisfazione dell'utente nel senso più ampio del termine. Uno di questi programmi (Teaching library), espressamente rivolto agli studenti, è dedicato alla valutazione e all'uso degli strumenti di accesso all'informazione; creato nel 1993, come risposta alla diminuzione di risorse e di personale e ai cambiamenti nella vita e nella cultura degli studenti, ha portato ad un aumento notevolissimo nel numero di consultazioni, nella frequentazione della biblioteca e nell'utilizzo delle sue collezioni (basi di dati bibliografiche, catalogo in linea, pagine web).

    Joint Steering Committee on Shared Collections: definisce principi e fondamenti per sviluppare e gestire le collezioni digitali.

    Strategic Innovations Working Group: identifica le tecnologie necessarie a realizzare le finalità della digital library, così come le esperienze, i programmi, le fonti per sostenerla.

    Technology Architecture and Standards Working Group: elabora i principi strutturali che facilitano la creazione di sistemi integrati e gli standard per le collezioni digitali dei vari campus dell'Università della California.

    Tools and Services Working Group: sviluppa i principi e le linee guida per l'identificazione, la valutazione, la selezione e l'implementazione di strumenti in linea e servizi per condividere, accedere, manipolare, integrare il contenuto dell'informazione scientifica in tutte le sue forme. Le ricerche più significative si stanno effettuando nell'ambito del progetto InterLib a cui l'Università di Berkeley partecipa insieme a Stanford, UCSB (University of California, Santa Barbara) al San Diego Supercomputer Center e alla California Digital Library; lo scopo è quello di migliorare, attraverso la tecnologia digitale, l'intero paradigma dell'informazione scientifica, passando da un modello centralizzato e discreto di circolazione ad un modello di auto-divulgazione continuo e distribuito: piuttosto che inviare saggi alle riviste convenzionali e ricomprare i risultati editi a stampa, gli studiosi possono pubblicare da sé su risorse locali. La realizzazione del nuovo modello, di supporto all'intero ciclo di vita dell'informazione, ha sollecitato gli informatici a confrontarsi con i seguenti aspetti:

    1. sviluppo di strumenti, orientati all'utente, per un uso essenzialmente cooperativo delle risorse informative. È stato implementato un nuovo modello di documento chiamato documento multivalente (MDV), che consente di aprire e di manipolare qualsiasi formato, di aggiungere nuove caratteristiche ad un documento condividendo con altri le funzionalità risultanti; per es. in un'immagine di pagina scannerizzata è possibile selezionare o inserire del testo, evidenziare i termini che soddisfano una particolare ricerca, generare vedute diverse di specifiche componenti del documento. Con MDV un documento può essere inoltre corredato di annotazioni come legami, sottolineature, note che possono poi essere inserite in qualche pagina web senza la necessità di ricorrere a specifici sistemi di supporto;
    2. creazione di tecniche per analizzare il contenuto di fonti multimediali e facilitarne il recupero. Con una di queste (Blobworld) un'immagine è analizzata, in modo del tutto automatico, in un certo numero di regioni di colore, chiamate "blobs" (macchie). Queste macchie vengono memorizzate in una base dati e indicizzate; utilizzando una specifica interfaccia, ad un utente interessato alle regioni di colore di una specifica immagine, è consentito richiedere il recupero di immagini la cui rappresentazione Blobworld risulta simile alla prima. Sono stati inoltre sviluppati dei decodificatori di immagini per specifiche classi di documenti, tecniche di disambiguazione lessicale fondate su algoritmi che utilizzano le categorie dei tesauri per disambiguare nomi in un testo, software di riconoscimento dei caratteri per la sperimentazione in ambito matematico e relativi strumenti di indicizzazione e di ricerca;
    3. progettazione di un adeguato insieme di procedure per il controllo ed il monitoraggio degli accessi, per il controllo interattivo di operazioni sui dati particolarmente intensive, per la definizione di specifiche misure di archiviazione e di tutela delle pubblicazioni.

    Per testare e valutare le tecnologie ed i modelli investigati dalle varie componenti di questo articolato progetto, i ricercatori hanno scannerizzato centinaia di migliaia di pagine di documenti, acquisito decine di migliaia di fotografie, rilievi aerei, immagini di satelliti, dati geografici, collezionato centinaia di migliaia di record con contenuto scientifico costituendo una collezione di materiali che sono stati distribuiti a diverse categorie di utenti e che sono gratuitamente disponibili in rete <http://elib.cs.berkeley.edu>.


    3 : Biblioteche digitali ma anche archivi digitali

    La ricerca sugli standard e sulle metodologie da implementare per favorire lo sviluppo di collezioni digitali sta interessando, oltre alle biblioteche, anche gli archivi di Università e di diverse istituzioni californiane. Abbiamo così conosciuto l'Online Archive of California (OAC) Project che si propone di sviluppare una base dati pilota, interrogabile in linea, che includa gli indici elettronici a collezioni archivistiche. Questi indici (inventari, registri, guide) che forniscono descrizioni dettagliate delle varie collezioni, della loro organizzazione e, a vari livelli, di singole unità della collezione, si basano su un nuovo standard, EAD (Encoded Archival Description), che usa un formato di tipo SGML supportato congiuntamente dalla Library of Congress e dalla Società degli Archivisti Americani. Scopo del progetto, attraverso la creazione di una base dati unificata di 30.000 pagine di registrazioni, è quello di testare sia la validità dello standard sia quella di uno schema per una base di dati centralizzata che fornisca l'accesso integrato al patrimonio archivistico posseduto da tutte le collezioni speciali e dalle sezioni d'archivio dei campus della California.


    Conclusioni

    Il concetto di digital library ha ancor oggi significati multipli che possono essere invocati in vari contesti; per es. ci si può riferire alla nozione di collezione elettronica senza riferimento alcuno all'organizzazione, all'accessibilità ed ai servizi ad essa connessi oppure alla struttura organizzativa sottostante o più specificamente al sistema informatico in cui la collezione risiede. Ci sono tuttavia una serie di attribuiti che danno coerenza a tale concetto, secondo la definizione riportata all'inizio di questo lavoro, e questi attributi includono funzioni di strutturazione, conservazione, accessibilità, economia. Un programma a largo respiro per lo sviluppo di digital libraries deve essere definito e misurato in termini di sviluppo di questi attributi, cosa che stanno senza dubbio effettuando le realtà da noi visitate.

    Dai progetti di cui siamo venuti a conoscenza nel corso del soggiorno californiano si può inoltre dedurre che le digital libraries devono essere definite e misurate in relazione alle comunità che esse servono; l'impressione ricevuta è che, nella realtà californiana, non solo ci si trova dinanzi a un eccezionale contesto di sforzi e di investimenti ma che il successo delle digital libraries è legato alla loro capacità di soddisfare alcuni fini istituzionali che possono essere così riassunti:

  • organizzare, consentire l'accesso, conservare la conoscenza che è stata originata in forma digitale
  • far leva sulle opportunità offerte dalle digital libraries per ridisegnare l'intero processo della comunicazione scientifica
  • fornire una base di conoscenza accessibile e durevole nel tempo che aumenti la qualità e abbassi i costi dell'educazione
  • estendere le possibilità della ricerca e dell'educazione superiore a nuovi strati della popolazione.

    Obiettivi, a ben guardare, che non sono né tipici di una particolare area geografica né specifici per una tipologia limitata di strutture ma che riguardano tutte le componenti di una moderna e corretta infrastruttura informativa.


    Note

    1. Le agenzie che sostengono la DLI 2 sono: National Science Foundation (NSF), Defence Advanced Research Projects Agency (DARPA), National Library of Medicine (NLM), Library of Congress (LOC), National Endowment for the Humanities (NEH), National Aeronautics & Space Administration (NASA), Federal Bureau of Investigation (FBI).

    2. La definizione è contenuta nel programma di lavoro della DLF (Digital Library Federation), un consorzio di istituzioni nato nel 1995 che ha tra i suoi fondatori anche le università californiane di Stanford e Berkeley.

    3. Ciascun expert partner supporta, solitamente, da 8 a 15 persone dello staff, quindi in una struttura possono esserci anche più expert partner che costituiscono i referenti per varie unità all'interno della struttura stessa.


    Copyright AIB 2000-03-22, ultimo aggiornamento 2000-03-29, testo di Liliana Bernardis, a cura di Claudio Gnoli.
    <http://www.aib.it/aib/contr/bernardis1.htm>
    Homepage AIB-WEB | Contributi