Bibliotime, IV, 3 - Daniela Canali, International Summer School on Digital Library Technologies

«Bibliotime», anno IV, numero 3 (novembre 2001)

Daniela Canali

International Summer School
on Digital Library Technologies

International Summer School on Digital Library Technologies, Pisa, 9-13 luglio 2001.

Dal 9 al 13 luglio si è tenuta a Pisa la prima edizione dell'International Summer School on Digital Library Technologies (ISDL), organizzata da DELOS [1] Network of Excellence, iniziativa finanziata dal V Programma Quadro della Commissione Europea nell'ambito della Key Action su Multimedia Contents and Tools of the Information Society Technologies. Si è trattato di un corso intensivo di una settimana le cui lectures, relative ad aspetti multidisciplinari del settore, sono state tenute da ricercatori nel campo delle Digital Libraries provenienti dagli Stati Uniti e dall'Europa, ed ogni intervento ha offerto una presentazione dello stato dell'arte su uno degli argomenti chiave della DL.

DELOS si propone come spazio virtuale per lo scambio d'idee e per il confronto nel settore dinamico della società dell'informazione, filtrando le esperienze a livello mondiale per farne emergere punti focali da approfondire in modo sinergico nel presente e nel futuro.

L'ISDL è stata dunque l'occasione per l'approfondimento delle problematiche correlate alle tecnologie alla base della DL: il target era infatti costituito da ricercatori [2] (per alcuni dei quali sono state erogate borse di studio volte a coprire le spese di registrazione) e professionisti coinvolti nelle aree di R&D della DL, in rappresentanza della comunità scientifica, industriale (editoria elettronica, broadcasting, società produttrici di software) oltre che della comunità degli utenti (biblioteche, archivi, musei).

La scuola ha registrato una forte componente statunitense tra i relatori, tra cui Carl Lagoze (Cornell University, USA) il cui intervento ha aperto la serie di lezioni, trattando di collezioni digitali multimediali partendo dall'illustrazione del sistema NCSTRL e del modello Dienst, passando poi alle architetture di oggetti digitali, all'access management ed infine agli schemi di metadati, citando il Warwick Framework e RDF, terminando con un riferimento all'Open Archive Iniziative (OAI).

Robert Wilensky (University of California, Berkeley, USA) ha trattato delle DL come nuovi modelli di disseminazione accademica, basandosi sull'esperienza dell' University of California Berkeley Digital Library Project e affrontando il tema della robustness in modo trasversale, relativamente alle diverse problematiche di locations, hyperlinks e di clustering per le collezioni di immagini digitali [3].

Il secondo giorno era molto atteso l'intervento di William Arms (Cornell University, USA), autore del volume Digital Libraries, edito nel 2000 dal MIT Press, Massachusetts Institute of Technology. Il suo intervento, focalizzato sull'open access e sulle architetture volte a garantirlo, puntava ad evidenziare l'economicità di tale sistema. Arms sostiene infatti che l'open access costituisce oggi l'unica via per garantire un pubblico illimitato alla propria produzione intellettuale ed una eccellente ricaduta sulla comunità scientifica: ad esso sono naturalmente legate tutte le operazioni di marketing, information discovery, quality control e long term preservation conseguenti e necessarie. Il relatore ha illustrato come caso studio la National Science Foundation's Digital Library for Science, Mathematics, Engineering and Technology Education (NSDL), la cui bozza risale al 1999, nell'ambito della Digital Libraries Iniziative 2, per cui è previsto, nel 2001, il finanziamento di un vero grande Core Integration System Project, a cui partecipa la Cornell University insieme ad altre università e centri di ricerca statunitensi. La NSDL, la cui data di avvio ufficiale è settembre 2002, è progettata per coprire tutte le branche della scienza, a tutti i livelli educativi, pur definiti in senso molto ampio. Per i primi cinque anni sono previsti un milione di utenti, dieci milioni di oggetti digitali e centomila siti indipendenti. I requisiti per l'attuazione del progetto sono ovviamente la scalabilità della tecnologia e il suo basso costo oltre alla costruzione e al mantenimento della collezione automatizzata. La dimensione di tale progetto evidenzia la necessità di adottare un comune schema di metadati e attualmente ci si è orientati verso Dublin Core e Resource Desription Framework RDF, con le estensioni DC-Ed.

Altro progetto presentato da Arms, cui partecipano la Cornell University, la Library of Congress e Internet Archivi, è MINERVA The Web Preservation Project, illustrato in riferimento al tema della conservazione a lungo termine [4].

Norbert Fuhr (Univeristy of Dortmund, Germany) ha tenuto un intervento incentrato su modelli di Information Retrieval, con relativi metodi, metadati e sistemi di valutazione durante il quale ha sottolineato gli aspetti relativi all'efficacia e all'efficienza, ai concetti di recall e precision.negli attuali sistemi di information retrieval. Riguardo agli schemi di metadati oltre al Resource Desription Framework RDF nei suoi concetti base e in esempi concreti, è stato ampiamente citato il modello dell'IFLA (FRBR) secondo cui gli oggetti digitali sono descrivibili in base a Work, Expression, Manifestation e Item (singolo esemplare di una manifestazione). Altro modello valido è certamente Dublin Core con il suo set di elementi descrittivi, strutturali e amministrativi, oltre ai qualificatori (di raffinamento e di schema). Parte dell'intervento è stato dedicato ad illustrare modelli di retrieval probabilistici, quali il binary independence retrieval model (BIR) e il Probability Ranking Principle (PRP) e non probabilistici, come il booleano, il fuzzy retrieval e il modello vettoriale spaziale. Le conclusioni hanno evidenziato i seguenti punti: 1) nei sistemi informativi è attualmente molto sentito il problema della vaghezza e imprecisione, 2) il modello booleano dà scarsa qualità dei risultati, 3) il modello vettoriale spaziale e i sistemi probabilistici garantiscono una performance migliore. È stata notata inoltre la mancanza di modelli di IR per dati semistrutturati, di orientamento per l'utente e ad alto grado di interattività.

La terza giornata di studio si è aperta con Andreas Paepcke (Stanford University, USA) che ha condotto un intervento su PDAs and Digital Libraries, durante il quale i partecipanti divisi in gruppi hanno elaborato un piccolo progetto a scelta tra la definizione delle funzionalità e design dell'user interface per l'aggiunta di una videocamera ad un PDA e la creazione di un dizionario multilingue. Al termine del lavoro i gruppi hanno presentato i loro progetti dando vita ad una vivace partecipazione e ad un interessante scambio di esperienze, grazie alla diversa provenienza degli studiosi coinvolti: in effetti i gruppi la cui eterogeneità ha consentito di integrare formazioni e competenze diversificate hanno elaborato proposte suggestive [5].

Le problematiche molto sentite legate al pubblico accesso ai materiali digitali, quali regolamenti, diritti e responsabilità delle biblioteche è stato trattato da Brewster Kahle (CEO Alexa Internet) direttore di Internet Archivi [6], il progetto di catalogazione del Web che negli ultimi cinque anni ha realizzato alcune delle più grandi collezioni testuali e di immagini in movimento tramite un eccellente meccanismo di raccolta, catalogazione e conservazione. La registrazione di circa 40 terabyte di testo e 1000 video, comprese immagini televisive, ha consentito di testare la maggior parte della tecnologia alla base delle collezioni digitali, evidenziando diversi problemi legati in particolare a diritti, finanziamenti e accesso. Si è riflettuto sul fatto che in realtà per le biblioteche, rispetto a quando gestivano esclusivamente materiale a stampa, la funzione di fornitori privilegiati di accesso all'informazione non è cambiata, quindi i diritti che queste hanno nel portare a compimento tale funzione sociale dovrebbero restare invariati. Nell'intervento sono state ricordate donazioni, interlibrary loan e lending libraries, la cui integrazione, risultata vincente in passato, può ancora funzionare. Ciò che veramente occorre con urgenza sono figure che costruiscano esempi concreti a livello di tecnologie e di collezioni: tali esperienze possono avere un impatto molto forte in ambito didattico e accademico, offrendo accesso universale al patrimonio culturale digitale.

I problemi legati al cross-language retrieval sono stati affrontati dall'intervento di Carol Peters (CNR-IEI, Pisa, Italy) [7] sentiti come urgenti con il rapido crescere della società dell'informazione: ciò ha esteso il concetto di DL a molteplici tipi di collezioni, su nuovi supporti di memorizzazione e metodi di accesso molto diversificati. Le reti informative e le DL di oggi, non più legate a confini geografici o spaziali, sono "solcate" da utenti che vogliono essere in grado di trovare, recuperare e comprendere informazioni rilevanti ovunque si trovino ed in qualsiasi linguaggio siano codificati. Negli ultimi anni lo studio e lo sviluppo di strumenti e tecnologie per il multilinguage information access (MLIA) e il cross-language information retrieval (CLIR) hanno riscosso molta attenzione; si tratta di un'area di studio multidisciplinare in cui convergono metodologie e strumenti sviluppati nel campo dell'information retrieval e del natural language processing. Vi sono coinvolti due settori principali: a) multiple language recognition, manipulation e display; b) multilinguage o cross-language search and retrieval. L'intervento in modo specifico ha affrontato aspetti legati ai requisiti specifici di particolari linguaggi e scritture, il processing di collezioni di documenti multilingue, tecniche per il cross-language retrieval, l'importanza delle risorse e la valutazione del sistema.

Fabrizio Sebastiani (IEI-CNR, Pisa, Italy) ha affrontato il tema Text categorization and information filtering [8], un aspetto tecnico molto complesso e di elevata competenza, partendo dalla definizione e dagli ambiti di applicazione, quali indicizzazione automatica per information retrieval con operatori booleani, organizzazione e filtering dei documenti, disambiguazione semantica e categorizzazione di pagine web in cataloghi gerarchici. L'intervento ha evidenziato il livello raggiunto dall'approccio machine learning nella categorizzazione del testo a partire dagli anni 80, il tutto basato su formule matematiche di combinazione degli elementi che consentono la previsione statistica dei risultati. Naturalmente anche in questo campo si è giunti a preferire la procedura automatizzata in conseguenza di alcune ragioni, quali le caratteristiche di certi documenti che rendono inutilizzabile la procedura manuale, i livelli di performance decisamente migliori ciò in ragione del fatto che la procedura manuale non garantisce mai il 100% di efficacia. Anche in questo caso l'aspetto valutativo è stato ampiamente analizzato.

L'ultima mattinata è stata dedicata alle Video DL di cui si è occupato Howard Watclar (Carnegie Mellon University, USA) il quale ha affrontato, oltre ad una panoramica degli standard per la compressione delle immagini in movimento (MPEG-1, 2, 4 E 7), anche i vari problemi legati all'indicizzazione delle immagini, il cui recupero si basa sul concetto di similarità di forma, colore e/o contenuto, qualora si tratti di indicizzazione semantica. Attualmente il sistema commerciale di IR per immagini più funzionale sembra essere QBIC - Query By Immage Content della IBM, in grado di effettuare ricerche per forma, colore, granularità e parole chiave. Naturalmente Watclar ha parlato anche del sistema Video OCR in grado di garantire solo una bassa risoluzione (10 pixel height/character) per passare poi ad esporre le caratteristiche del prodotto Informedia per la cattura e l'indicizzazione delle immagini, creato nell'ambito del progetto Informedia Digital Video Library, finanziato da NSF, DARPA, NASA ed altre realtà impegnate nello studio e nella realizzazione di digital libraries [9].

L'intervento finale è stato tenuto da Liz Lyon (UKOLN, UK)) che ha illustrato il progetto DNER Distributed National Electronic Resource [10], uno studio condotto dall'UKOLN per conto del Joint Information System Committee (JISC) in Gran Bretagna. La finalità è progettare lo sviluppo di DNER come una DL nazionale e al contempo una collezione eterogenea di risorse distribuita e gestita in un ambiente informativo integrato che permetta all'utente finale di interagire con il Distributed National Electronic Resource come un insieme coerente piuttosto che come una raccolta di singole collezioni e servizi. Lo studio getta le basi per una architettura tecnica (servizi di rete, standard e protocolli che consentono a tali servizi di interagire) per ottenere tale scopo. Le risorse gestite includono riviste accademiche, monografie, materiale didattico, abstracts, manoscritti, carte geografiche, musica, immagini, immagini geospaziali e altri tipi di vettori e dati numerici, come pure immagini in movimento e collezioni audio.

L'esperienza ha consentito ai vari ricercatori di incontrarsi e di confrontare le proprie esperienze, oltre che acquisire linee formative interessanti e innovative. Si attende e si auspica ovviamente la replica di questa iniziativa ad un numero sempre più ampio di partecipanti.

Daniela Canali, Istituto di Studi sulla Ricerca e la Documentazione
Scientifica - CNR Roma, e-mail: daniela.canali@tin.it

Note

[1] <www.ercim.org/delos>.

[2] Sono stati registrati 52 partecipanti, di cui 24 borsisti e tra questi 8 borsisti italiani, tra cui l'autrice del contributo.

[3] Sito del progetto Re-inventing Scholarly Information Dissemination and Use: <http://elib.cs.berkeley.edu/>.

[4] Sito del progetto Collecting and Preserving Open-Access Materials on the Web: <http://www.cs.cornell.edu/wya/LC-web/>.

[5] Pagina web di Stanford Digital Library Technologies: <http://diglib.stanford.edu/>.

[6] Sito The Internet Archive: Building an Internet Library: <http://www.archive.org/>.

[7] Sito del Cross Language Evaluation Forum CLEF: <http://www.iei.pi.cnr.it/DELOS/CLEF/>.

[8] Pagina web dell'autore con numerosi riferimenti allaText Categorization e all'Information Filtering: <http://faure.iei.pi.cnr.it/~fabrizio/>.

[9] Sito di Informedia Digital Video Library Project: <http://www.informedia.cs.cmu.edu/>.

[10] Sito del DNER Distributed National Electronic Resource presso il Joint Information System Committee (JISC): <http://www.jisc.ac.uk/dner/>.

«Bibliotime», anno IV, numero 3 (novembre 2001)