«Bibliotime», anno V, numero 1 (marzo 2002)
Fra catalogazione e digitalizzazione: il progetto ADMV [*]
In questo intervento non parlerò molto dell'Archivio Digitale della Musica Veneta, un progetto che, in sintesi, si propone di offrire all'utente la possibilità di navigare fra la registrazione catalografica di una partitura musicale, la sua riproduzione digitale e il documento sonoro digitalizzato corrispondente. Il progetto è stato presentato in altre occasioni, e per esso rimando alle pagine che gli sono dedicate sul sito web della Biblioteca Nazionale Marciana (<http://marciana.venezia.sbn.it/admv.htm>)
La riflessione che cercherò di sviluppare sul tema del rapporto fra catalogazione e digitalizzazione deriva tuttavia in modo diretto dall'esperienza che stiamo conducendo, nel Gruppo di lavoro ADMV, insieme alla Biblioteca Nazionale Universitaria di Torino ed alla Discoteca di Stato.
Il 4 aprile di quest'anno un gruppo di esperti degli stati membri dell'Unione Europea, riuniti a Lund, in Svezia, con l'obiettivo di lavorare ad un "sistema di coordinamento dei programmi di digitalizzazione a livello comunitario", ha prodotto un documento, noto come Principi di Lund (<ftp://ftp.cordis.lu/pub/ist/docs/digicult/lund_principles-it.pdf>) che evidenzia in particolare il ruolo che la digitalizzazione dei contenuti culturali e scientifici europei riveste per la promozione di quelle diversità, espressione di identità culturali, linguistiche e sociali differenti, che costituiscono una peculiare ricchezza dell'Europa. "Questo patrimonio deve essere messo alla portata del pubblico", si legge nel documento, di un pubblico vasto e indifferenziato, migliorando "la qualità e l'utilizzabilità dei contenuti". Va da se, inoltre, che un migliore accesso all'eredità culturale europea, conservata in istituzioni della memoria come archivi, biblioteche e musei, attraverso l'uso delle tecnologie dell'informazione, è essenziale per favorire lo sviluppo dei saperi e delle capacità necessari per un uso cosciente e critico delle opportunità offerte dalla Società della conoscenza.
Venendo alla biblioteca digitale, credo che quanto appena detto possa sintetizzarsi in uno slogan: non c'è biblioteca digitale senza un modello dei servizi; anzi, la biblioteca digitale è tutt'uno con il proprio modello di servizio. Vorrei considerare qui, con l'avvertenza che un quadro complessivo di un modello dei servizi esula dai limiti che mi sono posto, solo due aspetti per così dire interni ad un possibile modello, che ritengo fondamentali:
Da un progetto di biblioteca digitale è inoltre lecito attendersi, anzi andrebbe posto fra i requisiti principali, un miglioramento misurabile delle condizioni di utilizzabilità delle collezioni da parte degli utenti.
Certo tutto questo va contestualizzato, e qui si dovrebbe parlare della situazione italiana e, per quanto riguarda le biblioteche, degli specifici ruoli che le varie tipologie bibliotecarie dovrebbero assumere in tale scenario e dei rapporti che dovrebbero intrattenere fra di loro e con gli altri attori del mercato dell'informazione e della cultura. Non voglio addentrarmi in questi ragionamenti, più volte abbiamo discusso di un "sistema che non c'è".
Devo inoltre precisare che l'accezione di biblioteca digitale che è sottesa a quanto sto dicendo è quella corrente, in questa fase, all'interno delle istituzioni della memoria: un insieme di basi dati di oggetti digitali costruite a seguito di operazioni di scansione digitale dei corrispondenti oggetti analogici, al fine di favorirne l'accesso; un'accezione dunque limitata rispetto alla complessità e varietà dei temi propri della biblioteca digitale, e che non tiene conto, ad esempio, del mondo dell'editoria elettronica, o dei nuovi modi di produzione e circolazione del sapere scientifico. D'altra parte, nel momento in cui anche questi processi si sostanziano in basi dati di oggetti digitali, molti aspetti divengono comuni.
Il nucleo di un modello di servizio di biblioteca digitale è dunque costituito dalla strategia di accesso ai contenuti, ovvero dal metodo di accesso agli oggetti digitali organizzati all'interno di una base dati. Nei maggiori progetti di biblioteca digitale, quelli rivolti ad un pubblico vasto e indifferenziato, penso per tutti ad American Memory, con i suoi 7 milioni di documenti digitalizzati (<http://memory.loc.gov/>) penso anche al nostro ADMV, e comunque a quei progetti non destinati ad un uso ristretto da parte di comunità settoriali di specialisti, l'accesso all'oggetto digitale avviene attraverso il reperimento di una descrizione normalizzata dell'oggetto fonte, cioè di una registrazione di catalogo, e tramite la navigazione di un link.
Non si dovrebbero quindi digitalizzare documenti o materiali cui non corrispondano già registrazioni catalografiche standard, pubblicate ed organizzate su OPAC. Nel nostro paese, invece, sono mancate una politica e una strategia nazionali di retroconversione dei cataloghi, nonostante la pubblicazione delle linee guida dell'ICCU (<http://dante.iccu.sbn.it/guiretro.html>), la recente migrazione in indice SBN del CUBI, e alcune realizzazioni locali particolarmente significative. Questa situazione, e più in generale la mancanza di una "cultura" della retroconversione, sta creando notevoli difficoltà a chi oggi, sull'onda dell'incremento dei flussi finanziari destinati alla digitalizzazione, si accinge ad intraprendere progetti su vasta scala. Non si tratta infatti solo di retroconvertire i cataloghi cartacei, occorre che tali attività producano dei record in un formato standard. Devo a Giovanni Bergamin, e come sempre lo ringrazio, la segnalazione di un documento (Full Disclosure Implementation Group (FDIG). Retrospective catalogue conversion and retrospective cataloguing: a framework for funding bodies. <http://www.bl.uk/concord/otherpubfulldisc1.html>) redatto da un gruppo di istituzioni britanniche con competenze su archivi, biblioteche e musei, che contiene le linee guida per la retroconversione dei cataloghi e per la catalogazione retrospettiva. Secondo un modello organizzativo tipico dell'area anglosassone, e particolarmente efficace, ogni istituzione che intenda avviare un progetto in quest'ambito deve dimostrare preventivamente la coerenza con le linee guida per poter essere ammessa al finanziamento. Fra i criteri minimi, definiti anche "criteri soglia", per la valutazione di congruità troviamo la conformità agli standard bibliografici (es. MARC) e di interoperabilità (es. Z39.50), e la piena accessibilità delle registrazioni, intesa sia come disponibilità delle registrazioni su OPAC, che come disponibilità delle registrazioni per la catalogazione derivata. Non credo si possa dubitare della convenienza di questo approccio, proprio in vista del necessario riuso delle registrazioni catalografiche standard nei progetti di biblioteca digitale: questi ultimi, infatti, per essere sostenibili sia dal punto di vista economico che organizzativo, dovrebbero assumere come principio che tutte le esigenze di natura descrittiva relative agli oggetti digitali devono essere pienamente soddisfatte al livello delle descrizioni formalizzate degli oggetti fonte; non andranno cioè descritti gli oggetti digitali.
Non è questo il momento per discutere di standard, vorrei dire però che anche nell'ambito della Biblioteca Digitale Italiana ritengo il riferimento ad UNIMARC imprescindibile, per la quota di attività propria delle biblioteche. Basterebbe considerare gli ingenti investimenti fatti nel mondo per produrre molti milioni di registrazioni in uno dei formati MARC; e tenere presente che il contesto tipico in cui lavoreremo vede la presenza di 4 archivi logici, a cui generalmente, ma non necessariamente, corrispondono 4 archivi fisici:
Il flusso delle informazioni fra questi archivi è una procedura complessa ed implica l'uso di un formato di scambio dei dati raffinato teoricamente e ampiamente collaudato che possa supportare, strutturandole e formalizzandole, tutte le funzionalità richieste, anche solo quella fondamentale del legame fra la registrazione catalografica e l'oggetto digitale corrispondente. Nella biblioteca digitale, inoltre, assume sempre maggiore importanza la possibilità di accedere con un elevato indice di precisione alla versione digitale, nel caso di ADMV immagine o suono, di singole parti componenti di un documento (pensiamo ad esempio, per la musica, ad una determinata aria all'interno di un atto di un'opera lirica, o a un determinato movimento in una sinfonia, o a un singolo brano di un vinile a 33 giri); questo si può ottenere, e non sempre o non del tutto, a partire da record fortemente strutturati, nei quali cioè siano accuratamente identificati i singoli elementi che compongono la descrizione e le loro relazioni gerarchiche, in modo da poter associare a questi elementi specifiche funzioni. Uno standard come Dublin Core, utilizzato sempre più come minimo comune denominatore per la descrizione di oggetti appartenenti a domini diversi, come gli archivi ed i musei, prevede una strutturazione semplificata e limitata del record, e non risponde dunque a tutti i requisiti richiesti. Anche XML, il cui successo è crescente anche nelle applicazioni di biblioteca digitale, e che sarà usato in ADMV per esprimere i metadati tecnici, amministrativi e gestionali, definisce un linguaggio per la strutturazione degli elementi che compongono un record, ma non definisce (e non potrebbe essere altrimenti) quali debbano essere quegli elementi. Non credo si possa dunque fare a meno della struttura UNIMARC delle registrazioni catalografiche, tanto più che sia UNIMARC che Dublin Core sono agevolmente esprimibili in linguaggio XML (tramite convertitori o apposite DTD).
In ADMV si sta lavorando, è il caso di dirlo, duramente, per una compiuta applicazione di UNIMARC alla descrizione dei manoscritti musicali, anche all'interno di un Gruppo di lavoro nazionale coordinato da Cristina Magliano dell'ICCU, che sta per presentare proprio in questi giorni al Permanent Unimarc Committee dell'IFLA alcune proposte di integrazione allo standard. Cito solo, fra queste proposte, perché di interesse generale per i progetti di biblioteca digitale, un'estensione dell'ambito di applicazione dell'etichetta 856 tesa a consentirne l'uso anche per attuare il legame fra la registrazione catalografica di un documento analogico e la sua versione digitale, in analogia con quanto previsto da MARC21. UNIMARC, come è noto, prevede attualmente l'uso di 856 solo per gestire il legame fra la registrazione catalografica di una risorsa elettronica e la sua immagine a testo pieno.
D'altra parte è bene tenere sempre presente che le finalità specifiche di formati bibliografici come MARC e ISBD sono quelle di "descrivere" e "identificare" i documenti, e non è il caso di forzarli attribuendo loro funzioni diverse, non coerenti con quelle finalità. Un surrogato di un documento, qual' è una registrazione di catalogo, pur redatto in base ad un formato bibliografico raffinato, non è certo in grado di rendere compiutamente la struttura di un oggetto digitale, tutte le sue parti componenti, le relazioni nascoste fra queste parti; caratteristiche che si disvelano invece nel momento in cui l'oggetto digitale viene visualizzato a testo pieno, e diviene possibile "entrarci dentro". I Functional Requirements for Bibliographic Records (FRBR) rappresentano a tutt'oggi il più compiuto tentativo di rispondere a queste esigenze, ma alla profondità del quadro teorico che li sottende non corrispondono ancora applicazioni significative. Uno dei problemi del rapporto fra catalogazione e digitalizzazione consiste nel fatto che gli utenti ritengono utile poter accedere a unità di informazione, a porzioni dell'oggetto, che è difficile tracciare in una registrazione catalografica. La cosa è particolarmente evidente nei documenti musicali, dove ad esempio può esserci la necessità di trovare l'incipit musicale di un tema interno alla composizione, o nei documenti audiovisivi, quando si debba individuare una determinata scena di un film o una porzione di un documentario della durata desiderata. E magari su quella porzione si richiedono dei servizi, che possono venire erogati gestendo diritti di accesso differenziati. E' il tema della "segmentazione", e con questo siamo fuori dall'orizzonte della catalogazione e dentro un altro orizzonte, quello della raccolta dei metadati tecnici, amministrativi, gestionali, strutturali cioè informazioni extra-bibliografiche indispensabili per utilizzare al meglio gli oggetti digitali e per erogare i servizi della biblioteca digitale.
Occorre in sostanza avere ben chiaro quanto si può chiedere ai formati biliografici e quanto implica invece la definizione di altri tipi di informazioni, per le quali il processo di standardizzazione è tuttora in corso.
Alcune delle cose dette finora possono valere come indicazione di carattere generale per chi, ad esempio, si trovi a dover impostare una politica di digitalizzazione delle collezioni musicali italiane, ma possono restare argomentazioni astratte per chi sta già lavorando a specifici progetti di scansione digitale.
L'esperienza di chi ha affrontato progetti di digitalizzazione di documenti cartacei cui non corrispondano già registrazioni catalografiche standard dimostra che la linea di produzione dei record di catalogo e quella degli oggetti digitali seguono tempi drammaticamente diversi, e ciò ha comportato vere acrobazie organizzative in progetti condizionati da scadenze temporali precise, o che coinvolgevano risorse tecniche o umane esterne. La quota marciana del primo test di realizzazione di ADMV (e ne approfitto per dire che è bene che progetti di scansione di vasta portata prevedano una fase sperimentale, applicata ad una porzione limitata di materiali, al fine di controllare ed ottimizzare il processo) riguarderà 74 manoscritti di Alessandro e Benedetto Marcello, per un totale di 7.584 pagine. Con un tempo medio di scansione di 40 secondi per il verso di una carta ed il recto della successiva, con un unico scatto da cui il software, guidato dall'operatore, ricaverà comunque 2 file, uno per ogni pagina, più il tempo necessario al settaggio dello scanner con parametri che possono differire da un documento all'altro, il lavoro di scansione potrebbe concludersi in una settimana. Quei codici sono già catalogati, ma, se non lo fossero, difficilmente potrebbero venire catalogati nello stesso tempo, o anche nel doppio di quel tempo.
In questi casi non credo ci siano alternative alla definizione di un set minimo di dati descrittivi, che siano comunque un sottoinsieme di un set standard, funzionale alla linea di produzione degli oggetti digitali. Con la coscienza però che quanto si perde in accuratezza della strutturazione dei record si perderà poi in efficacia del software che verrà utilizzato per il recupero delle informazioni e l'accesso agli oggetti digitali.
L'altro aspetto fondamentale di un modello di servizio di biblioteca digitale, che richiamavo all'inizio, è il mantenimento nel tempo delle condizioni di accessibilità dei contenuti digitali. Il sistema deve cioè essere in grado di offrire agli utenti un servizio continuativo ed affidabile, in base a determinati parametri di qualità. Per ottenere questo è necessario che i progetti prendano in carico fin dall'inizio, e non come funzione accessoria da definire in un secondo momento, il tema della conservazione di lungo periodo degli oggetti digitali. Diceva Seamus Ross in un intervento tenuto alla Biblioteca della Camera dei Deputati circa un anno fa (e di cui non mi risultano tracce documentarie) che occorre prendere piena coscienza del fatto che con la digitalizzazione si creano dei nuovi oggetti, dei beni che hanno valore economico e che vanno tutelati e conservati, ma che comportano dei costi gestionali e di manutenzione continuativi e non indifferenti, che andranno in qualche modo coperti al di là dei costi totali di un progetto. Ross lamentava fra l'altro anche l'assenza di un modello generale dei costi di impianto e gestione di una biblioteca digitale, e invitava a definire tale modello a seguito dell'analisi accurata di un progetto pilota.
Anche gli oggetti digitali vanno dunque trattati con la mentalità conservativa propria delle istituzioni della memoria, adattandola però ad un contesto totalmente nuovo. E' la struttura stessa dell'archivio degli oggetti digitali che va pensata fin dall'inizio per rispondere alle esigenze di conservazione di lungo periodo. A questi fini pare molto promettente un modello logico-funzionale di alto livello noto come OAIS (Open Archival Information System) (<http://ssdoo.gsfc.nasa.gov/nost/isoas/ref_model.html>). Sviluppato in origine nell'ambito della comunità della ricerca spaziale, indipendente da specifiche piattaforme hardware e software e da specifici applicativi, adottato da importanti progetti come NEDLIB, CEDARS, PANDORA, OAIS è uno standard ISO tuttora in fase di definizione ma che si sta rapidamente affermando come "lo" standard per la conservazione degli oggetti digitali. Cito da una presentazione che ne ha fatto Gloria Cirocchi al Seminario Nazionale sui metadati organizzato dall'ICCU il 3 aprile 2001 (<http://www.iccu.sbn.it/semimeta.htm>): OAIS "individua termini e concetti rilevanti per l'archiviazione di documenti digitali, identifica le componenti ed i processi chiave comuni alla maggior parte delle attività di conservazione digitale, e propone un modello logico di riferimento per gli oggetti digitali ed i metadati loro associati, che comprende la creazione e l'uso dei metadati utili a gestire il materiale elettronico, dalla fase di acquisizione a quella di conservazione, fino alla fase di accesso" da parte degli utenti (
I metadati cui si fa qui riferimento non sono di natura descrittiva ma, come accennavo poc'anzi, di natura amministrativa, gestionale e strutturale: relativamente alla conservazione di lungo periodo si tratta di una serie di informazioni extra-bibliografiche necessarie appunto per attuare le operazioni di conservazione; ne cito a titolo di esempio solo alcuni, tratti dallo schema proposto nel progetto NEDLIB (<http://www.kb.nl/coop/nedlib/homeflash.html>)
La definizione dello schema dei metadati, della loro fisica collocazione in una base dati separata da quella degli oggetti o del loro eventuale incapsulamento all'interno degli oggetti, sono alcune delle scelte che vanno fatte in sede di definizione dei requisiti, e che devono essere ben chiare prima dell'avvio dei progetti. Il modello OAIS prevede ad esempio che la sequenza di bit che compone il contenuto semantico di un oggetto digitale sia logicamente inseparabile dai metadati necessari per rendere comprensibile quella sequenza di bit, sia dal punto di vista strutturale (formato, software di accesso), che semantico (es. lingua del testo).
La raccolta dei metadati è un altro degli elementi che possono influire pesantemente sull'economia complessiva di una linea di produzione di oggetti digitali, dal punto di vista dell'organizzazione, dei costi e dei tempi. Naturalmente l'indicazione è che tutto il processo sia gestito il più possibile in automatico, da un software in grado di catturare o creare quelle informazioni, pienamente integrato con quello della digitalizzazione, per ridurre i tempi e le possibilità di errore.
A ben vedere, questa fase del processo di conservazione non è concettualmente tanto diversa dalla protezione del libro appena acquisito con una copertina in plastica, prima della collocazione a scaffale, per garantirsene una migliore conservazione nel tempo.
Vorrei concludere l'intervento con qualche cenno sui più recenti orientamenti delle tecniche di recupero delle informazioni applicate ai documenti musicali, siano essi partiture o documenti sonori veri e propri. Ringrazio per questa parte Massimo Melucci e Nicola Orio dell'Università di Padova, che mi hanno fornito utili indicazioni. Sistemi efficaci di individuazione e recupero di brani musicali saranno una componente fondamentale del modello dei servizi di una biblioteca digitale per la musica (per questi aspetti si veda il sito ufficiale della comunità di ricerca sull'IR musicale: <http://music-ir.org>).
La difficoltà nasce dal fatto che in un brano musicale mancano dei marcatori o delle convenzioni che consentano di individuare delle "unità lessicali" elementari, come sono le singole parole in un testo scritto. Una prima area di studio e sperimentazione riguarda allora le tecniche per individuare delle frasi musicali elementari da usare come "descrittori di contenuto musicale" e da confrontare con delle richieste musicali inserite nel sistema dall'utente tramite una tastiera MIDI (cioè suonando un brano musicale), o tramite un'interfaccia grafica (suonando una tastiera virtuale visualizzata sullo schermo, o trascinando con il mouse le note sul pentagramma visualizzato sullo schermo, a comporre il brano musicale). Una seconda area attiene alla ricerca per linea melodica, che si basa su software che combinano tecniche di Information retrieval musicale con algoritmi di estrazione delle linee melodiche di un brano musicale.
A questo proposito in ADMV la Biblioteca Nazionale Universitaria di Torino condurrà una sperimentazione specifica sulle composizioni di Antonio Vivaldi espresse in formato MIDI, che dovrà permettere l'individuazione di melodie e ritmi delle composizioni musicali, attivando, dai risultati della ricerca, il collegamento alla registrazione catalografica ed alla riproduzione digitale della partitura.
Maurizio Messina, Biblioteca Nazionale Marciana - e-mail: messina@marciana.venezia.sbn.it
«Bibliotime», anno V, numero 1 (marzo 2002)