[AIB-WEB] Associazione italiana biblioteche. Congresso 1999

 

Biblioteca digitale e servizi elettronici

Roberto Dallari e Enrico Seta , Camera dei Deputati
Il Progetto di digitalizzazione degli Atti Parlamentari

Descrizione delle Raccolte

La Raccolta degli Atti Parlamentari posseduta dalla Biblioteca della Camera dei Deputati, costituisce, con quella della Biblioteca del Senato, un importante patrimonio storico-culturale e una fonte indispensabile per la ricerca sulla storia e le vicende politiche del nostro paese. La Raccolta inizia nel 1848, con i lavori del Parlamento Subalpino e ripercorre tutta la storia parlamentare, dal Regno d'Italia, al regime fascista, alla Assemblea Costituente, al Parlamento repubblicano, fino ai nostri giorni.

In questa sua storia, la collezione degli Atti ha mantenuto per più di un secolo la sua tradizionale veste cartacea e viene tuttora pubblicata quotidianamente - nei giorni di seduta - in fascicoli. I fascicoli vengono poi ripubblicati in volumi che la Biblioteca conserva rilegati con caratteristiche rigorosamente costanti (forma, colore, ecc.) La pubblicazione in forma tradizionale continua tuttora anche se nuovi formati si sono affiancati alla carta negli ultimi decenni. A partire dal 1992 il testo integrale degli Atti è disponibile in formato magnetico, nelle banche-dati full-text TIAP, per la Camera, e TEXT per il Senato. Infine, dalla XIII Legislatura ( 1996-) i testi sono consultabili direttamente sulla rete Internet, sul sito della Camera e su quello del Senato: <http://www.camera.it> e <http://www.senato.it>.

Con l'apertura della Biblioteca al pubblico esterno, decisa nel 1988 in occasione del trasferimento nella nuova sede di Via del Seminario, la raccolta cartacea veniva messa a disposizione di tutti i lettori, con consultazione libera a scaffale aperto. Si voleva dare in tal modo dare la più ampia attuazione possibile al principio costituzionale della pubblicità dei lavori del Parlamento. Si trattava senza dubbio di una novità importante, ma territorialmente limitata, ristretta alla città di Roma o ai poche volenterosi disposti a far visita alla nostra Biblioteca da altre città.

Nonostante questa iniziativa, vi è da parte nostra chiara consapevolezza che l'accesso alla documentazione parlamentare da parte dei cittadini e degli studiosi rimane in tutto il paese un problema, almeno per il periodo che precede l'avvento della rete Internet. Sono poche le Biblioteche italiane dotate di una raccolta in carta completa, con tutti gli indici necessari alla ricerca. Spesso si tratta di raccolte non facilmente fruibili dai lettori, perché conservate in magazzini o addirittura in luoghi inaccessibili.

Anche il trasferimento su banche-dati e la distribuzione di esse ad alcuni enti richiedenti non ha risolto - a nostro avviso - il problema: la consultazione delle banche-dati richiede una conoscenza approfondita della struttura dei dati e del linguaggio di interrogazione STAIRS, conoscenze che difficilmente si trovano nel lettore comune.

Arriviamo dunque alla XIII Legislatura, quella in corso: in questi anni si registra un salto reale nella possibilità di accedere e di consultare gli Atti parlamentari per tutti i cittadini. Camera e Senato decidono infatti di avviare progressivamente la pubblicazione degli atti nel formato leggibile dai diversi browser della rete Internet. Si inizia con i lavori delle Assemblee, per passare ai testi dei disegni di legge e poi, in un secondo momento, ai lavori delle Commissioni. Il processo è attualmente in corso.

Per la Biblioteca la novità è grande: si apre una occasione da non perdere per trasferire tutta la collezione nei nuovi formati digitali e per allargarne l'accesso nelle nuove modalità della rete. Ma vi è anche un'altra esigenza sempre più sentita dopo l'apertura della Biblioteca al pubblico esterno: quella della tutela delle raccolte e della conservazione. L'apertura al pubblico ha costituito infatti un ulteriore motivo di preoccupazione per l'integrità delle raccolte. Anche se la Biblioteca possiede almeno due raccolte complete (ed un'altra di riserva ma incompleta) ed una copia in microfilm per il periodo del Regno d'Italia, l'uso intenso delle raccolte da parte del pubblico ha arrecato in questi anni danni facilmente percepibili alle legature, alle carte, ecc. E' indispensabile dunque cogliere la grande opportunità offerta dalle nuove tecnologie digitali: le copie in carta potranno rimanere - con gli opportuni trattamenti - copie di esclusiva conservazione, mentre l'uso e la consultazione dovrà trasferirsi su nuovi formati. I nuovi formati digitali consentiranno inoltre - qualora lo si ritenesse necessario - di produrre anche nuove copie nei formati tradizionali (microfilm).

Vi è grande ansia tra i bibliotecari sulla "durata" dei formati digitali, un tema che è seguito con particolare attenzione dalla nostra collega Gloria Cirocchi, che partecipa al progetto come esperta degli aspetti relativi alla tutela ed alla conservazione delle raccolte.

In base a queste - e ad altre più tecniche considerazioni che svilupperà in maggior dettaglio Enrico Seta - è sembrato opportuno lanciare un progetto per la conversione digitale della intera raccolta, a partire dal 1848.

Le dimensioni e la struttura della raccolta

Ma quali sono le dimensioni del problema? Quanti volumi e quante pagine costituiscono la raccolta? Come è strutturata la collezione?

Mi limiterò in questa sede ad illustrare sinteticamente le caratteristiche della collezione tradizionale in carta. Esiste - è vero - una raccolta in microfilm, ma la qualità delle riproduzioni non è elevata e sembra sconsigliare una conversione a partire da quel formato.

La raccolta degli Atti Parlamentari è suddivisa in diverse serie che incontriamo sia alla Camera che al Senato con caratteristiche tipografiche e di contenuto sostanzialmente analoghe, fin dai tempi del Parlamento Subalpino. Le due serie principali sono:

I Disegni di legge e documenti (dal 1848)

I Resoconti stenografici di Assemblea (dal 1848)

Il numero di pagine complessive per queste due raccolte, dal 1848 alla fine della XII Legislatura repubblicana è stimato in circa 6.500.000 per i disegni di legge-documenti e in 1.500.000 pagine per i resoconti stenografici delle due Assemblee.

A partire dal secondo dopoguerra, dunque nella esperienza parlamentare della Repubblica, si aggiunge a questa imponente documentazione, anche quella relativa ai lavori delle Commissioni parlamentari, mentre per i lavori d'Aula, la necessità di disporre con rapidità di un resoconto porta alla pubblicazione della serie del Resoconto sommario.

Questa ultima raccolta, che inizia nel 1948, contiene solo la sintesi degli interventi e dei dibattiti che poi verranno trascritti integralmente nello stenografico e potrebbe dunque essere trascurato in un progetto di conversione così vasto.

La documentazione delle Commissioni è invece un elemento fondamentale per la pubblicità dei lavori. Vediamone la struttura a grandi linee:

Gli stenografici delle Commissioni

I Resoconti sommari delle Commissioni

Si tratta di una duplicazione solo apparente. Mentre infatti i "sommari" registrano in sintesi tutta l'attività delle commissioni nelle diverse "sedi" in cui esse si riuniscono (sede referente, redigente, legislativa, attività di controllo, ecc.), con l'eccezione delle audizioni e delle indagini conoscitive, gli "stenografici" contengono le trascrizione integrale dei dibattiti, ma solo per le sedute nelle quali le commissioni si riuniscono in sede legislativa, redigente (cioè quando la commissione può approvare il disegno di legge senza una deliberazione dell'Aula, o può approvarne gli articoli lasciando all'aula solo il sì o il no finale) o per svolgere audizioni o indagini conoscitive.

In base a queste caratteristiche e a queste differenze non marginali, si può concludere che le due serie dovrebbero essere entrambe convertite in formato digitale. Il totale da convertire è stimato in circa 900.000 pagine.

Se queste sono - veramente a grandi linee per i limiti di tempo di questa comunicazione - le caratteristiche della raccolta, non resta che dare qualche informazione sull'apparato di indici e repertori che le due assemblee hanno sempre curato e che consentono la ricerca su tutte le attività delle due camere a partire dal 1848.

Gli indici disponibili in formato cartaceo sono di due tipi:

Gli indici alfabetici della attività dei singoli parlamentari

La serie "Indice generale della attività parlamentare" che registra, per le singole legislature e in ordine alfabetico dei deputati, tutte le attività svolte nel corso del mandato

Gli indici per materia e argomento

L'Indice generale degli Atti parlamentari (1848-1897), curato da R. Biffoli e C. Montalcini e pubblicato nel 1898, registra le attività di Camera e Senato.

La serie c.d. degli INDEX, una collezione che, con titoli diversi e contenuti che variano nelle diverse epoche, ricostruisce le vicende parlamentari per più di un secolo: dal 1870 al 1972.

Gli Indici di legislatura allegati al Resoconto stenografico del Senato, alla fine di ogni Legislatura: dal 1848

I Repertori delle legislature repubblicane che, a partire dal secondo dopoguerra si affiancano alla serie degli Index e la continuano fino alla X Legislatura (1992). Si tratta di due serie separate, pubblicate rispettivamente dalla Camera dei Deputati (per le procedure di informazione e la attività non legislativa) e dal Senato (per la attività legislativa di entrambe le Assemblee)

Come si vede, un apparato di indici articolato e completo.( Si tratta di 130 volumi, per circa 105.000). Esso consente la ricerca in tutti gli aspetti della storia parlamentare dal 1848 fino alla fine degli anni '70. Si tratta tuttavia di strumenti i cui contenuti e l'organizzazione delle informazioni non sono omogenei e costanti nel tempo, anzi subiscono forti cambiamenti nei diversi periodi della nostra vita parlamentare, talvolta anche da legislatura a legislatura. anni in cui essi cominciano ad essere sostituiti dalle basi-dati su supporto magnetico con modalità di interrogazione STAIRS. Questi archivi, la cui alimentazione è proseguita fino ai nostri giorni, sono differenziati per tipo di attività parlamentare e vengono curati in cooperazione dalle due Camere.

I principali archivi magnetici sono:

SDDL ( a cura del Senato): registra tutta l'attività legislativa delle due Camere, dal 1979.

SI (a cura della Camera): registra l'attività di c.d. sindacato ispettivo, cioè le interrogazioni, interpellanze, mozioni, dal 1976.

A questi archivi se ne affiancano molti altri che non è possibile illustrare in questa sede, ma che costituiscono il complesso "Sistema informativo" sui lavori del Parlamento.

Nel breve spazio di questa comunicazione non è possibile dare un quadro completo e dettagliato di questi strumenti di indicizzazione . Dalla sintetica descrizione fatta credo comunque che appaiano con evidenza i problemi che derivano ai fini di un progetto di conversione digitale degli atti parlamentari e che tento di riassumere: in primo luogo le dimensioni del problema e la necessità di un adeguato project-management, di gestione del workflow a progetto avviato; in secondo luogo la scelta tra semplice imaging delle raccolte e codificazione dei testi secondo le nuove tecniche di mark-up e di text-neconding; il trattamento degli indici; la definizione di un sistema coerente di identificazione e denominazione dei file; la progettazione dei software di ricerca per le immagini e per i testi; infine il raccordo e l'integrazione tra i diversi archivi che costituiscono il sistema informativo della Camera e le esigenze di spazi di memoria magnetica adeguati.

Da quando abbiamo iniziato questa esperienza, pochi mesi, abbiamo avuto una acuta percezione delle dimensioni del problema, tecnologiche, conoscitive, organizzative, economiche, di politica culturale.

Siamo appena agli inizi e siamo sicuri che man mano che andremo avanti cambieranno diverse cose e - ci auguriamo - assumeranno dimensioni maggiori anche le risorse impegnate nella realizzazione di questo progetto.

Per ora, infatti, siamo pochi.

Essendo pochi, il nostro primo obiettivo è stato quello di moltiplicare le nostre forze. Non bastavano semplicemente la conoscenza approfondita della collezione e una ricerca sullo stato dell'arte. Abbiamo provato ad attrezzarci meglio:

_

In primo luogo ci siamo dotati di un sito WEB (su cui annotiamo il frutto delle nostre ricerche).

Poi abbiamo cercato di scegliere delle esperienze di riferimento.

Infine abbiamo cercato di collegarci strettamente a realtà (anche esterne al mondo delle biblioteche) in cui fossero conosciute le tecnologie che a noi serviranno.

A proposito del nostro sito, mi limito a ringraziarvi per l'opportunità di citarlo

<http://members.it.tripod.de/diglib/index.html>

Sul sito si troverà anche traccia di questa apertura al mondo SGML/XML.

Sulle esperienze, invece, occorre dire qualcosa. Ne abbiamo scelto due e cercherò di spiegare il motivo della scelta.

La prima si riferisce alla Library of Congress.

La Library of Congress ha in parte già realizzato ciò che noi intendiamo realizzare. Il risultato (ma non è un risultato definitivo, è ancora è un work in progress) fa parte della "Biblioteca Digitale" American Memory, ben nota a molti di voi.

Circa 100 anni di documenti parlamentari americani in formato digitale sono, infatti, visibili all'URL:

<http://memory.loc.gov/ammem/amlaw/lawhome.html>.

Il nome della risorsa digitale è A century of lawmaking for a new nation. U.S. Congressional Documents and Debates 1774-1873. Essa contiene i proceedings degli organi legislativi americani a partire dal 1774, cioè dalle origini del Continental Congress e della guerra rivoluzionaria d'indipendenza.

Sotto il nome comune di A century of lawmaking vi sono 9 raccolte distinte.

Date le vicende storiche americane, e la nascita del parlamentarismo americano - anteriore di oltre mezzo secolo al nostro - le raccolte originarie da cui si è ricavata la raccolta digitale hanno un carattere molto molto più complesso. E' prima di tutto un insieme di pubblicazioni ufficiali e non ufficiali. Ad esempio la serie U.S. Statutes at Large, oggi pubblicata dal GPO, non è stata una pubblicazione ufficiale per i suoi primi 30 anni di vita (1845 - 1874). Inoltre, in molti casi le pubblicazioni a stampa non sono contemporanee, ma successive (anche di diversi decenni) rispetto all'epoca a cui si riferiscono, sono cioè trascrizioni di manoscritti. E' il caso del Journal of Continental Congress, 1774-1789. Per l'epoca più antica del Congresso federale (dal 1789 agli anni '20 delll'800) i dibattiti parlamentari sono poi ricostruiti a posteriori solo in minima parte sulla base dei Journals ufficiali delle due assemblee legislative (che si limitano a riportare le materie trattate e i voti espressi), ma piuttosto sulla base di resoconti giornalistici. E' il caso degli Annals of Congress (1789-1824). Ma vi furono sessioni prive di questi resoconti (perché chiuse al pubblico). In questi casi suppliscono parzialmente collezioni di diari , come il Journal of William Maclay (senatore della Pennsylvania dal 1789 al 1791) o ricostruzioni storiche successive, come per il periodo della Constitutional Convention, per il quale vi sono due ricostruzioni successive, gli Elliot's Debates e i Ferrand Record, pubblicate la prima fra il 1836 e il 1859 e la seconda nel 1911.

Di questa esperienza di digitalizzazione si può apprezzare in primo luogo il disegno dell'interfaccia, grazie a cui siamo in grado in pochissimo tempo di orientarci in un così complesso insieme documentario. Si offre, infatti, un accesso alle collezioni filtrato attraverso diversi livelli descrittivi. Efficaci descrizioni essenziali delle raccolte, dotate di strumenti di navigazione ben scelti, danno un primo orientamento, sufficiente a proseguire verso i documenti primari. Ma, pur presentate in modo da non intralciare, vi sono anche note più approfondite sulle 9 raccolte e una guida alla consultazione dell'intera risorsa digitale. Infine vi sono anche i record bibliografici delle raccolte componenti, nonché una citation guide, che spiega efficacemente come citare le fonti consultate. Cioè vi sono strumenti molto raffinati, ma sono collocati in modo da non rappresentare una barriera all'accesso rapido. Insomma, l'amichevolezza non è a scapito della completezza e del rigore bibliografici. E questa mi sembra una indicazione di metodo interessante.

Ma i motivi più profondi del nostro interesse per l'esperienza americana è il formato dei dati. In particolare la scelta operata dalla LC di effettuare la digitalizzazione non semplicemente in un (economico) formato-immagine, ma di realizzare anche un testo elettronico in SGML.

In A century of lawmaking sono riportate le immagini di tutte le pagine digitalizzate, testimonianza fedele della tipografia dell'originale, ma il testo è anche in caratteri ASCII, e quindi su di esso sono eseguibili potenti funzioni di ricerca. A noi sembra che in questa scelta si possa leggere una consapevolezza del valore della documentazione parlamentare, del suo essere, anche per le parti meno recenti, una raccolta "viva". E questo è un dato culturale non trascurabile.

Infine dell'esperienza americana deve segnalarsi la ricchezza della documentazione, sia sulle tecnologie impiegate, che vengono descritte a un livello come al solito molto alto (fino alla descrizione dei sw utilizzati), sia sulle procedure amministrative. Cosa farebbero i responsabili dei progetti di digitalizzazione, impegnati in complessi rapporti con società private - fra preventivi, test, contratti e relative specifiche tecniche - senza i preziosi "request for proposal" della LC, tutti puntualmente distribuiti in rete?

La seconda esperienza a cui facciamo riferimento, e che descriverò molto sommariamente è stata realizzata dal Parlamento irlandese. Ad oggi non è ancora consultabile via Internet, dove sul sito delle Houses of the Oiereachtas, <http://www.irlgov.ie/oiereachtas/frame.htm> sono per ora visibili i dibattiti parlamentari in full-text solo dal 1997, ma dove è preannunciato, entro il 1999, il completamento del progetto che renderà consultabili - sempre in full-text - i dibattiti dal 1919.

Questo progetto è stato dettagliatamente descritto alla conferenza internazionale che si è tenuta a Granada in aprile "XML Europe" dal responsabile tecnico della Digitome, piccola ma dinamicissima società irlandese che sta realizzando, insieme alla Biblioteca parlamentare irlandese, il progetto. Il testo del suo intervento è sui "Proceedings" della Conferenza (per ora solo a stampa e su CD-ROM).

La raccolta dei Dibattiti parlamentari (circa 600 volumi), dal 1928 al 1997 è stata appunto convertita in XML. L'immissione dei dati e la codifica in XML è stata effettuata da una società offshore. Il controllo di qualità è stato effettuato da una divisione specializzata della Xerox. Successivamente, attraverso un processo completamente automatizzato, i dati XML sono stati riversati contemporaneamente in un "infobase" , termine usato dal sw Folio Views per definire la base informativa (per la produzione di un CD-ROM) e in un server WEB.

"670.000 pagine convertite in CD-Rom e in un Website XML in meno di 9 mesi !", si legge sulla homepage della Digitome, ad un ritmo di data capture di 120.000 pagine al mese. L'aspetto più interessante del progetto è stata la possibilità di automatizzare interamente il processo di riversamento dei documenti XML nel DB Folio Vews. Questo notevole risparmio è stato possibile grazie alle caratteristiche del formato XML, dalla facilità con cui i documenti XML possono essere frantumati in dati ed alimentare un database.

In queste due esperienze abbiamo trovato conferma di quanto negli ultimi anni, nell'ambito della biblioteconomia inglese e americana, e soprattutto attraverso l'esperienza degli "Electronic Text Centers", si è venuto acquisendo: l'importanza decisiva, anche nella conversione retrospettiva, dei linguaggi di markup, e in particolare dei linguaggi basati su un markup logico e non procedurale.

Un rinvio - non c'è spazio per approfondimenti - sull'esperienza degli ETC: si trova un elenco degli ETC al sito del Center for Electronic Texts in the Humanities (Università di Rutgers e Princeton):

<http://www.ceth.rutgers.edu/InformationServices/ectrdir.html>

Il formato immagine rivela in progetti di conversione di testi a stampa, e segnatamente di testi stampati con procedimenti interamente meccanici, tutti i propri limiti.

Lo stesso deve dirsi per formati quali HTML e PDF, che pure sono - almeno oggi - i formati del WEB. Questi formati infatti guardano al testo da una precisa angolazione: la finalizzazione di un testo elettronico è la circolazione in rete e quindi la stampa.

Forse pochi sanno meglio di noi bibliotecari quanto questo approccio sia diverso dall'altro che guarda, invece, al testo come fonte delle informazioni.

Il contenuto informativo che a noi serve risiede in misura molto maggiore nella struttura logica che non nel layout della pagina. Ebbene, se guardiamo ai formati dei testi elettronici, ci riuscirà molto facile ritrovarci in queste problematiche che costituiscono parte integrante del nostro patrimonio metodologico.

Iniziamo dall'HTML. Com'è noto si tratta di un linguaggio di markup, anzi di un'applicazione dell'SGML, che è al momento presente (e probabilmente lo rimarrà a lungo) quanto di meglio esiste fra i linguaggi di markup. Il problema è che HTML ha un markup finalizzato a qualcosa a cui ci è difficile rinunciare, ma che non ci basta.

I tags ammessi da HTML sono quasi tutti finalizzati a offrire diverse modalità di visualizzazione a diverse parti del testo. Questo modo di affrontare il problema della struttura del testo è in continuità con tutta la storia della stampa, ma non sfrutta le potenzialità informative del testo elettronico. Se si ripensa a ciò che realizzò la tipografia, si scopre che non vi sono molte differenze. Con il layout generale della pagina, la giustezza, l'inserimento, all'interno del testo, di tabelle e oggetti grafici, con i diversi glifi (oggi li chiamiamo font) e serie di caratteri, con i tipi di carattere (grassetto, neretto, sottolineato, ecc.), con la definizione degli elementi principali di una struttura editoriale (la separazione dei paragrafi, i rientri, i vari livelli di titoli e sottotitoli). Sono questi i "tags" HTML. La loro utulità corrisponde - sul piano informativo - a quella della tipografia: la coerenza con certe convenzioni (antichissime, risalenti proprio alle origini della stampa a caratteri mobili) permette di comunicare, insieme al puro testo, anche alcune informazioni aggiuntive sulle parti che lo compongono, sulla loro importanza relativa. Ma servono questi scopi in un modo riduttivo, cioè trasferendo nel mondo dei dati digitali le stesse convenzioni tramandate dal mondo della stampa

Ancora più esplicitamente - ma riduttivamente - finalizzato alla stampa è il formato PDF, dove la fedeltà all'originale non deve farci perdere di vista due problemi:

È una fedeltà "artificiale" (è pur sempre un testo elettronico, in quanto tale - ad esempio - "manipolabile"). Sembra risolvere, ma non risolvere il vero problema dell' "autenticità" del testo elettronico

Non nasce per rispondere ad esigenze filologiche (a cui risponde più direttamente un'immagine analogica), ma piuttosto ad esigenze di riproduzione a stampa.

Ora, questa esigenza, nel momento in cui si digitalizza una collezione cartacea, una collezione ricca di contenuti informativi, deve occupare un posto secondario. Il posto centrale devono, invece, occuparlo altri requisiti: la valorizzazione del contenuto informativo e il riuso. La stampa (e in particolare la stampa di fotocopie) è solo una delle finalità: forse la più appariscente, ma una delle meno importanti se proiettiamo il testo elettronico nel futuro. Le due esigenze di valorizzazione del contenuto informativo e di riuso sono strettamente correlate poiché il riuso è possibile se noi archiviamo i testi strutturandoli logicamente, cioè in base al loro contenuto informativo.

Questo richiamo è stato inserito in questo intervento descrittivo del nostro progetto non certo per annunciare che anche la digitalizzazione degli Atti Parlamentari italiani verrà fatta secondo i due modelli che ho illustrato.

La nostra collezione, come ha spiegato Roberto Dallari, è di dimensioni ben maggiori di quella irlandese e anche (della parte già digitalizzata) di quella americana. Esite tutto un problema di imaging che sicuramente ci riguarda e su cui stiamo anche lavorando, ma al quale non ho fatto riferimento perché, in un certo senso più scontato. Qui si è voluto sottolineare l'aspetto del progetto più interessante sul piano metodologico. Vorremmo, cioè, che la digitalizzazione degli Atti Parlamentari rappresentasse l'occasione per un impiego, anche in Italia, anche nel mondo della conversione di raccolte librarie, dei linguaggi SGML/XML. Siamo certi che un loro impiego su vasta scala nella digitalizzazione rappresenta un investimento redditizio nel lungo periodo, e che i bibliotecari devono tentare di convincere gli amministratori e gli erogatori dei fondi della redditività di questa scelta, anche per molte (se non tutte) le raccolte librarie che vorremo far migrare nel futuro.

In particolare stiamo lavorando ad ipotesi di codificazione SGML/XML o per il ricco apparato di indici, o - secondo il modello irlandese - per la serie delle Discussioni. Speriamo che maturino presto le condizioni per poter avviare un gruppo di lavoro per l'elaborazione di una DTD per la descrizione di queste sezioni degli Atti Parlamentari.

Ci siamo impegnati a completare entro breve un primo studio preparatorio relativo all'intero progetto. Esaurita questa prima fase, l'iniziativa passerà dalle nostre mani a quelle dei responsabili di decisioni amministrative importanti, per poi ritornare al gruppo di lavoro tecnico. Sarà nostra massima cura tenere informato il mondo dei bibliotecari italiani di quello che sappiamo essere - almeno per alcuni aspetti - un progetto pilota, e che potrebbe aprire una strada anche ad altri.

Infine vorrei approfittare della prestigiosa tribuna offertami, per fare due proposte agli organismi dirigenti AIB.

Mi piacerebbe che l'Associazione si facesse promotrice di un'iniziativa di carattere nazionale sulla Text Encoding Initiative. Si dovrebbe trovare un terreno di collaborazione, anche in Italia, fra bibliotecari e studiosi e conoscitori della TEI (Un. di Bologna, Pisa, Roma). Sarebbe utile far si che le esperienze già realizzate grazie alla TEI fossero conosciute, magari anche dalla viva voce di alcuni dei loro prestigiosi artefici, che sulla base di quel poderoso studio interdisciplinare hanno realizzato le Digital Libraries della Virginia University, della Biblioteca di Berkeley, del Making of America. A noi, impegnati in un progetto concreto, un'iniziativa AIB in questo senso servirebbe moltissimo. Saremmo felici di partecipare alla sua eventuale organizzazione.

La diffusione della conoscenza dei TEI header, inoltre, porterebbe un contributo non indifferente alla conoscenza delle complesse problematiche dei metadati delle risorse elettroniche, che sempre più spesso si propongono - anche con urgenza - nella nostra prassi quotidiana. E passo alla seconda mia proposta, che è, infatti di carattere catalografico (è fra l'altro il settore di cui sono responsabile presso la Biblioteca della Camera) e riguarda il linguaggio XML.

E' in atto - da alcuni mesi - una forte convergenza verso XML, anche nell'ambito della ricerca sui metadati.

Una recentissima realizzazione XML da cui si possono trarre interessanti spunti in campo catalografico è la DTD del progetto MOA II (continuazione ed estensione del progetto cooperativo Making of America: <http://sunsite.berkeley.edu/moa2> . Qui si trova un esempio concreto di strutturazione in XML di metadati, descrittivi, strutturali ed amministrativi. Si tratta, quindi, di un documento interessante per chi affronta le spinose questioni della catalogazione di risorse elettroniche. Nella DTD del MOA II si propone un modo flessibile di trattare i metadati di una risorsa elettronica, semplice o multipla (composta cioè di uno o piu file), delle sue differenti e successive versioni elettroniche, degli eventuali diversi formati elettronici in cui uno stesso documento può essere reso (es: lo stesso libro convertito in un insieme di file GIF e in SGML).

Dal febbraio '99 è disponibile, fra l'altro, la Raccomandazione ufficiale RDF <http://www.w3.org/TR/REC-rdg-syntax/#propName> sulla definizione dei metadati di risorse elettroniche in XML.

Qui non si può entrare nel merito delle questioni del trattamento dei metadati delle risorse elettroniche, che pure dovranno essere affrontate nel corso del nostro progetto.

Questioni difficili e a volte molto sottili, che ad esempio in ambito MARC non trovano facilmente una soluzione soddisfacente.

Volevo solo accennare al fatto che, dopo i TEI header, si affaccia ora anche un' esperienza in questo campo di XML . Inoltre, tutta l'esperienza TEI sta - attualmente - guardando con grande interesse alla realtà XML (vedi Discussion Group Humanist <http://www.princeton.edu/~mccarty/humanist/>

Ma cominciano a presentarsi anche esperienze di cataloghi in XML.

Una verrà illustrata fra pochi giorni all'International Humanities Computing Conference di Charlottesville in Virginia <http://www.iath.virginia.edu/ach-allc.99>, appuntamento centrale per gli studiosi del testo elettronico (A proposito, parlerà un solo italiano, ma non è un bibliotecario). L'esperienza è quella presentata da Perry Roland della Alderman Library che ha elaborato una DTD XML per i record di un catalogo tematico (musicale).

Questo per introdurre la mia seconda proposta, che non riguarda la catalogazione di risorse elettroniche, quanto il formato elettronico di tutti i dati catalografici.

Dopo la bellissima esperienza della Library of Congress (MARC-DTD) per la conversione del formato USMARC in SGML, completata nel gennaio 1998 e che sta raccogliendo un successo e un interesse crescenti, perché non partecipare attivamente, nelle sedi internazionali, alle ricerche sulla conversione del formato UNIMARC ?

Già l'anno scorso, a Genova, Susanna Peruginelli aveva fatto riferimento ad una DTD ("in elaborazione") per UNIMARC. In quest'ultimo anno lo standard XML si è imposto all'attenzione generale per le caratteristiche di flessibilità e "portabilità".

Non so come e se sta procedendo il lavoro cui accennava S. Peruginelli e se preveda questo. Io credo che una DTD che traduca in linguaggio XML la semantica UNIMARC sarebbe in sintonia con i più recenti sviluppi tecnologici e con le più promettenti ricerche, e forse potrebbe anche l'Italia partecipare a un progetto IFLA che, ne sono certo, sarebbe di grande interesse scientifico, e - in prospettiva - potrebbe trovare un ampio campo applicativo. Anche qui, saremmo molto interessati a partecipare ad iniziative che vadano in questa direzione.

E' infatti vero che le Biblioteche non abbandoneranno facilmente i formati MARC, e di questo non credo - fra l'altro - ci sia da rammaricarsi. Ma è altrettanto vero che XML - anche per il forte interesse dei colossi dell'informatica - diventerà rapidamente il formato standard dei dati per un numero crescente di sistemi informativi. E' dunque interesse del mondo bibliotecario far sperimentare quanto prima ai nostri dati catalografici nuove condizioni di sopravvivenza nel nuovo ambiente.


Copyright AIB 1999-05-30 a cura di Susanna Giaccai

Homepage AIB-WEB | Homepage Congresso 1999 |