Bibliotime, XX, 1-2-3 - Oriana Bozzarelli, Viviana Mandrile e Elena Marangoni, Quale futuro per i dati di biblioteche e musei? Linked Open Data e Open Data protagonisti al Pubblico dominio #open festival di Torino

Il seminario ha affrontato un tema caldo e discusso, soprattutto nelle comunità professionali di riferimento. Cosa si intende in estrema sintesi per open data e linked open data (LOD)?

I dati e l'informazione che viene generata dallo loro interconnessione rappresentano il vero petrolio del nostro tempo. Gli open data sono dati pubblicati in rete con una licenza aperta, e per questo possono essere liberamente utilizzati, condivisi, riutilizzati e ridistribuiti da chiunque: sono il vero veicolo dell'innovazione e portatori di grande valore economico ed etico.

Molti open data vengono prodotti dal settore pubblico, ma spesso sono resi disponibili in formati che non li rendono facili da manipolare e non risultano "significativi" per il grande pubblico. I linked open data costituiscono una modalità di pubblicazione di dati aperti, strutturati per essere collegati fra loro e quindi utilizzabili dagli utenti attraverso interrogazioni semantiche. Con i LOD si può creare una rete ricchissima di informazioni, creando connessioni mai pensate prima.

Grazie ai dati aperti, ed in particolare ai Linked Open Data, anche i dati delle biblioteche, archivi e musei possono essere "liberati" dai cataloghi digitali e diventare valore sul web, entrare a far parte di una grande nuvola di dati connessi ad altri miliardi di dati, essere letti e interpretati dai motori di ricerca, usati, riusati, e re-distribuiti a tutta la comunità per creare nuova conoscenza (e benessere).

Il web semantico è già il nostro presente. Mediante licenze aperte, modelli e standard di riferimento, protocolli di scambio, ontologie ad uso delle macchine, i dati vengono automaticamente interconnessi e possono essere interrogati secondo nuove, più potenti possibilità. Creare nuovi e inaspettati significati a partire da elementi già noti è, del resto, il meccanismo che sottende l'eterno sviluppo della conoscenza umana.

Il livello globale si alimenta e si arricchisce attraverso quello particolare, le nuove modalità di comunicazione possono valorizzare le collezioni locali rendendole maggiormente visibili e ponendole in relazione con l'intero universo informativo. Il seminario del 1 dicembre, coordinato da Viviana Mandrile (Università degli Studi di Torino), ha scelto in maniera deliberata di percorrere una strada poco teorica, cercando di mettere realmente le "mani in pasta" e offrire al pubblico una panoramica significativa delle più recenti esperienze concrete italiane in tema di LOD e open data.

Il primo intervento è stato quello di Maria Cristina Mataloni, dal titolo SBN verso i LOD: sperimentazioni ed esperienze, che ha illustrato le attività, gli interventi innovativi e gli orientamenti dell'Istituto Centrale per il Catalogo Unico (ICCU).

Le attività gestite dall'Istituto Centrale per il Catalogo Unico sono numerose e complesse. Solo per citarne alcune: si occupa del coordinamento tecnico del Servizio Bibliotecario Nazionale [1]; elabora e diffonde normative, in linea con gli standard internazionali, in materia di catalogazione delle diverse tipologie di materiali per il Servizio Bibliotecario Nazionale (SBN); coordina importanti censimenti nazionali (EDIT16, Censimento dei manoscritti Manus, Anagrafe delle biblioteche italiane, etc); cura i portali di Internet Culturale, CulturaItalia, 14-18 Documenti e immagini della Grande Guerra; redige linee guida e buone pratiche per la digitalizzazione e metadatazione.

L'analisi della base dati dell'Indice SBN, frutto anche di importazioni successive di record bibliografici provenienti da basi dati diverse (basti pensare al recente ingresso del catalogo dell'Istituto Centrale per i beni sonori ed audiovisivi - ex Discoteca di Stato - che ha arricchito notevolmente l'Indice SBN di notizie bibliografiche relative alle registrazioni musicali), rivela una realtà stratificata, molto eterogenea e dalla elevata complessità. L'incremento dei dati bibliografici frutto della catalogazione partecipata si aggira intorno ai 10.000 record a settimana e l'OPAC SBN consente l'accesso ad oltre 16.000.000 di notizie bibliografiche [2].

Sono numerose le azioni che ICCU [3] ha intrapreso per migliorare e garantire la qualità dei dati bibliografici dell'Indice SBN. E' in corso una "bonifica" dell'authority file relativo agli autori [4], che prevede operazioni di disambiguazione, fusione di eventuali duplicazioni, spostamento dei titoli non coerenti da un autore all'altro, inserimento nel record di authority di link a fonti esterne quali ad esempio il Virtual International Authority File (VIAF) e Wikipedia.

Si sta normalizzando anche l'archivio di autorità dei luoghi (legati a documenti antichi), per i quali è prevista un'evolutiva in grado di permettere la registrazione delle informazioni relative alla georeferenziazione, al collegamento a Wikipedia e agli identificatori standard (ISNI o codici ISTAT dei comuni). Inoltre l'ICCU sta lavorando alla FRBR-izzazione del catalogo.

Grande attenzione viene riservata all'applicazione di tutti gli standard, protocolli e buone pratiche in grado di rendere i dati aperti, collegati e usabili. I dati bibliografici del Servizio Bibliotecario Nazionale sono pubblicati con licenze aperte. Per i dati presenti sull'OPAC viene utilizzata la licenza creative commons CCby 3.0 [5], i Linked Open Data (LOD) invece vengono pubblicati con la licenza CC0 ovvero con dichiarazione di donazione al pubblico dominio; la scelta di questa licenza "non richiede attribuzione e non pone limiti a successivi riutilizzi, di conseguenza con la sua adozione si dichiara esplicitamente di rinunciare a tutti i diritti e ai crediti relativi alla titolarità o menzione d'autore su tutti i dati bibliografici del catalogo creati dall'istituzione" [6].

I metadati bibliografici sono liberamente utilizzabili da chiunque. Al momento il privato cittadino, se lo desidera, può scaricare un record bibliografico alla volta dall'interfaccia dell'OPAC, gli utenti istituzionali possono scaricare i dati attraverso l'utilizzo di specifiche API.

I dati dell'anagrafe delle biblioteche italiane (ABI), già disponibili in open data, sono adesso pubblicati oltre ai formati CSV e XML, anche in formato JSON e vengono aggiornati costantemente. Le applicazioni Tom Tom Places e TomTom Routes utilizzano e riusano questi dati aperti nelle loro mappe di viaggio (presenti anche in versione mobile per gli utenti di Android e Apple), includendo così le biblioteche tra le destinazioni di interesse.

Le attività di sperimentazione sui Linked Open Data realizzate dall'ICCU possono essere suddivise in due grandi macro-progetti, collocati temporalmente in due fasi successive: la nascita nel 2014 del primo gruppo di lavoro sui LOD con la partecipazione del Polo Universitario della città di Prato e i servizi didattici e scientifici dell'Università di Firenze e la collaborazione avviata nel 2015 con il Polo digitale degli istituti culturali di Napoli.

La nascita del primo gruppo di lavoro LOD SBN trova la sua origine nel mandato che il Comitato Tecnico Scientifico della rete SBN diede nel 2014 all'ICCU per avviare una sperimentazione in grado di valutare la possibilità di trasformare, pubblicare e rendere accessibili i dati dell'OPAC SBN in Linked Open Data.

Le prime attività del gruppo di lavoro LOD SBN hanno riguardato l'elaborazione di uno schema logico ed operativo dedicato ai LOD, la scelta del modello concettuale e delle ontologie di riferimento. CIDOC [7], essenzialmente utilizzato dal settore dei musei, è stato individuato come modello concettuale ideale perché maggiormente rispondente alle esigenze di integrazione e scambio tra basi dati eterogenee, non solo bibliografiche ma anche archivistiche e museali.

Per quanto riguarda le ontologie è stata usata Functional Requirements for Bibliographic Records Object-Oriented (FRBRoo), poichè presenta una complessa rete di classi e proprietà in grado di descrivere entità e relazioni che ben si prestano al materiale bibliografico.

Il gruppo di lavoro ha poi effettuato la mappatura di un set di 300 record estratto dall'OPAC SBN (non sono stati presi in considerazione tutti i dati presenti in OPAC ma solo i dati comuni a tutte le notizie, tralasciando i dati dotati di specificità ovvero grafica, cartografia, musica e audiovisivi) in formato UNIMARC con l'ontologia FRBRoo [8].

A partire da questa mappatura, basata sul modello CIDOC, i dati sono stati convertiti in RDF e caricati in un triple store per il salvataggio e il recupero delle triple. Per la pubblicazione di questi dati è stato sviluppato un prototipo di interfaccia utente, sulla base della piattaforma open source Aduna Sesame, che permette l'interrogazione dei dati semantici sia attraverso un endpoint SPARQL sia con modalità di browsing facilitato per utenti non esperti. Dal lavoro svolto è emersa in maniera chiara l'esigenza prioritaria di procedere ad una normalizzazione dei dati presenti in SBN: la qualità e la pulizia del "dato", la sua coerenza e correttezza rappresentano un aspetto cruciale e irrinunciabile per la produzione di LOD di qualità.

Nel 2015 è partita la seconda sperimentazione ICCU sui LOD, frutto della collaborazione con il Polo digitale degli istituti culturali di Napoli e sancita da un'apposita convenzione [9]. Questa sperimentazione è rivolta allo sviluppo di LOD derivati da dati provenienti da diverse tipologie di "oggetti culturali" (dati bibliografici [10], archivistici, dati relativi ad oggetti del patrimonio artistico, etc.) ed al rilascio di una piattaforma open source in grado "di gestire l'intero ciclo di produzione e gestione del digitale finalizzato all'erogazione di servizi destinati alla comunità dei propri utenti" [11].

Il progetto, le cui matrici risalgono al 2013 e trovano la loro origine nell'aver messo a fattor comune - da parte di alcuni istituti culturali di Napoli [12] - risorse economiche derivanti da fondi europei destinati alla digitalizzazione, si propone di mettere a punto un complesso sistema integrato di gestione del patrimonio culturale (non solo bibliografico ma anche museale e archivistico) che ripercorre tutta la filiera digitale della produzione di "contenuti culturali", partendo dalla digitalizzazione del documento e dalla sua descrizione per arrivare alla creazione di OPAC e pubblicazione di LOD.

L'architettura generale del sistema (METAFAD) prevede diversi moduli che interagiscono tra di loro, articolati nelle seguenti aree funzionali: la descrizione e catalogazione del patrimonio (per il patrimonio artistico museale e grafico secondo le normative indicate dall'ICCD [13], per il patrimonio archivistico secondo lo standard ISAD, per il patrimonio bibliografico manoscritto secondo lo standard TEI di Manus, per il patrimonio bibliografico secondo lo standard SBN Marc), la teca per la gestione degli oggetti digitali e dei metadati gestionali e strutturali (un sistema di digital library), la configurazione degli OPAC di dominio per i diversi tipi di materiale e amministrazione dei dataset RDF generati, la gestione delle richieste di servizi sul patrimonio digitalizzato.

La collaborazione tecnico-scientifica dell'ICCU è concentrata sia sul fronte della mappatura UNIMARC � FRBRoo, adesso raffinata, ultimata ed estesa anche ai materiali speciali (grafica, cartografia, musica e audiovisivi) e ai dati specifici di polo (collocazioni, inventari, etc.), sia nello sviluppo della componente semantica del software per permettere di creare dataset RDF da fonti SBN, in particolare per la parte dei moduli in diretta dipendenza dal sw SBN-web.

Riveste particolare interesse il modulo di integrazione con l'ambiente SBN, basato su SBNweb e sugli standard SBNMARC e UNIMARC, che consente di importare record bibliografici dalla base dati di Polo (in questo caso il Polo SBN della Biblioteca Nazionale di Napoli) e generare anche dataset bibliografici in LOD. Il processo di integrazione su cui è costruita l'intera piattaforma consente un flusso di lavoro fluido e un popolamento semi-automatico dei metadati: ad esempio un determinato oggetto digitale può essere agganciato facilmente - tramite le procedure del digital assets management - alla descrizione bibliografica o archivista pertinente, già presente nel polo.

Il progetto del Polo digitale di Napoli si rivela di grande interesse sia per l'ICCU che per altri Poli SBN: la piattaforma usata (e in particolare il modulo dedicato alla cooperazione) si integra, infatti, con l'applicativo SBNweb, gestito direttamente dall'ICCU, e può essere utilizzata per generare LOD sia a livello centrale per l'intero catalogo SBN, sia a livello di singoli poli.

In conclusione la linea operativa dell'ICCU è aperta all'innovazione tecnologica e si sta muovendo nella direzione di una evoluzione dell'architettura SBN sia sul fronte dei dati che sul fronte dei servizi. Le principali azioni che intende perseguire sono: continuare ed ampliare la sperimentazione sui dati SBN e la loro pubblicazione in LOD [14]; favorire l'apertura di SBN all'interoperabilità con basi dati diverse, mettendo a confronto i dati bibliografici con i dati provenienti da musei e archivi; operare in direzione dell'accesso libero dei dati e del loro libero riuso attraverso l'export in formati aperti (non solo UNIMARC e XML ma anche JSON); attuare l'integrazione della componente bibliografica con quella digitale e la gestione del digitale nativo; aprire SBN all'interoperabilità tra basi dati diverse.

Il secondo intervento, dal titolo Biblioteche accademiche: linked open data e integrazione nel Web, ha riguardato principalmente il progetto denominato Share Catalogue, presentato da Loredana Cerrone dell'Università del Sannio e Patrizia De Martino dell'Università di Salerno.

Share Catalogue è parte di un progetto più articolato di cooperazione territoriale e di condivisione di servizi bibliotecari tra diversi atenei denominato SHARE (Scholarly Heritage and Access to Research), basato su una convenzione stipulata nell'ambito della programmazione triennale 2013-2015 a cui hanno aderito l'Università degli Studi di Napoli Federico II, capofila dell'iniziativa, l'Università degli Studi di Napoli "L'Orientale", l'Università degli Studi di Napoli "Parthenope", l'Università degli Studi del Sannio di Benevento, l'Università degli Studi di Salerno e l'Università degli Studi della Basilicata. La convenzione resta però aperta ad ulteriori partecipazioni ed è imminente l'adesione della Seconda Università degli Studi di Napoli, dell'Università del Salento e dell'Università Suor Orsola Benincasa.

Gli Atenei coinvolti nel progetto hanno sottoscritto una carta dei servizi [15] che ha sancito il riconoscimento reciproco degli utenti istituzionali di ciascun ateneo come utenti interni per quanto riguarda servizi di base quali consultazione, prestito locale, prestito interbibliotecario e fornitura di documenti.

Il progetto, presentato ufficialmente il 22 marzo 2016 a Napoli alla presenza dei Rettori di tutti gli atenei, si articola nella realizzazione di diversi servizi comuni. Cuore del progetto è il catalogo collettivo SHARE Catalogue [16], che non solo unifica l�accesso ai cataloghi (OPAC) dei sistemi bibliotecari aderenti alla convenzione ma - scelta fortemente innovativa nel panorama bibliotecario italiano - pubblica tutti i record catalografici in linked open data.

Centrale è poi il sistema di information discovery, Share Discovery (basato su Primo di Ex Libris) che permette l'accesso integrato all'informazione bibliografica e documentale attraverso un'unica interfaccia di ricerca al patrimonio a stampa e online degli atenei consorziati (ma di cui sono state create anche interfacce personalizzate di ricerca nei dati di ciascun ateneo).

È inoltre presente il portale SHARE Press [17] per l'editoria digitale ad accesso aperto, composto da tre piattaforme dedicate rispettivamente alle riviste (SHARE Journals), ai libri elettronici (SHARE Books) e ai prodotti, ai dati della ricerca e documentazione storica (SHARE Open Archive). Il gruppo di lavoro, coordinato dal prof. Roberto Delle Donne, è composto da due referenti per ogni ateneo, solitamente un docente e un bibliotecario. La realizzazione tecnica di SHARE Catalogue è stata affidata alla società @CULT, specializzata nella gestione dei LOD, col contributo di docenti, bibliotecari ed informatici.

Si auspica di espandere ancora il progetto a nuove collaborazioni e riutilizzare il dataset in altri progetti, sfruttando in maniera ottimale i suoi punti di forza e innovazione: l'interoperabilità, la condivisione, il riuso delle informazioni di alta qualità e la riduzione delle duplicazioni.

La paternità dei linked data è attribuita a Tim Berners Lee, che descrive il web ideale come connubio tra l'improvvisazione dell'essere umano e le macchine: i linked data nascono proprio per questo, sono un insieme di tecnologie e buone pratiche per la pubblicazione e il collegamento di dati sul web e rappresentano uno strumento per la realizzazione del web semantico.

I dati così strutturati diventano leggibili e interpretabili dalle macchine: sono collegati con altri set di dati e costruiscono un reticolo, consentendo il passaggio dal web a cui eravamo abituati, il web dei documenti, adatto ad essere "interrogato" da persone, al web dei dati, descritti formalmente, relati tra loro sulla base del contenuto concettuale e processabili automaticamente da parte dei motori di ricerca.

I linked open data consentono di effettuare nuove connessioni tra dati e consentono ricerche che vanno oltre i linguaggi di interrogazione utilizzati nei cataloghi (information retrieval, precisa ma limitata ad un ambito circoscritto), e oltre le tecniche di estrazione dell'informazione basate su algoritmi come quelli utilizzati dai motori di ricerca (che recuperano risultati pieni di rumore e non sempre pertinenti).

Sotto il profilo tecnico, una rassegna dei modelli usati nel progetto vede in primo luogo l'utilizzo di RDF (Resource Description Framework), il modello per la codifica, lo scambio e il riutilizzo di metadati in ambiente web. RDF prevede la codifica dei dati in asserzioni, ovvero le triple soggetto(risorsa)-predicato (proprietà)-oggetto (valore): una struttura apparentemente semplice che è alla base di una tecnologia complessa.

Dal momento che ogni elemento della tripla per essere letto dalla macchina deve essere rappresentato da un URI (Uniform Resource Identifier) [18] - in parole più semplici, da una stringa di caratteri utilizzata per identificare un nome o una risorsa su internet - il progetto ha previsto anche la complessa e delicata fase della loro creazione.

Gli URI, identificatori permanenti di ciascuna risorsa, hanno rappresentato la chiave per allineare risorse eterogenee provenienti da fonti differenti ovvero il patrimonio eterogeneo coinvolto nel progetto, composto da risorse bibliografiche e documentarie molto diverse fra loro e distribuite su un vasto territorio.

La fase di analisi dei dati è partita da un campione di record in formato MARC per ciascun ateneo: il record MARC, trasformato in RDF, è stato decostruito in un insieme di dati in cui ogni singolo elemento ha acquistato significato componendosi con altri dati e generando asserzioni riusabili; ogni elemento è stato analizzato per comprendere come doveva essere riutilizzato nel nuovo formato.

Il modello FRBR (Functional Requirements for Bibliographic Record) basato su entità-relazione è stato utilizzato, sempre nella fase iniziale, per un'analisi generale dei cataloghi e per la costruzione del portale di consultazione. In una prima fase, a partire dai record esistenti, si dovevano identificare le entità FRBR opera ed espressione a cui poter collegare le diverse manifestazioni e identificare anche le relazioni (opere di uno stesso autore, espressioni della stessa opera, manifestazioni della stessa espressione). Gli attributi delle espressioni sono confluiti per la maggior parte nell'opera o nella manifestazione seguendo il modello dati BIBFRAME (Bibliographic framework initiative) [19], che distingue l'opera come contenuto concettuale della risorsa e l'istanza come manifestazione fisica della risorsa.

BIBFRAME rappresenta un nuovo modello di struttura bibliografica del tipo entità-relazione e costituisce un'evoluzione, in linked open data, del formato MARC "oggi inadeguato a svolgere le funzioni richieste dai moderni cataloghi, in quanto i suoi dati non sono restituiti dai motori di ricerca" [20]. BIBFRAME nella sua prima versione, quella utilizzata in SHARE Catalogue, suddivide i dati in quattro classi principali: opera, istanza, autorità e annotazione. Inoltre propone un vocabolario, che di fatto è un'ontologia, pubblicato secondo il modello RDF e utilizzato nel progetto per la definizione del predicato.

L'adozione di questa tecnologia ha consentito un'apertura dei dati bibliografici che risultavano essere chiusi all'interno di 'silos' (cataloghi, repository, etc), li ha resi accessibili, integrati, condivisibili, modulari, riutilizzabili e integrati nel web dei dati.

Gli effetti principali di questa apertura dei dati per l'utente finale sono due: i dati bibliografici aperti, che descrivono un patrimonio culturale vastissimo e distribuito su un territorio geografico molto ampio, permettono adesso all'utente di interrogare sia partendo dal web attraverso un motore di ricerca, sia dall'opac di un servizio bibliotecario, raggiungendo in entrambi i casi la registrazione bibliografica.

Il secondo effetto è la possibilità per l'utente di effettuare un'interrogazione a partire da un nome o da un riferimento in qualsiasi forma gli sia noto; ad esempio un utente di lingua russa potrà fare la ricerca in cirillico e trovare il riferimento cercato, senza che nessuna biblioteca abbia mai creato record in quella lingua e questo rappresenta un utile miglioramento delle possibilità di reperimento dell'informazione.

SHARE Catalogue si colloca pienamente in una nuova tappa evolutiva che il catalogo e i dati bibliografici stanno vivendo. Il rapporto tra il catalogo e l'universo globale dell'informazione sta cambiando notevolmente e le biblioteche, in questa fase, conservano e rafforzano la loro funzione di generatori di qualità per la rete, producendo e utilizzando record bibliografici fortemente strutturati e regole condivise.

Le biblioteche che hanno preso parte a SHARE Catalogue disponevano di opac tradizionali e pertanto si è voluto, oltre che creare un catalogo collettivo tra le istituzioni consorziate, anche puntare a qualcosa di più, al valore aggiunto costituito dalle tecnologie del web semantico, rendendo le collezioni disponibili, accessibili, arricchite e trasformando i dati bibliografici condivisi in dati del web.

La società @CULT ha condotto un'analisi molto approfondita e scrupolosa sui dati catalografici (record bibliografici e record di autorità) dei sistemi bibliotecari, per definirne lo stato originale e le possibilità di riutilizzo. L'analisi è stata condotta sull'intero catalogo di ciascuna istituzione per valutare l'uso che veniva fatto all'interno del record di tutti i dati, rilevando le differenze tra un catalogo e l'altro. I dati catalografici confluiti inizialmente in SHARE Catalogue derivano da tre sistemi di gestione diversi: Aleph, Sebina e Millennium.

In seguito la situazione è mutata perché l'Università Federico II di Napoli è migrata ad Alma, seguita dall'Università di Salerno. I dati bibliografici sono quindi eterogenei, parte in formato UNIMARC e parte in MARC21. Il progetto è stato realizzato ricorrendo a software open source e in parte anche a software realizzati appositamente che rimarranno in uso perpetuo alle Università partecipanti. Tra le attività future è prevista anche la formazione del personale, per rendere gli atenei autonomi nella gestione degli aggiornamenti e degli arricchimenti del dataset.

Il portale di consultazione dei dati provenienti dai diversi cataloghi, ospitato su server dell'Università Federico II di Napoli, costituisce per gli utenti un unico punto di accesso al patrimonio delle risorse integrate e presenta una struttura a tre livelli: persone-opere, pubblicazioni e un terzo livello di rimando agli opac locali.

Il livello di navigazione persone-opere consente di ricevere informazioni sulla persona, le sue opere, i suoi ambiti di studio e ricerca. È in questo livello che il risultato della ricerca viene arricchito tramite dati da fonti esterne ed è in questo livello che è fondamentale il ruolo dell'authority. Per la creazione del livello persone-opere è stato fatto ricorso in primo luogo agli authority locali - quelli dell'Università Federico II e dell'Università della Basilicata - e poi al VIAF.

Il ruolo dell'authority è centrale poiché esprime un'esigenza che è comune a RDA e ai principi dei Linked Open Data, ovvero quella di identificare e descrivere le entità con un alto numero di attributi, per creare un oggetto identificabile, arricchito e riusabile. Nella pagine dei risultati di una ricerca per persona sono presenti tutte le informazioni disponibili: la biografia dell'autore, tratta da Wikipedia, la presenza dell'autore in fonti esterne (Wikidata, VIAF), le fonti in cui l'autore è citato. Nella parte destra dello schermo compaiono le varianti del nome con cui l'autore è stato catalogato, contrassegnate da un'icona che indica la provenienza di quella forma del nome. In basso, l'elenco delle opere in ordine alfabetico.

Queste informazioni possono essere esportate in diversi formati e riutilizzate. Il livello delle istanze o pubblicazioni è collegato al primo attraverso i titoli delle opere. I dati bibliografici sono stati indicizzati in modo da proporre la possibilità di eseguire ricerche specifiche tramite faccette come data di pubblicazione, lingua, editore, etc.

Il terzo livello è quello in cui il portale si integra coi sistemi locali: il record di SHARE Catalogue reca il link 'Controlla la disponibilità qui' tramite cui si accede all'opac locale e si ottengono i dati relativi alla copia. E' stata scelta questa modalità anche per non rinunciare alla specificità e all'identità dei singoli cataloghi.

La fase più complessa del progetto è stata la creazione di un cluster dei nomi, ossia un indice cumulativo che funge da punto di accesso autorizzato dei nomi e un cluster dei titoli, ossia un punto di accesso autorizzato che raggruppa le forme varianti dei titoli delle opere presenti nei cataloghi.

Per la costruzione del cluster dei nomi sono state associate le voci preferite e le varianti presenti negli authority locali. Quelle voci sono state poi associate con quelle provenienti dai diversi opac per ottenere un insieme di voci, un grappolo o cluster, che è stato contrassegnato da un identificativo univoco dell'entità di tipo persona. Poi è stata fatta una ricerca sul VIAF per associare ciascun cluster di tipo persona all'identificativo univoco del VIAF. In seguito, per ciascun identificativo VIAF, sono state estratte tutte le forme del nome, a prescindere dalla struttura della stringa e degli alfabeti estendendo così notevolmente le possibilità di ricerca.

È stata così costituita una registrazione a grappolo, con un insieme di punti di accesso costituito da diverse forme del nome che provengono da varie fonti (authority, VIAF, opac). Nel caso in cui la comparazione col VIAF non abbia restituito risultati, è stata preferita la forma presente nell'authority locale, oppure quella più utilizzata nell'insieme dei cataloghi.

Successivamente, a partire da ciascun identificativo VIAF associato al cluster comprendente le voci del catalogo, si è proceduto alla derivazione di tutte le opere che nel VIAF sono associate a quell'identificativo, limitatamente però alle opere presenti come pubblicazioni nel catalogo di almeno una delle biblioteche partecipanti, per fare in modo che i risultati delle ricerche portino effettivamente ad opere presenti nelle collezioni delle biblioteche. Questa operazione consente il collegamento tra il primo e il secondo livello del portale di consultazione.

La costruzione del cluster titoli è stata un'operazione molto complessa, perché mancavano record di autorità per i titoli e non erano presenti i titoli uniformi nei record, o erano presenti in maniera poco significativa. Il cluster raggruppa sotto un unico titolo di un'opera tantissimi titoli di pubblicazioni presenti in catalogo che l'utente può così trovare con una sola ricerca. Risulta, quindi, evidente la grande utilità della costruzione di questi cluster che hanno consentito di riunire sotto un unico identificativo le forme varianti dei nomi degli autori e i titoli diversi associati alle pubblicazioni presenti negli opac, col risultato di una ricerca arricchita e allo stesso tempo semplificata rispetto alla quella dei singoli cataloghi.

"L'obiettivo che abbiamo raggiunto - concludono le colleghe di SHARE Catalogue - non è solo l'interazione, l'interscambio, il riutilizzo di informazioni tra sistemi informativi non omogenei e le ricadute positive che abbiamo visto per le ricerche degli utenti finali. Il progetto ha consentito anche ai bibliotecari di staccarsi dalla prospettiva della propria comunità di riferimento, per interagire e cooperare con altre, portando le proprie esperienze e metodi di lavoro, nell'ottica di migliorare l'offerta informativa per l'utenza e i servizi condivisi". Parole chiave del progetto sono la cooperazione, l'apertura, i linked data, come veicolo che sorregge la volontà di promuovere l'apertura dei saperi e della scienza.

L'intervento successivo è stato quello di Luca Martinelli, di Wikimedia Italia, su I progetti Wikimedia e i LOD: Wikipedia, Wikidata e le loro applicazioni. Martinelli ha presentato in primo luogo i cinque pilastri su cui si basa di Wikipedia:

L'adozione di un punto di vista neutrale significa che Wikipedia non dà giudizi e, qualora li dia, vengono attribuiti all'esperto che li ha espressi, citando tale fonte. Questo è evidente nelle voci complesse, ad esempio quella relativa a Pio XII: poiché la sua figura non è chiara e netta, tutto il dibattito storiografico su tale personaggio viene attribuito ai vari storici che vi hanno contribuito, cercando comunque di presentare le varie posizioni critiche o favorevoli con un certo equilibrio. La stessa linea di condotta viene adottata per altri temi complessi quali la bioetica, le voci relative a uomini politici, o anche alle squadre di calcio, poiché un punto di vista neutrale significa neutrale su tutto.

Liberamente modificabile significa che ciascuno di noi può cliccare sul pulsante "modifica" presente in ogni pagina e correggere gli errori eventualmente individuati, anche senza registrazione. Solo una piccolissima percentuale delle voci non è modificabile e spesso basta registrarsi ed eseguire il login per modificarle: tale cautela si rende talvolta necessaria perché, sebbene poche, vi sono persone che "vandalizzano", cioè modificano in senso distruttivo l'enciclopedia.

Questa caratteristica significa però anche che Wikipedia non ha regole fisse: la definizione di cosa sia rilevante e cosa no, o i modi in cui trattare un determinato argomento possono variare nel tempo. Vi può essere un'idea su un argomento, che poi si rivela sbagliata, o un criterio di inclusione che ci si rende conto essere sbagliato, e allora gli amministratori possono intervenire, magari perché un esperto del campo fa notare che il criterio era troppo, o troppo poco, restrittivo.

L'oggetto principale dell'intervento tuttavia è Wikidata: nato nel 2012, è un database secondario, libero, collaborativo e multilingua. Libero, come Wikipedia; collaborativo come Wikipedia e gli altri progetti correlati, alcuni dei quali sono stati presentati in altri appuntamenti del Pubblico dominio #openfestival ; multilingua perché Wikidata è un progetto che comprende e supporta tutte le 280 lingue ufficiali della Wikimedia Foundation. Ma soprattutto secondario: significa che ogni dato, ovvero ciascun elemento delle triple soggetto-predicato-complemento contenute in Wikidata, contiene anche la fonte da cui è tratto.

Non c'è un'ontologia poiché con Wikidata si è partiti da zero e addirittura uno dei fondatori, Denny Vrandečić , è un antiaristotelico e sostiene esplicitamente che l'idea della categorizzazione aristotelica è sbagliata perché la verità è troppo difficile per essere analizzata secondo categorie predefinite; e in effetti per i wikipediani, con 12 differenti progetti � l'enciclopedia, il dizionario, la raccolta di articoli, il deposito di file multimediali, la raccolta di testi liberi, la raccolta di manuali fatti dagli utenti e così via � stabilire un'ontologia in anticipo sarebbe stato sostanzialmente impossibile. L'hanno quindi creata dal basso e man mano che le proprietà, cioè i campi del database, diventavano necessari, sono stati creati e ancora oggi, dopo quattro anni, continuano a crearne di nuovi.

Le licenze utilizzate in Wikidata sono: la CC0 1.0 Universal Public Domain Dedication, per i dati; la CC-BY-SA 3.0 per le pagine di servizio e GNU General Public Licence, per il software. Sono tutte licenze libere, ovvero non sono licenze copyright: mentre il copyright significa divieto di copiare o anche solo usare un software senza autorizzazione, è invece possibile fare ciò che si vuole con i dati, le pagine di servizio e perfino con il software di Wikidata. Sono tutte licenze che permettono di riutilizzare il più liberamente possibile, fatte salve alcune semplici indicazioni, la prima delle quali è l'obbligo di citare la fonte.

La licenza CC0 non è precisamente una licenza ma una dichiarazione che ciascuno individualmente di fatto sottoscrive inserendo dati su Wikidata, con cui si rinuncia spontaneamente a tutti i diritti. Poiché un dato, un fatto, non è sottoponibile a diritto d'autore, eccetto che per l'Unione Europea, che riconosce il diritto di database: esiste una particolare normativa per cui il database in quanto tale può essere sottoposto a diritto d'autore, soprattutto se c'è un'innovazione nella presentazione dei dati. Wikidata da questo punto di vista è un'innovazione, ma i suoi amministratori hanno rinunciato a chiedere i diritti e, come decisione di tipo politico, hanno deciso di cedere il più possibile tutti i dati.

1) Centralizzare i collegamenti fra i diversi progetti di Wikimedia: il primo scopo per cui è nata Wikidata era esclusivamente funzionale ai progetti di Wikimedia, ovvero cercare di connettere gli 800 progetti, poiché in precedenza i collegamenti dovevano essere inseriti a mano.

2) Raccogliere i dati fondamentali delle voci quali, ad esempio, riguardo un libro: l'autore, il titolo nella lingua originale, la data di pubblicazione. Per una stella, la luminosità. Per un Paese la superficie, e così via. 3) Creare delle query, o estrazioni, automatiche. Per far questo lo strumento è l'endpoint Sparqle, sebbene si tratta di un linguaggio ancora complesso: un vero passo in avanti ci sarà quando l'interfaccia per la consultazione dei dati sarà molto più semplice della composizione di una query Sparqle.

Analizzando un singolo elemento di Wikidata si nota che ogni elemento è identificato da un codice identificativo univoco ed è dotato di una scheda analoga a una scheda di catalogo: vi sono le "etichette", fatte dagli utenti, ovvero il nome dell'elemento in ciascuna lingua, compresi i dialetti o lingue poco conosciute. Vi è una descrizione che ha anche la funzione di disambiguazione per distinguere ad esempio i caso di omonimia e le eventuali forme varianti, o alias (ad es. per Unione Europea: UE, EU, E.U.). E tutto è liberamente modificabile anche senza registrazione, tramite il pulsante 'edit'.

Uno studio condotto su Wikidata ha dimostrato che la possibilità di modificare attira pochissimi vandali: il 99,98% delle modifiche sono migliorative e lo 0,02% di modifiche vandaliche si concentra su temi di alta polarizzazione (come cantanti di successo o squadre di calcio). Oltre a modificare i dati ognuno può usare la pagina di discussione e vedere la cronologia degli interventi.

Per ogni voce di Wikipedia, sulla sinistra della pagina è presente la lista degli altri progetti e delle altre lingue: prima di Wikidata quei link erano fatti a mano, con un lungo lavoro e col rischio che chiunque potesse cancellarli, eliminando definitivamente i collegamenti di una voce, isolandola. Grazie a Wikidata invece tutte le 200 versioni in cui esiste una voce su Wikipedia e negli altri progetti sono collegate: Wikiquote, una raccolta di citazioni, Wikisource, una raccolta di testi, Wikiversity, una sorta di Università popolare fatta da Wikipedia o Wikivoyage, una raccolta di guide turistiche.

Quali dati possono essere raccolti? Le date espresse nei calendari occidentali, giuliano e gregoriano (non ancora quelli orientali come quelli persiano o arabo), le quantità con unità di misura, le stringhe monolingua e multilingua (i nomi ufficiali di enti o istituzioni, con la lingua per la quale quel dato si applica). Ogni tripla è costituita da un soggetto (ad es. Roma), un predicato (ovvero la proprietà, ad es. popolazione) e un complemento oggetto, cioè il valore, (ad es. 2,864,348). C'è poi un qualificatore, che definisce il momento a partire dal quale quel valore è corretto: ad es. la data di rilevazione di quel dato sulla popolazione.

L'ultima parte dell'intervento è dedicata alle statistiche e alle applicazioni pratiche di Wikidata. In 4 anni, dal lancio ufficiale il 29 ottobre 2012, Wikidata è il terzo progetto più attivo su oltre 800 progetti Wikimedia. Circa il 57 % degli elementi ha almeno tre dichiarazioni: significa che oltre la metà degli 24 milioni e mezzo di elementi creati finora ha almeno tre differenti triple (o dichiarazioni) e quindi che più della metà del "catalogo" di Wikidata è già più o meno descritto. Solo l'11% degli elementi ancora non hanno alcuna dichiarazione, ma alla partenza del progetto questa quota era del 100% e le statistiche mostrano un crollo lento ma costante lungo i 4 anni.

In tali cifre occorre considerare che lavorare su una mole così gigantesca di dati implica un grande investimento di tempo ed è un lavoro continuo. Grazie ad esso però si può arrivare a fare estrazioni ed elaborazioni complesse, quali la mappa dell'Italia ricostruita dal team di Wikidata e mostrata alla Conferenza annuale di Wikimedia di Hong Kong nel 2013, costruita sulla base del dato 'confina con', con cui è stato creato un reticolo e che ricostituisce la carta dell'Italia.

Esiste un bias piuttosto pesante su Wikipedia, poiché l'Occidente è molto più rappresentato rispetto all'Africa, o all'America latina e tuttavia nel 2015, in occasione della conferenza annuale che si è svolta a Città del Messico, un "wikidatiano" ha avuto l'idea di proporre di dedicare un mese al Messico, come ringraziamento per l'ospitalità fornita e si è ottenuto un risultato evidente in termini di dati caricati.

Un altro progetto interessante è il Wikipedia Gender Indicator (WIGI) che misura la percentuale di biografie femminili nelle varie versioni di Wikipedia; sulla versione italiana siamo ancora fermi al 15% mentre la migliore è quella serba, intorno al 20%. Un'altra applicazione, sul genoma umano, è stata realizzata da due ragazzi che, per la tesi, hanno preso tutto il database dello Human Genome Project, hanno mappato tutti i geni e le proteine e hanno caricato tutti quelli mancanti su Wikidata e adesso stanno collegando le malattie genetiche ai geni su cui le malattie vanno a insistere. E tutto questo è fatto in pubblico dominio.

Il lavoro però non necessariamente è pesante e ci sono degli strumenti che lo agevolano. Magnus Manske, uno dei migliori programmatori di Wikimedia, ha creato due tool (Wikidata Game e The Distributed Game) che permettono di fornire semplici contributi: ad esempio stabilire se un elemento riguarda un essere umano o no e, se è su un essere umano, indicare se è maschio o femmina, o altro, perché sulla questione del gender la comunità dei wikipediani è molto attenta anche perché c'è una forte componente omosessuale e transgender, così come è molto attenta al gender gap. Vi sono ottime amministratrici su Wikipedia in italiano, ma sono poche: su un centinaio di amministratori, sono pochissime quelle che si palesano come tali, anche perché è addirittura capitato che le amministratrici fossero oggetto di interventi offensivi proprio in quanto donne.

Un altro tool è Mix'n'match, che serve per connettere le schede di cataloghi già esistenti. Analizzando SBN, sui 64.502 record di autorità che sono a livello 97, cioè sono certificati come affidabili da parte di SBN, poco più di un terzo sono mappati con Wikidata, ovvero è stata stabilita una corrispondenza tra l'elemento "Dante Alighieri" su Wikidata e il "Dante Alighieri" su SBN.

Questo procedimento è ottimo dal punto di vista dell'interscambio dei dati, che è il motivo per cui si fanno i LOD e si creano i collegamenti fra cataloghi: uno fa il lavoro e gli altri poi si appoggiano a quel lavoro, ed eventualmente correggono i propri dati. Per descrivere quell'11% di Wikidata ancora non conosciuto c'è bisogno di iniziative di questo tipo.

Per il futuro vi è il progetto di integrare Wikidata con altri due progetti: Commons, che è un deposito di file multimediali (più di 33 milioni di file multimediali liberamente riutilizzabili) e il Wikizionario, un dizionario libero. E poi c'è un progetto, Wikicite, che è soprattutto rivolto ai bibliotecari, per creare un database bibliografico sfruttando Wikidata. Perché fare tutto questo lavoro? Per mettere a disposizione i dati per Wikidata e quindi per Wikipedia e quindi per una comunità che copre tutto il globo.

Proponendo alcune considerazioni sugli open data, questi permettono di ridurre l'inefficienza e di individuare i problemi. Ciò significa, anche per il pubblico, sapere dov'è quel determinato libro e avere la possibilità, per chi offre il servizio, di migliorarlo. Questo però non significa lavorare meno, significa lavorare di più, qualitativamente di più.

Perché, come emerso anche dagli altri interventi, individuare un doppione significa anche contattare un'altra biblioteca e confrontare i dati, per trovare e correggere eventuali errori. E questo significa un forte investimento sull'immediato, senza la sicurezza di ritorno sul lungo periodo. E allora perché farlo? Prima di tutto perché è giusto che i dati siano resi pienamente riutilizzabili, soprattutto se fatti dallo Stato, perché è in primo luogo lo Stato che si deve occupare della cultura.

Il secondo motivo è che là fuori è pieno di gente strana, che però ha una soluzione per il tuo problema. Si tratta di un'opportunità per i bibliotecari di contribuire a migliorare i dati sul catalogo, da cui tutti possono trarre vantaggio: si tratta comunque di fare il proprio lavoro, sebbene in maniera lievemente differente, e facendo anche capire al pubblico qual è il valore della professione bibliotecaria e di chi lavora sul catalogo.

E' un peccato vedere come talvolta non si riesca a trasmettere al pubblico in cosa consista questo lavoro, ma si tratta di un messaggio che dev'essere anche veicolato dai bibliotecari. riuscendo a cambiare lievemente il proprio lavoro, integrando nuovi metodi, nuovi modi di affrontare i problemi, puntando molto sulla collaborazione e decentralizzando il più possibile, anche perché questo aiuta più persone a capire qual è il valore del bibliotecario.

L'intervento del Coordinamento delle Biblioteche Speciali e Specialistiche di Torino e provincia (CoBiS) [21], proposto da Elena Borgi e Federico Morando, è stato dedicato a presentare un progetto pilota piemontese sui LOD, attualmente in fase di realizzazione. Il CoBiS è una rete di servizio priva di personalità giuridica, un coordinamento di biblioteche nato in maniera spontanea nel 2008 e composto da 65 biblioteche specialistiche, principalmente afferenti all'area metropolitana di Torino ma in continua espansione, anche su base regionale.

La genesi del progetto pilota sui LOD è piuttosto lunga e trova la sua matrice nella giornata di studio "Le biblioteche specialistiche un valore culturale tra realtà e futuro. Esperienze a confronto", organizzata dal CoBiS nel 2014, alla quale prese parte Federico Morando (per Nexa for Center Internet e Society, Politecnico di Torino) proprio con una relazione sulla tecnologia innovativa dei linked open data.

In quell'occasione Morando mise in luce le caratteristiche e le potenzialità dei LOD, potente strumento in grado di creare relazioni tra i dati e creare nuova conoscenza. Questo contributo innescò una riflessione interna che portò ad individuare nei LOD un'ipotesi progettuale valida e praticabile per l'insieme eterogeneo delle biblioteche del CoBiS.

Sotto questo aspetto il progetto LOD, avviato con il sostegno della Regione Piemonte, costituisce per tipologie di biblioteche in realtà molto diverse tra loro, non solo un'occasione di sperimentazione ma anche un forte elemento di aggregazione, essendo in grado di "contaminare" dati che provengono da biblioteche scientifiche e di ricerca con dati di biblioteche speciali, storiche e di conservazione.

Non da ultimo, il progetto può rappresentare un efficace strumento di marketing e di promozione per le biblioteche coinvolte, permettendo una maggiore accessibilità, conoscenza e valorizzazione dei loro contenuti culturali, aumentando la visibilità di queste biblioteche speciali e specialistiche in genere poco note al grande pubblico, stimolando la curiosità del pubblico e probabilmente anche determinando un aumento del numero di presenze degli utenti all'interno delle loro sedi.

Le biblioteche del CoBiS che hanno partecipato al progetto pilota LOD sono sette, e precisamente: la Biblioteca dell'Accademia delle Scienze di Torino (ente capofila), la Biblioteca dell'Associazione Archivio Storico Olivetti, la Biblioteca Nazionale del Club Alpino Italiano, la Biblioteca della Deputazione Subalpina di Storia Patria, la Biblioteca dell'Educatorio della Provvidenza, la Biblioteca dell'Istituto Nazionale di Ricerca Metrologica, la Biblioteca dell'INAF - Osservatorio Astrofisico di Torino.

Il progetto, sviluppato con la collaborazione scientifica e tecnica del Centro Nexa del Politecnico di Torino e di Synapta S.r.l., prevede la confluenza di dati eterogenei (metadati catalografici, contenuti multimediali, metadati archivistici) provenienti da differenti software gestionali (Clavis, ErasmoNet, SBNWeb, Sebina, BiblioWin, XDams) in un unico punto d'incontro costituito dai LOD. Proprio questi elementi eterogenei di partenza sono garanzia di scalabilità del progetto e potranno consentire in breve termine di estendere la sperimentazione, in maniera piuttosto veloce, ad un insieme di biblioteche più ampio.

Sotto il profilo concettuale questo progetto riprende gli standard di riferimento attuali del settore, primi tra tutti BIBFRAME. Inoltre è stato adottato anche il modello RDF Mapping Language (RML) [22], realizzato dall'Università di Ghent, che attraverso il linguaggio delle triple RDF descrive la mappatura tra fonti e tipologie diverse di dati (DB, CSV, XML, JSON, etc.).

L'interlinking permetterà di collegare a fonti esterne (Wikidata, VIAF etc.) le informazioni presenti nei cataloghi. La connessione delle informazioni tra le collezioni delle biblioteche del CoBiS e il mondo esterno sarà realmente biunivoca e consentirà di rendere visibili e accessibili online le biblioteche del CoBiS e i loro contenuti.

Le due presentazioni che concludono la giornata seminariale hanno affrontato il tema degli open data e dei linked open data calandoli - in questo caso - nella realtà del patrimonio culturale materiale, appartenente ai musei e agli archivi fotografici. La scelta di rendere disponibili in forma aperta questa specifica tipologia di dati si rivela particolarmente lungimirante: gli open data, infatti, sono in grado di generare un valore aggiunto che potenzia di molto la conoscenza delle raccolte museali e la loro valorizzazione.

L'intervento di Carlotta Margarone, responsabile Web, Comunicazione e Marketing della Fondazione Torino Musei, dal titolo suggestivo Nelle terre selvagge. Open data per storici dell'arte, ha presentato il progetto relativo alla creazione di una piattaforma di open data museali. [23] I musei civici di Torino - GAM (Galleria Civica d'Arte Moderna e Contemporanea), Palazzo Madama (Museo Civico d'Arte Antica), MAO (Museo d'Arte Orientale e Borgo Medievale) - hanno pubblicato nel 2014 per primi in Italia le loro collezioni in open data per un totale di ca. 150.000 record in licenza Creative Commons CC BY Italia 3.0, rendendole accessibili per chiunque.

Sulla piattaforma on line della Fondazione Torino Musei, oltre ai dati statistici relativi ai visitatori, sono reperibili i dataset relativi agli elenchi e alle schede catalografiche di tutte le opere d'arte, corredate di fotografia, presenti nei cataloghi informatizzati dei musei. I record (nei formati XML, CSV, XLS, XLSX, JSON) presentano il link alle immagini in bassa risoluzione, senza filigrana o watermark, e sono disponibili per il libero riuso creativo, anche a fini commerciali. Insieme a questi dati sono disponibili anche informazioni sui restauri (alcuni interventi hanno interessato opere di grandi maestri come Picasso, Chagall e Boldini) e i prestiti ad importanti istituzioni italiane e internazionali.

Attraverso la piattaforma di open data la Fondazione intende promuovere l'apertura delle istituzioni museali verso nuove pratiche partecipative che coinvolgono la cittadinanza, ispirare forme innovative di storytelling e di comunicazione/valorizzazione del patrimonio e stimolare lo sviluppo di servizi e prodotti innovativi, sulla scia di quanto già accade in diverse istituzioni internazionali di prestigio come il British Museum, la Tate Modern di Londra e il Rijksmuseum di Amsterdam.

Carlotta Margarone ha raccontato con simpatica verve il percorso fatto di eventi/incontri/occasioni/riflessioni che hanno portato la Fondazione Torino Musei a scegliere la via degli open data. L'importanza degli open data nel settore museale è ben testimoniata a livello internazionale, numerosi infatti sono i musei che danno conto sui loro siti in tempo reale del numero di accessi del pubblico e delle consultazioni.

La Fondazione Torino Musei si è sempre tenuta al passo con i tempi ed ha accuratamente monitorato lo stato dell'arte degli open data nei musei internazionali, mettendoli a confronto con quanto presente in Italia e stilando anche un elenco delle piattaforme di condivisione/diffusione open data in Italia. Il 7� Summit italiano di architettura dell'informazione [24] del 2013 ha rappresentato per la Fondazione una buona occasione di confronto con il tema open data, la cui analisi era considerata in quella circostanza un utile strumento di controllo civico dell'operato delle istituzioni.

Occorre tener presente, come ICOM [25] sottolinea nel Codice etico per i musei, che la comunicazione rappresenta un aspetto chiave della missione sociale dei musei per dare conto alla comunità del servizio a cui sono chiamati e della loro buona gestione.

La scelta open della Fondazione Torino Musei è stata anche influenzata dalla nascita di "MuseoTorino API" [26], un servizio innovativo per Torino e per il settore museale italiano con cui "si permette a tutti gli utenti, enti o organizzazioni pubbliche e private, di usare i dati presenti sul sito omonimo secondo la licenza open IODL 2.0, nel rispetto delle leggi vigenti, offrendo diverse possibilità di recupero dei dati: il contenuto di una singola scheda, l'elenco delle schede appartenenti ad uno specifico tema, la ricerca per periodo o per parola chiave. I dati presenti nel sito (ad eccezione delle immagini, coperte da specifico copyright), caso unico nel panorama degli Open Data italiani, possono essere fruiti tramite un accesso a specifiche API che forniscono i dati in tempo reale rispetto a quanto visualizzato sul sito principale".

Altro elemento importante per la genesi della piattaforma open data della Fondazione Torino Musei, ancora una volta radicato nel contesto torinese, è la pubblicazione nel 2012 il "Libro bianco per il riutilizzo dell'informazione del settore pubblico", [27] frutto di un gruppo di lavoro eterogeneo formato da ricercatori di istituzioni pubbliche e private e curato da Federico Morando, volto ad esplorare le possibili vie per "mettere a disposizione le informazioni relative al settore pubblico in modo trasparente, efficace e non discriminatorio, [come] fonte importante di crescita potenziale di servizi online innovativi".

Oltre a segnalare la necessità di approfondire il tema sul piano teorico, Carlotta Margarone ha fatto sue e raccomanda a chi muove i primi passi alcune buone pratiche ispirate appunto dal Libro bianco:

Su quest'ultimo punto i musei mostrano una forte resistenza culturale, ad esempio il divieto a fotografare le opere d'arte è ancora molto diffuso, anche dopo l'ultimo decreto Franceschini. La vendita delle immagini rappresenta ancora una fonte di reddito, nonostante l'introito non giustifichi economicamente, secondo Margarone, la rinuncia a rendere il dato libero.

Con l'inaugurazione della piattaforma di open data, celebrata dalla Fondazione Torino Musei con una giornata di formazione in occasione dell'International open data day il 22 febbraio 2014, l'obiettivo diventava quello di essere presenti su Europeana e su Wikimedia Commons. Dopo qualche criticità legata alle ferree regole della community wikipediana, che vieta alle istituzioni come un museo di autoregistrarsi, la collaborazione si è sviluppata con Cultura Italia [28].

La scelta di aderire a Cultura Italia è stata dettata innanzitutto dall'esigenza di aumentare la visibilità delle proprie "banche dati". Il portale consente infatti all'utente di visualizzare nello stesso "luogo virtuale" risorse culturali provenienti da molteplici basi di dati esterne; gli utenti selezionano le risorse di interesse e vengono poi rimandati tramite il link "consulta la scheda esterna" alla pagina web del fornitore in cui è pubblicata la risorsa, per fruire dei servizi e delle informazioni di contesto.

Attraverso Cultura Italia i dati sono inviati ad Europeana [29]: CulturaItalia è il principale provider di contenuti italiani a Europeana, la digital library che offre l'accesso al patrimonio culturale europeo e, in molti casi, ne permette il ri-uso. Infine CulturaItalia è la strada per pubblicare i propri dati sotto forma di Linked Open Data attraverso il progetto pilota dati.culturaitalia.it [30]

Ogni istituzione culturale italiana, con materiale digitalizzato, può diventare partner di CulturaItalia e inviare le proprie risorse a Europeana. Le risorse possono essere in formato testo, audio, immagine e video e devono essere di interesse per i canali tematici e rappresentativi di iniziative, persone, luoghi e beni provenienti da tutto il territorio nazionale. [31]

La Fondazione Torino Musei, traendo ispirazione dall'esempio dello Smithsonian Institute [32] allo scopo di arricchire i dati delle collezioni presenti sul sito di Palazzo Madama, ha poi deciso di lanciare un esperimento di coinvolgimento partecipativo del pubblico "per costruire insieme un patrimonio comune di informazioni, riferimenti, esperienze ed emozioni". Gli utenti possono registrarsi sul sito e contribuire a taggare, in modalità manuale, i dati museali con parole chiave per facilitarne la ricerca, aggiungere link esterni a risorse utili (wiki, database di biblioteche, video, articoli online, etc.).

La Fondazione Torino Musei ha inoltre avviato un progetto [33] di ricerca automatica all'interno delle sue raccolte, rilasciate con Licenza Creative Commons Italia 3.0, che utilizza un bot di Telegram [34] dove, previa iscrizione gratuita al bot [35], è possibile ricercare le opere o gli autori per parola chiave.

L'ultimo intervento della ricca giornata è stato quello di Marilena Daquino (Centro risorse per la Ricerca Multimediale, Università di Bologna) dal titolo Linked Open Data per gli archivi fotografici: il caso della fototeca Zeri. Si tratta del progetto Zeri & LODE, nato a Bologna per volere della Fondazione Federico Zeri dell'Università di Bologna.

La Fondazione preserva una delle più prestigiose collezioni di fotografie di opere d'arte d'Europa (290.000 esemplari), una ricca biblioteca di storia dell'arte (46.000 volumi), una consistente raccolta di cataloghi d'asta (37.000), nonché 15.000 fogli con preziosi appunti del suo creatore Federico Zeri. Ci troviamo di fronte alla più grande collezione privata di documentazione di storia dell'arte presente in Italia.

Il riordino della collezione, iniziato nel 2003 e ancora in corso, intende mantenere l'ordinamento originale voluto dal suo collettore, importante in quanto rispecchia le scelte attribuzionistiche del critico e ci offre moltissime informazioni sulla sua concezione della storia dell'arte. Contemporanea al lavoro di riordino della collezione è stata la creazione di un database, all'interno del quale far confluire le schede catalografiche dei beni museali, archivistici e bibliografici, oltre alla digitalizzazione delle immagini. Sono stati utilizzati gli standard ICCD [36] per la catalogazione di fotografie e opere d'arte e altri standard e authorities per i materiali documentali.

Nell'ambito del progetto di ricerca Zeri & LODE, e all'interno del più ampio Consorzio internazionale PHAROS [37], la fototeca Zeri è stata il primo archivio fotografico italiano a trasformare parte consistente dei propri dati in Linked Open Data. I LOD sono stati scelti come il veicolo per la condivisione dei dati, affinché essi siano accessibili, rintracciabili e riusabili da utenti ed altre applicazioni secondo le esigenze del nuovo web semantico.

Il progetto complessivo ambisce a riunire le immagini possedute da tutti i partner e i relativi metadati in un unico ambiente, inteso come spazio di ricerca, aggregazione e condivisione per la storia dell'arte, liberamente accessibile online e multilingue, che includa e valorizzi immagini, dati, documentazione di corredo e che sia anche capace di utilizzare soluzioni tecnologiche innovative (image recognition applications, text and image annotation, etc.). Si vuole superare i limiti delle singole banche dati per evidenziare similitudini tra le opere d'arte e avere elementi utili per la datazione. L'aggregazione dei dati provenienti da domini differenti ma affini e la valorizzazione delle loro relazioni permetterà la creazione di nuova conoscenza.

La sfida affrontata dal Gruppo ricerca dell'Università di Bologna, composto da cinque persone - informatici ed esperti in digital humanities [38] - oltre al supporto del Multimedia Center (CRR-MM), è legata alla diversità di standard descrittivi e modelli concettuali utilizzati.

Il Progetto Zeri è molto ambizioso e articolato: intende creare un modello ontologico, riutilizzabile da altri partners, che restituisca la complessità dell'oggetto fotografico (aspetti di unicità /serialità in diversi archivi, monumento/documento), traduca la specificità di una fotografia di opera d'arte in un sistema archivio, valorizzi e rafforzi la ricchezza semantica del DB Zeri, rispecchi l'analiticità delle schede di metadati ministeriali OA (Opera d'Arte) e F (Fotografia), e supplisca alle lacune del modello concettuale CIDOC-CRM tramite l'integrazione con altre ontologie consolidate.

CIDOC-CRM [39], standard creato da International Council of Museums (ICOM) nel 2002 al fine di garantire l'interoperabilità semantica nel dominio del Cultural Heritage, è infatti un modello evento-centrico, finalizzato a descrivere oggetti museali ma mai applicato a fotografie del patrimonio storico-artistico, di per sé oggetti seriali. Oltre a CIDOC-CRM sono state utilizzate, per descrivere altri aspetti, le SPAR Ontologies [40] in riferimento alla documentazione fotografica e archivistica allegata e un modello creato ad hoc, HiCO [41], in grado di rappresentare l'atto dell'attribuzione. Quest'ultimo analizza le metodologie adottate dal soggetto produttore, e poi dal catalogatore, nella scelta dell'autore a cui intestare le opere, siano esse fonti, pareri autorevoli, didascalie o la semplice classificazione della foto all'interno del sistema archivio.

Il progetto mira inoltre a definire un workflow utile ad altri partners, ad arricchire il dataset Zeri con link ad altri dataset e authorities (Getty ULAN e AAT [42], Viaf [43], DBpedia [44], Wikidata [45], Geonames [46], ecc.) e trasformare Zeri in un Authority (artisti, fotografi, attribuzioni, ecc.).

La presentazione ha descritto puntualmente le fasi tecniche del progetto, dalla mappatura dei dati - che si è basata sul caso più complesso a disposizione per costruire un modello completo - alla successiva conversione dei dati in RDF e alla loro pubblicazione come LOD, visualizzabili sul web attraverso il browser RDF LODView [47] e interrrogabili attraverso un endpoint SPARQL [48]

Il dataset pubblicato comprende un sottoinsieme di dati relativi alla pittura italiana del XVI secolo, già disponibili sul sito web della Fondazione Zeri. Circa 19.000 opere d'arte e 31.000 fotografie, pari a circa 50.000 schede catalografiche, oltre a informazioni su artisti, fotografi, bibliografia e relativa documentazione, sono descritti da più di 11 milioni di triple RDF.

La previsione è di raggiungere l'obiettivo finale di 100 milioni di triple, una mole davvero imponente. Il completamento del progetto in corso prevede di terminare il mapping OA/F to RDF, pubblicare di tutte le schede catalografiche in RDF, integrare i dati RDF nel catalogo attuale online, consentire l'arricchimento della ricerca basata su LOD, integrare i dati con altri partner del consorzio PHAROS.

L'obiettivo è ancora quello di estendere le potenzialità offerte dal semantic web attraverso la data analysis e condurre test sui benefici dell'utilizzo dei modelli per scoprire nuova conoscenza (e arricchire automaticamente i dati).

I resoconti presentati in questa sede sono il frutto della rielaborazione e approfondimento da parte delle autrici, a partire dagli interventi dei relatori al cui spirito e contenuti ci auguriamo di essere comunque riuscite a rimanere fedeli, trasmettendo la varietà dei campi di applicazione e i molti elementi di interesse di uno strumento le cui implicazioni cominciano ad essere tangibili anche nel mondo bibliotecario.

Per tutti i siti web l'ultima consultazione è stata effettuata il 30 settembre 2017.

Oriana Bozzarelli, Servizi Bibliografici digitali di Ateneo - Università degli Studi di Torino, e-mail: oriana.bozzarelli@unito.it
Elena Marangoni, Servizi Bibliografici digitali di Ateneo - Università degli Studi di Torino, e-mail: elena.marangoni@unito.it
Viviana Mandrile, Servizi Bibliotecari Polo Scienze della Natura - Università degli Studi di Torino, e-mail: viviana.mandrile@unito.it

Note

[1] Il Servizio Bibliotecario Nazionale (SBN), promosso agli inizi degli anni '80, è la rete nazionale di cooperazione bibliotecaria su base informatica alla quale possono partecipare biblioteche italiane di diversa appartenenza istituzionale, finalizzata alla catalogazione partecipata e alla fornitura di servizi agli utenti. L'attività del Servizio Bibliotecario Nazionale (SBN) è regolata da un protocollo d'intesa tra Stato e Regioni siglato nel 1984, a cui ha fatto seguito nel 1992 un Accordo di programma tra Ministero dei Beni Culturali e MURST, quest'accordo è stato rinnovato nel 1994 con la partecipazione delle Regioni. A livello territoriale SBN prevede la costituzione di uno o più poli in ciascun territorio regionale mediante accordi tra l'ICCU e le Regioni/istituzioni interessate. A dicembre 2016 la rete SBN, in continua espansione, era costituita da 98 Poli per un totale di 5.989 biblioteche. L'immenso patrimonio informativo presente nell'Indice SBN è reso accessibile al pubblico tramite l'OPAC SBN.

[2] Dato rilevato a febbraio 2017.

[3] Le azioni di manutenzione del catalogo avvengono in cooperazione con diverse realtà che partecipano a SBN. Sono nati a questo scopo i seguenti gruppi di lavoro e progetti: Gruppo di lavoro per la deduplicazione degli Autori e Titoli di composizione dell'ICBSA (ICCU, ICBSA); Gruppo di lavoro sui Luoghi normalizzati (ICCU, Biblioteca Alessandrina, Università di Bologna, Biblioteca comunale dell'Archiginnasio); Gruppo di lavoro "Gestione e manutenzione dell'AF di SBN" (biblioteche statali romane); Progetto Coming Auth. per una bonifica e implementazione dell'authority file di SBN (AIB-Lazio).

[4] Per approfondimenti su questo aspetto si può consultare la sezione Attività di manutenzione dell'Indice SBN del sito web dell'ICCU <http://www.iccu.sbn.it/opencms/opencms/it/main/attivita/naz/pagina_0001.html>.

[5] L'etichetta BY indica che l'attribuzione della titolarità dei dati deve sempre essere mantenuta e rispettata in maniera esplicita. Questa licenza permette - come indicato da Creative Commons - di riprodurre, distribuire, comunicare al pubblico, esporre in pubblico, rappresentare, eseguire e recitare questo materia le con qualsiasi mezzo e formato; remixare, trasformare il materiale e basarti su di esso per le tue opere per qualsiasi fine, anche commerciale. Si veda a questo proposito Antonella de Robbio "Dati aperti nella Pubblica Amministrazione tra crescita e trasparenza." DigItalia 1 (2013): 29-50.

[6] Antonella De Robbio, Dati aperti nella Pubblica Amministrazione tra crescita e trasparenza, "DigItalia" 1 (2013), p. 44.

[7] Per approfondire il modello CIDOC si veda Maria Teresa Biagetti, Un modello ontologico per l'integrazione delle informazioni del patrimonio culturale: CIDOC-CRM, in "JLIS.it", 7 (2016), 3.

[8] La relazione finale del gruppo di lavoro sui LOD è disponibile sul sito dell'ICCU, si veda <http://www.iccu.sbn.it/opencms/opencms/it/main/attivita/naz/pagina_0007.html>.

[9] Per il dettaglio sulla convenzione tra ICCU e Polo digitale degli istituti culturali di Napoli si veda http://www.iccu.sbn.it/opencms/export/sites/iccu/documenti/2016/Convenzione_ICCU_polo_digitale_istituti_cilturali_Napoli.pdf>.

[10] Si tratta dei dati bibliografici localizzati in SBN ed estratti dal Polo della biblioteca nazionale di Napoli.

[11] Si veda Luigi Cerullo Il polo digitale degli istituti culturali di Napoli in DigItalia 2015 (2016), p. 102.

[12] Gli istituti culturali napoletani interessati sono: la Società napoletana di Storia patria, l'Istituto italiano per gli Studi Storici, il Pio Monte della Misericordia, la Fondazione Croce e la Cappella del Tesoro di San Gennaro.

[13]Le normative previste dall'Istituto centrale per il catalogo e al documentazione (ICCD) sono: F (fotografia), D (Disegno), S (Stampa), OA (Oggetto d'arte).

[14] Dall''estate 2017 è attiva la piattaforma sperimentale del MIBACT dedicato ai linked open data <http://dati.beniculturali.it/> che, oltre al dataset dell'Anagrafe biblioteche italiane, contiene i riferimenti ad altri dataset del Ministero accessibili su altri siti (ad esempio SAN, dalla Fonte Unione Donne Italiane, etc.). I dataset sono scaricabili nei formati rdf/xml e text/turtle oppure navigabili/accessibili tramite SPARQL. I dati sono rilasciati per lo più con licenza CC BY, alcuni dataset invece con la dichiarazione CC0.

[15] La Carta dei Servizi per l'integrazione di servizi bibliotecari e documentari è consultabile alla url <http://sharecampus.it/1/upload/carta_servizi.pdf>.

[16] La piattaforma tecnologia SHARE Catalogue è accessibile alla url <http://catalogo.share-cat.unina.it/sharecat/clusters>.

[17] La piattaforma SHARE Press è consultabile alla url <http://www.sharecampus.it/1/share_press_966615.html>.

[18] Ciascun elemento di una tripla per essere letto dalle macchine deve essere rappresentato da una URI, o più precisamente da 'http URI', ovvero, tra le varie tipologie di URI disponibili, quelli consigliati da Tim Berners Lee.

[19] Il modello BIBFRAME e la documentazione relativa è consultabile alla url <https://www.loc.gov/bibframe/>.

[20] Cfr. Guerrini, Mauro BIBFRAME Per un nuovo ruolo delle biblioteche nel contesto del web in DigItalia, I, 2014, p 125.

[21] Si veda il sito internet del CoBiS < http://www.cobis.to.it/>.

[22] A questo proposito si può visionare il documento di Dimou, A. - Vander Sande, M. - Colpaert, P. - Verborgh, R. - Mannens, E. - Van de Walle, R., RML: A Generic Language for Integrated RDF Mappings of Heterogeneous Data, in LDOW, 2014, disponibile on line: <https://www.researchgate.net/profile/Ruben_Verborgh/publication/264274087_RML_A_Generic_Language_for_Integrated_RDF_Mappings_of_Heterogeneous_Data/links/53d8fd2b0cf2631430c38a7b.pdf.>.

[23] I dataset delle collezioni in open data della Fondazione Torino Musei sono accessibili sulla piattaforma dedicata alla url <http://www.fondazionetorinomusei.it/it/opendata>.

[24] Architecta, la Società italiana di architettura dell'Informazione, organizza ogni anno il Summit Italiano di Architettura dell'Informazione. Si tratta di un evento pensato come momento di ritrovo e confronto della comunità di architetti dell'informazione italiani. Il tema del 7� Summit era Il digitale è reale < http://www.architecta.it/summit-ia-architecta/>.

[25] ICOM è il Consiglio Internazionale dei Musei. Nel Codice etico per i musei, vers. italiana, la definizione di Museo - accolta anche dal DM 23 dicembre 2014 - è la seguente: "Il museo è un'istituzione permanente, senza scopo di lucro, al servizio della società e del suo sviluppo. È aperto al pubblico e compie ricerche che riguardano le testimonianze materiali e immateriali dell'umanità e del suo ambiente; le acquisisce, le conserva, le comunica e le espone a fini di studio, educazione e diletto" < http://www.icom-italia.org/>.

[26] MuseoTorino è il museo virtuale della Città di Torino, aperto il 17 marzo 2011 in occasione del 150� anniversario dell'Unità d'Italia. Per il servizioAPI di MuseoTorino si veda il link: <http://www.museotorino.it/api>.

[27] Libro bianco per il riutilizzo dell'informazione del settore pubblico, 2012, a cura di Federico Morando, https://www.scribd.com/document/95026108/Libro-bianco-EVPSI-per-il-riutilizzo-dell-informazione-del-settore-pubblico.

[28] Cultura Italia è il portale della cultura, promosso dal MiBACT, che offre un punto di accesso integrato al patrimonio culturale di musei, archivi, biblioteche, enti di ricerca del nostro paese. Il portale rende possibile ricercare on line le informazioni più disparate relative al complesso, eterogeneo e diffuso patrimonio culturale digitale italiano; inoltre promuove l'accesso e la fruizione del patrimonio culturale nazionale pubblico e privato secondo standard condivisi e integra la cultura italiana nel più ampio circuito europeo. Le regioni, le università e altri importanti istituti culturali italiani sia pubblici che privati sono partner del progetto < http://www.culturaitalia.it/ >.

[29] "Europeana è una biblioteca digitale europea che riunisce contributi già digitalizzati da diverse istituzioni dei 28 paesi membri dell'Unione europea in 30 lingue. La sua dotazione include libri, film, dipinti, giornali, archivi sonori, mappe, manoscritti ed archivi", fonte voce Wikipedia.

[30] Si veda<http://dati.culturaitalia.it/> che attualmente rende accessibili i dati di Accademia S. Cecilia, Progetto ArtPast, Digibess, ICCU, Internet Culturale, Michael Italia, Polo Museale Fiorentino, Regione Marche e Anagrafe delle Biblioteche Italiane (i set sono descritti all'interno della pagina fonte dati), oltre al Thesaurus PICO, sia attraverso un endpoint, SPARQL sia mediante un OAI Provider.

[31] Musei, archivi, biblioteche e altri enti culturali pubblici e privati possono aderire mettendo a disposizione contenuti organizzati in banche dati o inviando notizie relative a iniziative, enti e attività alla redazione centrale scrivendo a: culturaitalia.aderisci@beniculturali.it.

[32] Lo Smithsonian Institute <https://www.si.edu/volunteer/DigitalVolunteers> dal 2013 ingaggia dei volontari digitali tra il suo pubblico per rendere maggiormente accessibili le proprie collezioni. I volontari digitali sono invitati a trascrivere documenti storici associati alle vaste collezioni scientifiche dell'istituto. La trascrizione fa in modo che materiali di grande interesse siano accessibili per i ricercatori di tutto il mondo, oltre che per il grande pubblico. Inoltre lo Smithsonian si avvale di altri volontari digitali per contribuire a Wikipedia con contenuti di relativi alle proprie collezioni e aree di competenza. Migliorare la qualità e la quantità di informazioni affidabili su Wikipedia concorre a soddisfare la missione dell'istituto ovvero "l'aumento e la diffusione della conoscenza". Per ulteriori informazioni si può visitare il WikiProject dell'Istituto Smithsonian <https://en.wikipedia.org/wiki/Wikipedia:GLAM/Smithsonian_Institution>.

[33] Il progetto è stato curato da Piero Paolicelli, programmatore italiano di Lecce, che sfruttando le API di Telegram ha usato i dati aperti per dimostrare che Telegram non è solo una piattaforma per chattare in sicurezza, ma è utile anche per gestire a distanza database di dati aperti e pubblici. Ha anche creato Opendata Lecce bot <https://telegram.me/opendataleccebot> attraverso cui - grazie al riuso degli open data del Comune di Lecce - si possono consultare una serie di informazioni sulla città di Lecce: dall'elenco dei luoghi dove è presente un defibrillatore, agli orari delle scuole fino ai parcheggi.

[34] Si tratta di un servizio di messaggistica opensource su cloud <https://telegram.org/>

[35] Una delle caratteristiche di Telegram sono i bot, le applicazioni di terze parti che si presentano come delle chat automatiche, capaci di interagire con le richieste impartite con precisi comandi.

[36] L'ICCD è l'Istituto Centrale per il Catalogo e la Documentazione che, tra le attività più importanti, ha il compito di gestire il Catalogo generale del patrimonio archeologico, architettonico, storico artistico e etnoantropologico nazionale ed elaborare le metodologie della catalogazione.

[37] Il consorzio PHAROS raggruppa 14 dei più importanti archivi fotografici per la ricerca storico archivistica (tra cui Getty Research Inst., Frick Art Reference Library, Yale Centre for British Art).

[38] Team di Ricerca composto da Marilena Daquino (Centro di risorse per la ricerca multimediale CRR-MM), Francesca Mambelli (responsabile banche dati Fondazione Federico Zeri), Silvio Peroni (Dipartimento di Informatica - Scienza e Ingegneria dell'Università di Bologna), Francesca Tomasi (Dipartimento di Filologia Classica e Italianistica dell'Università di Bologna), Fabio Vitali (Dipartimento di Informatica - Scienza e Ingegneria dell'Università di Bologna); Multimedia Center (CRR-MM) Area Sistemi Dipartimentali e Documentali (ASDD-UNIBO).

[39] Si veda lo standard CIDOC- CRM <http://www.cidoc-crm.org/>.

[40] Si veda <http://www.sparontologies.net/>.

[41] Si veda <http://hico.sourceforge.net/index.html>.

[42] Si veda <http://www.getty.edu/research/tools/vocabularies/lod/#definition>.

[43] Si veda <https://viaf.org/>.

[44] Si veda <http://wiki.dbpedia.org/>.

[45] Si veda <https://www.wikidata.org/wiki/Wikidata:Main_Page>.

[46] Si veda <http://www.geonames.org/>.

[47] Si veda <https://www.w3.org/2001/sw/wiki/LodView>.

[48] Si veda <http://data.fondazionezeri.unibo.it/query/>.

Abstract

Note