Biblioteche digitali semantiche. Il progetto Burckhardtsource.org
This article describes Burckhardtsource.org. The platform is developed within the project ERC-Advanced Grant 'The European Correspondence to Jacob Burckhardt', as the result of an interdisciplinary work that involves art historians, philologists, and science communication and computer scientists. The first part focuses on the platform and describes its content and the methodology followed in the editing of the correspondence to Burckhardt. The second part is devoted to a brief explanation of the software (Muruca) through which the platform is built. The last part, finally, considers a tool for the semantic annotation of web pages (Pundit) integrated into the platform, which allows the enrichment of texts through the use of Linked Data technologies.
Le lettere a Jacob Burckhardt [2] ricostruiscono una delle più significative corrispondenze del diciannovesimo secolo. Scritte da circa quattrocento corrispondenti in tedesco, italiano, inglese e francese, le lettere coprono infatti un arco temporale che va dal 1842 al 1897 e costituiscono una preziosa testimonianza di un periodo denso di importanti trasformazioni culturali. E' in quegli anni che emerge il concetto moderno di democrazia e in cui la cultura industriale si definisce in contrasto con gli ideali neo-umanisti. La corrispondenza inoltre è una testimonianza del dibattito sulla nascita e il consolidamento della storia dell'arte come disciplina autonoma, separata dalla storia e dall'archeologia.
Fig. 1. La homepage della biblioteca digitale www.burckhardtsource.org
Burckhardtsource.org comprende quattro sezioni principali:
1) La digitalizzazione dei manoscritti.
2) L'edizione delle lettere.
3) L'apparato critico.
4) I metadati.
Un aspetto innovativo dell'edizione digitale risiede nel fatto che le quattro parti sopra menzionate comunicano l'una con l'altra. L'edizione inoltre non si limita alla semplice accumulazione, classificazione e gestione dei dati, essendo aperta verso l'esterno anche grazie all'uso di tecnologie semantiche.
La piattaforma, che è costruita con il framework Muruca, è navigabile attraverso un sistema di boxview. L'idea alla base della progettazione delle boxview è di permettere agli studiosi che lavorano con la Digital Library di aprire simultaneamente più finestre, così da poter visualizzare diverse fonti simultaneamente. I ricercatori possono ricostruire la storia della propria navigazione cliccando su un'apposita icona (history boxview). Inoltre, attraverso l'opzione shortener url, è possibile salvare il proprio percorso di navigazione in modo da accedervi in un secondo momento. Cliccando sulla relativa icona, la pagina della biblioteca digitale si apre riproponendo la visualizzazione salvata, proprio come accade quando la sera si lasciano i libri, i quaderni e gli appunti sulla scrivania per tornarvi il mattino seguente.
Fig. 2. Le icone boxview history (a sin.) e shortener url (a destra), in altro a destra nella pagina di burckhardtsource.org
Un'altra feature consente di rimpicciolire le boxview in modo da visualizzarne la sola etichetta, senza doverne necessariamente vedere tutto il contenuto.
La corrispondenza a Jacob Burckhardt è navigabile in sei modalità distinte:
a) per anno;
b) per mittente;
c) per luogo da cui le lettere sono state spedite;
d) attraverso una ricerca a testo libero che cerca anche all'interno dei documenti.
Fig. 3. La visualizzazione delle modalità di navigazione per anno, per mittente, per luogo e per ricerca libera. L'opzione filter consente di filtrare i documenti tramite ricerca a testo libero.
Inoltre, è possibile navigare nella corrispondenza in modalità grafica:
e) attraverso una timeline che mostra le lettere spedite in un determinato arco di tempo, selezionabile dal visitatore del sito;
Fig. 4. La modalità di navigazione attraverso la timeline.
f) infine, tramite una mappa e una timeline in cui è possibile visualizzare, su una cartina, la provenienza delle lettere in un determinato arco di tempo. Nella parte destra della finestra compaiono le città di provenienza (icona rossa) e di destinazione (icona verde) delle lettere, e gli autori delle lettere spedite a Burckhardt in quello stesso arco temporale.
Fig. 5. La modalità di navigazione attraverso la mappa.
La biblioteca digitale ospita le immagini dei manoscritti raccolti dal gruppo di ricerca in biblioteche ed archivi europei. A ciascuna lettera è infatti associata la scannerizzazione del documento originale. La qualità della riproduzione e la funzione di zoom rendono più agevole la lettura dell'originale. Questa funzionalità è resa possibile attraverso la trasformazione delle immagini ad una risoluzione molto alta, tramite un processo di piramidalizzazione e l'utilizzo di un apposito software dedicato alla fruizione ottimizzata per il web (<
http://iipimage.sourceforge.net/>); la piattaforma Muruca include l'utilizzo di IIP tramite un componente denominato Flexip, che permette di creare delle associazioni tra le risorse della Digital Library e le immagini, rendendo queste ultime a loro volta nuove risorse.Figura 6. Il manoscritto di una lettera di Wilhelm von Bode a Jacob Burckhardt
La scannerizzazione dei manoscritti rende chiari e comprensibili tanto il manoscritto quanto il lavoro svolto dai curatori dell'edizione, oltre a garantire una migliore conservazione e protezione dei documenti. Il widget images consente così di accedere alle immagini del manoscritto, che possono essere ingrandite a piacimento e sono un vero e proprio strumento di lavoro per i ricercatori che vogliano verificare la correttezza della trascrizione e, più in generale, studiarne il contenuto.
Le singole lettere sono identificate tramite uno slug che indica il mittente e la data in cui sono state scritte. L'edizione della lettera può essere scaricata (vedi icona PDF), e l'url è salvato nel permalink. Cliccando sul widget metadata è possibile aprire la finestra dei metadati associati alla lettera, alcuni dei quali (ad esempio quelli geografici) sono linkati alla Linked Data Cloud.
I metadati riportano in primo luogo gli aspetti fisici della lettera: la carta, le dimensioni, la busta, il mezzo con cui è stata scritta, l'inchiostro. Inoltre, indicano il luogo in cui è stata composta, quello di spedizione e la destinazione. Questi ultimi sono geo-referenziati, così da poter essere mostrati su una mappa. I luoghi che hanno mutato nome o stato di appartenenza sono linkati a un sito esterno che documenta tali cambiamenti.
I metadati, inoltre, indicano dove è conservato il manoscritto, ed eventuali riferimenti bibliografici a ogni precedente pubblicazione. Attraverso di essi è possibile ricostruire la rete della corrispondenza e capire se la lettera è una risposta a una lettera di Burckhardt, e/o se esiste una risposta di Burckhardt a quella lettera. Infine, i metadati includono un abstract sul contenuto della lettera.
Fig. 7. La trascrizione di una lettera i widget dei metadati e delle immagine e le icone associate
La piattaforma inoltre presenta le trascrizioni diplomatiche delle lettere, che rispettano i moderni criteri critici. Data la natura del testo, l'edizione della lettera stabilisce l'ultima mano dell'autore. E' inoltre possibile accedere alla genesi di ciascuna lettera grazie all'apparato critico separato, che illustra le decisioni prese dai curatori dell'edizione digitale [3]. Il widget transcription permette di visualizzare la trascrizione (codificata secondo gli standard XML-TEI P5), che può essere annotata semanticamente cliccando sulla relativa icona tramite Pundit (cfr. paragrafo 3).
L'annotazione semantica dei contenuti di
Burckhardtsource.org è pensata per identificare persone, luoghi, date, citazioni, fonti bibliografiche e opere d'arte. Questi concetti andranno a costituire le ontologie della Digital Library, che potranno essere condivise con altri progetti. Nonostante le ovvie problematicità di tale operazione, il vantaggio di usare un sistema di annotazioni semantiche non sta solo nell'abbondanza delle informazioni e il fatto che si tratta di informazioni strutturate, ma risiede soprattutto nel fatto che i concetti sono definiti semanticamente e quindi sono condivisibili e pienamente interoperabili con i contenuti di altre piattaforme.L'annotazione è in ogni caso il risultato di un processo di ricerca, e il link esterno può essere inserito solo dopo aver controllato ed eventualmente corretto le asserzioni del testo. Ad esempio, quando Pier Desiderio Pasolini chiede a Burckhardt di riconoscere il ritratto di Caterina Sforza, che identifica in un quadro conservato alla Pinacoteca di Forlì, il curatore deve verificare che il luogo sia sempre lo stesso, se la persona ritratta sia ancora ritenuta essere Caterina Sforza e anche a chi sia attribuito il quadro. In questo caso, il curatore ha stabilito che il ritratto, oggi attribuito a Lorenzo di Credi, non è più ritenuto raffigurare Caterina Sforza.
Burckhardtsource.org poggia sull'infrastruttura
Muruca [4]. Il nucleo di Muruca è costituito da una serie di plugin scritti per il framework symfony (versione 1.4) e appositamente sviluppati per soddisfare le esigenze richieste dalla gestione di una Digital Library con spiccate caratteristiche basate sul semantic web. La piattaforma consente di pubblicare e valorizzare materiale digitale, ma è anche uno strumento di ricerca e di studio, forte della sua possibile integrazione con Europeana e al collegamento con Iconclass e BibServer.Muruca può contenere fonti primarie e secondarie (manoscritti, lettere, immagini, video, etc.) in molteplici formati. I suoi strumenti di navigazione sono semplici e pensati per un pubblico vasto e generico e, al contempo, offrono funzionalità complesse rivolte a un'utenza più specialistica (come gli studenti e i ricercatori di ogni livello).
Ad oggi, la piattaforma Muruca è utilizzata in altre dieci biblioteche digitali: la federazione
Daphnet (Digital Archives of PHilosophical texts on the NET) dell'istituto ILIESI-CNR di Roma, che include quattro archivi digitali sui filosofi presocratici, socratici, su Laerzio e su alcuni testi della filosofia moderna); gli archivi multimediali L'officina scrittoria di Anton Francesco Doni e Orlandofurioso.org, due progetti del laboratorio CTL della Scuola Normale Superiore di Pisa; Gramscisource, un archivio contenente la digitalizzazione dei Quaderni dal Carcere di Gramsci nell'edizione di Valentino Gerratana finanziato dalla International Gramsci Society; Nietzschesource, l'archivio digitale dei manoscritti e delle trascrizioni delle opere di Nietzsche, gestito dalla Nietzsche Source Organization, un'organizzazione non-profit ospitata dalla École normale supérieure di Parigi; Schopenhauersource.org, che presenta i facsimile della prima edizione delle opere postume di Arthur Schopenhauer; e infine Wittgensteinsource, una piattaforma gestita dal Wittgenstein Archive dell'Università di Bergen che ospita oltre 5000 pagine del Wittgenstein's Nachlass e accetta fonti primarie, edizioni e traduzioni che sono sottoposte a peer-review del comitato scientifico della piattaforma.Le immagini, i documenti e i metadati sono inseriti su Muruca attraverso un backend a cui si accede tramite autenticazione.
Figura 8. L'archivio di burckhardtsource.org. Backend.
L'archivio delle lettere può essere interrogato tramite un sistema di filtri che consente di inserire il nome dell'autore, lo slug o lo status della lettera. Cliccando su edit si accede all'interfaccia per l'inserimento dei metadati nella piattaforma burckhardtsource:
Figura 9. L'interfaccia per l'inserimento dei metadati relativi a una lettera.
Le tre immagini che seguono mostrano il collegamento di un'entità (Roma) al relativo vocabolario Linked Data. In particolare, viene creata una entità locale (fig. 10) che viene interpretata come un luogo (place) (fig. 11), e che poi è collegata a un 'ontologia esistente (in questo caso freebase) (fig. 12).
Figura 10. La creazione dell'entità locale.
Figura 11. L'entità viene interpretata come place.
Figura 12. L'entità è collegata a Freebase.
Il valore dell'uso di una piattaforma comune da parte di diversi progetti, i cui contenuti sono, apparentemente, molto distanti tra loro, può essere facilmente compreso grazie a un esempio illuminante e relativo alla genesi dell'espressione gramsciana "pessimismo della ragione, ottimismo della volontà" [5]. L'autore della scoperta filologica a cui ci riferiamo è Mazzino Montinari, curatore dell'edizione critica dell'opera di Nietzsche, che nel suo Su Nietzsche ne ricostruisce l'origine così [6]:
"È noto che Gramsci [...] mutuò (l'espressione "pessimismo dell'intelligenza e ottimismo della volontà" NdR) da Romain Rolland. Quest'ultimo a sua volta – e ciò non è stato notato fino a oggi – non poteva averla letta se non in alcune pagine della sua veneranda amica Malwida von Meysenbug. In queste pagine, giunta alla sera della sua vita (1898), Malwida racconta: 'Avevamo, a Sorrento [dove Nietzsche trascorse con lei e altri amici l'inverno del 1876-1877] una ricca ed eccellente scelta di libri, ma la cosa più bella in tutta quella varietà era un manoscritto, nel quale uno scolaro di Nietzsche aveva riportato le lezioni sulla civiltà greca tenute da Jacob Burckhardt all'università di Basilea. Nietzsche ce ne dava il suo commento a voce... Particolarmente mi entusiasmò la definizione di Burckhardt sull'essenza del popolo greco: pessimismo della visione del mondo e ottimismo del temperamento'. Con la considerazione di questa linea ideale apparentemente paradossale che da Jacob Buckhardt giunge per la mediazione di Nietzsche, attraverso Malwida von Meysenbug e poi Romain Rolland, fino a Gramsci, vorrei chiudere questa mia proposta di discussione della interpretazione lukacsiana di Nietzsche" (corsivo nostro). [7]
L'allievo di Nietzsche era Luis Kelterborn e il suo quaderno di appunti è ancora conservato nella biblioteca di Nietzsche, a Weimar. A pagina 83 vi si legge: "Die Religion und die Reflexion waren pessimistisch, das Temperament aber optimistisch; daher die enorme Productivität... (La religione e la riflessione erano pessimistiche, il temperamento però era ottimistico; da questo veniva l'enorme produttività.)". L'operazione compiuta da Montinari nel suo attento lavoro filologico sarebbe verificabile con pochi click, una volta che le piattaforme già oggi esistenti, fossero completate con i documenti di cui la scoperta è oggetto.
Il processo di annotazione è l'atto di esprimere conoscenze su una "risorsa" (che può essere del testo, un'immagine o un suo frammento, un video o un suo frammento). Poiché la maggior parte delle risorse che vengono usate dai ricercatori (documenti, immagini e qualsiasi tipo di contenuto) oggi sono sul web, e ciò sta diventando vero anche nelle Scienze umane - un ambito in cui gli studiosi si stanno progressivamente spostando dal mondo analogico a quello digitale -, la possibilità di annotare le risorse web e di condividerle diviene di primaria importanza.
Figura 13. L'interfaccia di Pundit per l'annotazione delle lettere su Burckhardtsource. In alto, la finestra per la costruzione delle triple. A destra, un'annotazione.
Figura 14. L'annotazione di una qualsiasi pagina web.
L'idea principale alla base di Pundit è consentire agli utenti non solo di commentare o contrassegnare frammenti di pagine web, la cui granularità è decisa da chi annota, ma anche di creare dati strutturati semanticamente durante il processo di annotazione, arricchendo così il cosiddetto Web dei dati.
Pundit archivia le annotazioni su un server basato su RDF che fornisce API che permettono di usare le annotazioni con il loro contenuto strutturato anche da parte di macchine, rendendo così possibile l'inferenza di nuova conoscenza e consentendo di fare query anche molto complesse [9]. L'immagine che segue dà un'idea di ciò che s'intende con annotazioni semanticamente strutturate: la possibilità per gli utenti di creare grafi in cui frammenti di contenuti web, concetti e entità sono collegati semanticamente (i link, cioè, sono etichettati, vale a dire che esprimono un significato).
Figura 15. Il grafo etichettato
La capacità di esprimere relazioni semanticamente tipizzate tra le risorse, basandosi su ontologie e vocabolari specifici, non solo consente agli utenti di esprimere in modo chiaro e preciso la semantica, ma anche, e questo aspetto è forse più interessante, favorisce il riutilizzo della conoscenza creata in modo collaborativo all'interno di altre applicazioni web [10]. Nella figura che segue viene mostrato un esempio di applicazione che usa dati semanticamente strutturati attraverso pundit e li mostra in modalità grafica. Come abbiamo visto nel primo paragrafo, è possibile interpretare la semantica per creare visualizzazioni molto efficaci, per esempio attraverso l'uso di timeline (fig. 4) e di mappe (fig. 5).
Figura 16. Il grafo che "misura" l'influenza tra filosofi, usando Edgemaps
Poiché il software è ancora in fase di sviluppo, il team di ricerca che lavora su Pundit è dunque interessato sia a nuovi utenti, sia a ulteriori ambiti potenziali di utilizzo. Ulteriori informazioni e contatti sono disponibili sul
sito.Francesca Di Donato, Scuola Normale Superiore, e-mail: francesca.didonato@sns.it
Susanne Müller, Scuola Normale Superiore, e-mail: susanne.muller@sns.it
[1] ERC Advanced Grant EUROCORR, Agrant Agreement n. 249483, coordinato dal dr. Maurizio Ghelardi. Del team di ricerca fanno parte linguisti, storici dell'arte, esperti di comunicazione sientifica e informatici (si veda la pagina Team della piattaforma, www.burckhardtsource.org).
[2] Le lettere scritte da Burckhardt stesso sono state pubblicate in dieci volumi tra il 1949 e il 1986.
[3] I quattro passaggi che portano a un'edizione definitiva della lettera sono a) la trascrizione; b) la collazione tra il manoscritto e la versione digitale; c) la costituzione del testo in base all'ultima mano dell'autore; d) la creazione dell'apparato critico. I criteri di trascrizione e collazione sono pubblicati sulla piattaforma, sia per rendere migliorabile il processo, sia nell'ottica di condivisione degli strumenti da parte di progetti simili, nella pagina Documentation.
[4] <http://www.muruca.org>. Muruca è una pattaforma sviluppata da Net7 (<www.netseven.it>), un'azienda leader nel settore delle Digital Humanities e nell'uso di tecnologie semantiche. La piattaforma è stata sviluppata con il supporto delle azioni e dei progetti europei seguenti: COST A32 "Open Scholarly Community on the Web" (2007/2010), eContentPlus Discovery (2006/09), FP7 SemLib (2010/12), ICT-PSP Agora (2011/13), ICT-PSP DM2E (2012/15).
[5] Quaderno 1, § 63. Lorianismo e Graziadei, <http://www.gramscisource.org/quaderno/1/nota/63>.
[6] Ringraziamo Paolo D'Iorio, che ci ha segnalato questo passo. Per un approfondimento si veda: Paolo D'Iorio, Le voyage de Nietzsche à Sorrente. La Genèse de la philosophie de l'esprit libre, CNRS ÉDITIONS, Paris, 2012.
[7] M. Montinari, Su Nietzsche, Editori Riuniti, 1981, p. 103.
[8] Ciò significa che le annotazioni sono conservate in un server esterno, ed è quindi possibile accedervi da qualsiasi computer, con tutti i vantaggi che ne derivano, anche in termini di persistenza dei dati.
[9] Un esempio di query che è possibile fare su Dbpedia è "quali calciatori indossano la maglia numero 11, giocano in una squadra il cui stadio ha più di 40000 posti e sono nati in un paese che ha più di 10 milioni di abitanti?" Come è facile intuire, ottenere una risposta a una questione di questo tipo sul Web tradizionale richiede un processo lungo, complesso e che non porta necessariamente a ottenere i risultati cercati. Viceversa, nel Web of Data la risposta si ottiene in pochi secondi. Cfr. S. Auer - J. Lehmann, What have Innsbruck and Leipzig in common? Extracting Semantics from Wiki Content (PDF), in E. Franconi et al. (a cura di), Proceedings of 4th European Semantic Web Conference, ESWC 2007, Innsbruck, Austria, June 3-7, 2007, LNCS 4519, pp. 503–517, ISBN 978-3-540- 72666-1, Springer, 2007, <www.informatik.uni-leipzig.de/~auer/publication/ExtractingSemantics.pdf>, p. 10-11.
[10] Per altri esempi di applicazioni che girano su Pundit, si veda: <http://thepund.it/apps.php>.