Manifesto per il Web Semantico: la comunità dei dati

Data di pubblicazione: 12 Ottobre 2020

Contributi di:

Trond Aalberg (Norwegian University of Science and Technology, Norway)
Carlo Bianchini (Università degli studi di Pavia, Italy)
Marshall Breeding (independent consultant, USA)
Elena Corradini (Biblioteca comunale di Ala – Sistema bibliotecario trentino, Italy)
Karen Coyle (independent consultant, USA)
Marija Dalbello (Rutgers University, USA)
Claudio Forziati (Università degli studi di Napoli Federico II, Italy)
Mauro Guerrini (Università degli Studi di Firenze, Italy)
Antonella Iacono (Biblioteca civica di Biella, Italy)
Giovanni Michetti (Sapienza Università di Roma, Italy)
Maura Quaquarelli (Alma mater studiorum – Università di Bologna, Italy)
Roberto Raieli (Sapienza Università di Roma, Italy)
Riccardo Ridi (Università Ca’ Foscari, Venezia, Italy)
Gino Roncaglia (Università della Tuscia, Viterbo, Italy)
Lucia Sardo (Alma mater studiorum – Università di Bologna, Italy)
David Weinberger (saggista, USA)
Paul Gabriele Weston (Università degli studi di Pavia, Italy)

Edizione a cura di:

Associazione Italiana Biblioteche (AIB) – Gruppo di studio sulla Catalogazione, Indicizzazione, Linked Open Data e Web Semantico (CILW)

https://www.aib.it/struttura/commissioni-e-gruppi/cnc/

Traduzione italiana di Elena Corradini

Revisione italiana di Claudio Forziati e Lucia Sardo

Obiettivi e campo di applicazione

Lo scopo di questo documento è condividere raccomandazioni relative a teorie e tecniche, usi e sviluppi, possibilità e rischi del Web semantico e dei Linked Data, con un focus sulla loro utilità sociale, il loro valore per la cultura, la loro importanza per la ricerca scientifica e accademica.

Metodologia

Per raggiungere questo obiettivo, abbiamo chiesto agli autori invitati di condividere la loro visione sull’argomento e di riassumere gli elementi cruciali in punti definiti.

Per ciascuno degli elementi cruciali comuni abbiamo anche chiesto agli autori di commentare e fornire ulteriori suggerimenti, al fine di includere opinioni diverse su temi convergenti.

Alla fine di questo processo, abbiamo fuso i diversi, e talvolta incompatibili, punti di vista in un unico documento, diviso in paragrafi e ciascuno in tesi, che forniscono una definizione unificata e facilitano una conversazione globale e condivisa sul senso e sull’uso del Web semantico.

Il Manifesto

We, the undersigned, believe that increasing access to information and knowledge across society,

assisted by the availability of information and communications technologies (ICTs),

supports sustainable development and improves people’s lives.
(The Lyon Declaration, 2014)

Introduzione all’argomento

Il Web è diventato il più grande insieme di significato condiviso nella storia umana, eppure questo significato risulta frammentato a causa di differenze linguistiche, concettuali e normative.

Il Web semantico mira a rendere il significato del Web universalmente accessibile e utilizzabile. Esso può essere descritto come una rete globale di dati interconnessi e annotati semanticamente, resa possibile da un complesso di formati e specifiche che rappresentano e condividono informazioni in un contesto globale.

Il Web è stato inizialmente pensato per documenti destinati a essere interpretati da occhi umani. Il Web semantico aggiunge le informazioni necessarie alle macchine per comprendere tali documenti.

Il Web semantico che sta emergendo soddisfa parzialmente la visione di estensione ed evoluzione del Web incentrato sui documenti verso un Web incentrato sui dati, ma il suo utilizzo (e le nostre esigenze e requisiti per l’uso) sta cambiando mentre esploriamo e comprendiamo i suoi confini.

Parallelamente allo sviluppo delle tecnologie del Web semantico, si è anche assistito a un cambio di paradigma nelle strategie per la creazione, la condivisione e la gestione dei dati in molti contesti.

Invece di adottare una prospettiva locale ‘vecchio stile’ e incentrata su un sistema chiuso, la maggior parte delle iniziative di gestione dell’informazione stanno adottando strategie aperte, decentralizzate e globali, incentrate sui dati, dove l’enfasi è posta sull’incrementare il valore dei dati tramite la costruzione di modelli di riferimento e tecnologie comuni.

Per ottenere tali risultati, gli obiettivi base devono essere l’interoperabilità, il riuso e l’integrazione, in quanto il maggior beneficio del Web semantico non è quello di strutturare i significati ma di rendere i significati interoperabili – fra sistemi, strutture di dati, lingue, culture e forme di pensiero, tutti legati a contesti specifici.

La sfida maggiore per il Web semantico è quella di creare dati auto-esplicativi che possano essere chiaramente interpretati da entità diverse dai creatori, in quanto collegati al contesto. In tal modo, chiunque può migliorare la qualità dei dati.

Le varie relazioni del Web semantico possono essere sviluppate soltanto se vengono strutturate ontologie appropriate per ogni contesto di dati in modo da supportare la rete dei collegamenti. In tal modo sarà possibile navigare fra i dati e le relazioni in domini diversi.

Lo sviluppo concettuale di un’ontologia è una questione complessa già in un solo dominio. Una possibile soluzione di partenza è accordarsi entro una comunità, individuando le strutture e i termini che possano rappresentare le risorse.

Dietro alla semplicità dei Linked Data è presente una descrizione complessa dei dati con i quali si formano le triple, e tale complessità aumenta se l’obiettivo è quello di collegare i dati fra domini e set di dati differenti.

Principî

Il Web semantico, scaturito dalle idee di Tim Berners-Lee, arricchisce e ‘amplifica’ le originarie istanze democratiche del World Wide Web.

Berners-Lee ha anche progettato una struttura di dati per catturare ed esprimere la varietà di informazioni caricata sul Web, definita Linked Data.

I Linked Data rendono possibile esprimere l’informazione in semplici molecole – definite triple – che dichiarano una relazione fra due oggetti. Tale relazione è concepita per permettere ai sistemi di collegare ciò che è conosciuto al di là del linguaggio utilizzato, e di definire ciò cui si riferiscono le triple.

A differenza dei tradizionali sistemi di gestione dei dati, che possono soltanto registrare informazioni per le quali sono stati programmati – come i campi di un modulo predefinito – i Linked Data possono ampliare la loro azione fino ad includere concetti non preordinati nei quali ci si può imbattere.

In quanto nuova tecnologia del Web semantico, i Linked Data sono sistemi sviluppati dal basso, implementati tramite una varietà di soggetti presenti sul Web che oggi conosciamo.

Nonostante la diversità dei rispettivi percorsi, viene prodotta una cornice concettuale condivisa sia dalle istituzioni che dalle comunità indipendenti, partendo da visioni e obiettivi comuni.

Il sistema è creato in modo che praticamente chiunque possa produrre Linked Data che popolano la rete del Web semantico nella forma di triple – la struttura semantica di base – adottando le quattro regole stabilite da Tim Berners-Lee e condividendo le pratiche e i protocolli raccomandati dal W3C.

L’arricchimento semantico e le ontologie supportano l’inferenza automatica tramite agenti software come i motori di ricerca.

Il meccanismo dei Linked Data è la tecnologia che permette di creare, strutturare e supportare il Web semantico attraverso URI, XML, RDF, OWL, SKOS, SPARQL e altri standard che sono tutti liberi, nati e sviluppati in modo collaborativo, e che permettono essenzialmente la granularità, l’integrazione e la condivisione.

I Linked Open Data (LOD) sono Linked Data rilasciati con una licenza aperta, che supporta la loro riusabilità e interoperabilità, cioè la capacità di scambiare informazioni a vari livelli:

– semantico: cioè per collegare significati, vale a dire i diversi modi in cui le comunità si riferiscono al medesimo concetto o a concetti simili;

– tecnologico e tecnico: permettendo ai sistemi che utilizziamo di gestire, descrivere e processare i dati affinché interagiscano senza barriere;

– umano: permettendo a tutte le comunità che utilizzano dati di scambiare competenze e conoscenze liberamente e in modo indipendente attraverso specifiche e modelli di dati condivisi;

– organizzativo: sostenendo la cooperazione fra comunità che gestiscono i dati, al fine di assicurare la qualità, la provenienza, l’affidabilità, la compatibilità delle licenze e l’usabilità dei dati.

I LOD non sono legati ad una specifica lingua o cultura, e devono essere sviluppati senza limiti geopolitici, commerciali o di qualsiasi altro tipo. Il Web semantico creato tramite i LOD è una serie di infiniti collegamenti senza schematismi predefiniti.

Il Web semantico ricava la sua ricchezza dall’essere un sistema aperto e decentralizzato, nel quale significati diversi possono coesistere, senza che ci sia una convergenza a priori, o uno schema universalmente condiviso di significato.

Il Web semantico è parte di una tendenza generale a livello mondiale verso la condivisione dell’informazione, che prevede la rinuncia alla prospettiva proprietaria al fine di creare uno spazio comune. In tale spazio, ogni risorsa culturale può circolare in formato digitale o nella rappresentazione della forma originale, materiale, in quanto per natura completamente riutilizzabile e condivisibile.

Gli obiettivi di collegamento, condivisione, riutilizzo, cooperazione non sono nuovi per le istituzioni culturali e i loro stakeholders, ma fanno ora parte di un panorama informativo in crescita.

Aprire, collegare e condividere i dati è un modo molto efficace di diffondere conoscenza e rendere democratico il suo uso.

L’utopia più democratica del Web semantico sarebbe quindi quella per cui ogni essere umano, di qualsiasi parte del mondo, di qualunque livello sociale o educativo, possa avere accesso alle risorse seguendo i percorsi ramificati dei Linked Open Data fino a raggiungere l’informazione bibliografica desiderata, o un’immagine digitale, o un progetto digitalizzato dal titolare del copyright, ecc., o perfino informazioni delle quali non era prima a conoscenza.

Miniere di significato

Quasi tutto sul Web è stato caricato con un obiettivo, il che significa che esprime un significato. E perfino ciò che è stato caricato sul Web in seguito ad un evento generato da una macchina è lì perché è stato associato a un qualche significato.

Le intenzioni del soggetto creatore possono essere diverse dal significato attribuito a qualcosa da chiunque si imbatta in tale significato sul Web. Le ‘miniere di significato’ sono letteralmente inesauribili, perché non c’è differenza funzionale in un collegamento stretto e circolare fra scoprire un significato e crearlo.

Il Web semantico costituisce già una parte essenziale dell’ambiente naturale della conoscenza digitale, ma a causa del basso livello di rappresentazione dei dati è necessaria una stratificazione di software fra i dati e l’utente finale.

Mentre assistiamo felicemente e auspichiamo lo sviluppo di ulteriori standard e protocolli che connettano l’informazione distribuita, allo stesso tempo crediamo che il Web semantico e i LOD forniscano benefici specifici per l’informazione inglobata nelle pagine web, e per rappresentare e collegare dati complessi e su vasta scala, in quanto parte dell’infrastruttura del Web aperto.

Le tecnologie aiuteranno a risolvere alcuni fattori critici del Web semantico come il linguaggio di interrogazione dei sistemi RDF, SPARQL.

Le difficoltà maggiori che l’utente incontra nel creare ricerche in SPARQL e nell’attivarle in un sistema – vale a dire conoscere sia il linguaggio che le ontologie da utilizzare nella ricerca – possono essere superate con strumenti avanzati, in grado di mettere in relazione le ricerche dell’utente con i risultati prodotti da diverse fonti di dati.

Molti strumenti indipendenti che hanno l’obiettivo di esplorare, fare ricerche e attribuire un significato ai dati del Web semantico sono già stati sviluppati, come la ricerca e la visualizzazione interattiva di dati in domini sperimentali. Ma dobbiamo ancora sviluppare strumenti amichevoli e usabili che permettano agli utenti di utilizzare tali dati, in modo comparabile ai browser che hanno contribuito al successo del World Wide Web.

È auspicabile raggiungere un accordo reciproco di livello internazionale fra le comunità per produrre e diffondere la conoscenza, almeno all’interno dei rispettivi domini.

Oltre a un accordo intellettuale, è necessario rispettare e considerare le comunità che beneficeranno di tale conoscenza, cercando di adottare soluzioni che possano essere utili alle persone.

In tutto ciò, i dati e la conoscenza come ‘beni comuni’ sembrano essere inseparabili dall’accesso aperto, dalla scienza aperta e dall’open source.

Qualità e struttura dei dati

Grazie al formalismo e alla solidità degli standard e delle tecnologie che lo supportano, il Web semantico ha il potenziale per essere adottato come la soluzione principale per la gestione e la diffusione dei dati in molti domini e per essere utilizzato per quasi ogni tipo di dati.

La qualità del Web semantico è un argomento emergente, a cui è necessario dare un’alta priorità nella ricerca e nello sviluppo futuri.

Pubblicare i dati sul Web semantico dovrebbe anche implicare che essi rispondano a requisiti di qualità di base: semplicemente trasformare ogni informazione locale in RDF non produce necessariamente dati riutilizzabili in concreto.

La qualità dei dati ha molte dimensioni e finora la terminologia per discutere la qualità – e la metodologia per analizzarla – è definita in modo limitato.

Da una parte abbiamo bisogno di metriche e metodi per valutare e migliorare la qualità; dall’altra abbiamo bisogno di aumentare la consapevolezza sulla qualità dei dati del Web semantico.

Un’importante lezione appresa durante il primo decennio del Web semantico è che il significato universale, il collegamento e il riuso dei dati dipende in larga parte da un nucleo di concetti e di modelli riconosciuti e condivisi.

Sono emerse numerose risorse autorevoli del Web semantico che ci hanno fornito identificatori affidabili di concetti in molti domini. Tuttavia, la disponibilità attuale di tali risorse è assolutamente insufficiente e non ha la qualità necessaria in termini di affidabilità e copertura richieste in quanto ossatura del Web semantico.

I sistemi semantici sul Web sono carichi di tensione fondamentale fra il fornire una struttura sufficiente affinché le nostre macchine possano creare connessioni fra i frammenti, e fornire una struttura non così inviolabile, da prevenire la creazione o la scoperta di nuovi significati e connessioni.

Per ogni insieme coerente di informazioni, il livello ideale di granularità dovrebbe essere quello che massimizza le possibilità di riusabilità in contesti diversi e di esplorazione dei nodi informativi lungo percorsi diversificati. Questo accadrà senza compromettere la leggibilità di ogni insieme di informazioni perfino come documenti unitari.

Trovare un tale equilibrio non è mai facile e al momento è impossibile pensare che una macchina o una regola astratta possano prendere decisioni in tal senso senza intervento umano.

Attenzione ai rischi

Se il Web semantico significa aumentare la qualità, la standardizzazione e l’interoperabilità dei metadati sul Web, aggiungerli ai documenti primari per facilitare la loro ricerca, valutazione ed uso, allora può essere un progetto realistico e utile al quale bibliotecari, archivisti, curatori e studiosi possono contribuire in modo importante, grazie alle loro capacità e valori.

Se il Web semantico significa sostituire i documenti primari con dati granulari che possono essere combinati di tanto in tanto, allora sarebbe un progetto inutile, perché è impossibile immaginare un sistema complessivo di produzione, archiviazione, comunicazione, acquisizione e utilizzo di conoscenza che lasci da parte quel fondamentale elemento dell’organizzazione e della gestione dell’informazione rappresentato dal documento.

Se il Web semantico significa delegare completamente (o, in ogni caso, prevalentemente) agli algoritmi e a meccanismi automatici l’aggregazione di dati in modo da ottenere strutture informative più estese rispetto alle originali e inferire valutazioni e decisioni da tali nuove connessioni, allora può essere un progetto pericoloso.

Non solo i documenti, ma anche i dati possono non essere oggettivi e neutrali, e la scelta, l’organizzazione, la contestualizzazione, l’interpretazione e la valutazione sono attività nelle quali le macchine possono essere utili ma non potranno mai sostituirsi agli esseri umani.

La responsabilità umana sull’interpretazione di documenti e dati era necessaria prima del Web e del Web semantico e sarà così anche in futuro.

I documenti e i dati non sono quasi mai (per non dire, mai) oggettivi e neutrali. La comunicazione è sempre orientata: perfino un segnale stradale è orientato, rivolto a un pubblico specifico, e portatore di significato per un gruppo limitato di persone.

Il processo di analisi delle risorse dovrebbe portare a una nuova sintesi nella quale questi dati estremamente granulari non perdono significato, né la relazione con gli oggetti e i loro contesti originari.

Tale necessità di contestualizzazione è molto sentita, ma diverse comunità professionali non risponderebbero a una richiesta di aggregare dati descritti in modo troppo diverso per ciascuna disciplina. Un settore specifico può aver bisogno di sviluppare specifici set di informazione per rappresentare al meglio una risorsa. Tali set possono essere combinati in modo diverso e interpretati quando utilizzati in altri settori della conoscenza.

In ogni caso, l’architettura del Web semantico implica sempre una scelta organizzativa di dati grezzi e, pertanto, una scelta informativa specifica, anche se neutrale o agnostica dal punto di vista della relazione con un dominio.

Se, da una parte, il paradigma dei LOD offre la base alle comunità per condividere il loro patrimonio culturale, dall’altra ogni singola comunità coinvolta deve avere un ruolo nel processo, valorizzando la propria autorevolezza, in modo da raggiungere una convergenza che includa la ricchezza dei dati in relazione a ogni contesto identificabile, definito e verificabile.

A causa della consapevolezza dei rischi posti dalla produzione e pubblicazione di conoscenza da parte di chiunque, il progetto del Web semantico è stato dotato dalle sue origini di alcuni criteri di auto-protezione e controllo, che vengono attualmente sperimentati e investigati.

I tre livelli più alti dell’architettura del Web semantico – indicati da Berners-Lee – sono quelli della logica unificante, della prova e della fiducia, che completerebbero l’architettura del Web semantico con strutture essenziali per attribuire ai dati e di conseguenza alla conoscenza diffusa la necessaria affidabilità, certezza e precisione/esattezza.

All’apice, la ricerca di credibilità e autorevolezza delle fonti di produzione e dei dati caricati sul Web formano il livello di fiducia, che confermerà le operazioni delle macchine condotte tramite fonti verificate e affidabili, grazie anche alla crittografia e agli strumenti di firma digitale.

La libertà della Rete permette a tutti di pubblicare qualunque cosa. Ciò può generare problemi al Web semantico, dove le macchine, che non hanno la capacità di discernere fra vero e falso, necessitano che venga attivato il livello di fiducia per essere in grado di lavorare sui dati disponibili.

Infine, fra i rischi, deve essere indicata la fragilità di un sistema basato sostanzialmente sulla persistenza e immutabilità degli identificatori (ad esempio, URI). Tali identificatori non sono di per sé persistenti. Essi persistono soltanto perché le persone li gestiscono assicurando persistenza e unicità per il tempo in cui riescono a farlo.

Sviluppi aperti

Il futuro del Web semantico è carico di varie aspettative. È promettente, grazie all’attività di molte organizzazioni che già possiedono grandi set di dati e decidono di condividerli in modo concreto e di avviare nuovi progetti di digitalizzazione delle loro risorse.

L’intera comunità della conoscenza permette la diffusione delle medesime risorse attraverso il web, arricchendole nello stesso tempo con nuovi dati ed esplorando il loro significato attraverso percorsi e relazioni inaspettati.

Diverse organizzazioni commerciali, tra le quali alcuni editori, hanno iniziato a credere nel Web semantico come una prospettiva che avrà effetti sul loro sviluppo futuro, sui modelli di business e sugli affari. Pertanto, sono alla ricerca di collaborazioni con le istituzioni culturali, le università, i centri di ricerca e l’intera comunità del web, per prepararsi al futuro.

Di fatto, negli ultimi tempi la maggior parte dei sistemi e delle attività di nuova generazione sono sempre più aperti di default.

In this respect, the debate grows around the diffusion of Open Access, LOD, Open Science and governmental as well as commercial Big Data.”

Da questo punto di vista, è vivo il dibattito sulla diffusione dell’accesso aperto, dei LOD, della scienza aperta e dei Big Data commerciali e istituzionali. Per la ricerca scientifica e industriale è necessario accogliere questo mondo sempre più complesso e aperto, che viene veicolato da Internet e dal Web.

Per tale ragione, ci si può attendere che vi sia più attenzione a come le associazioni internazionali di biblioteche, archivi e musei proporranno ai propri membri l’adozione dei principi del Web semantico, come ad esempio per le potenzialità dei sistemi di gestione delle risorse e dei sistemi informativi e in altre applicazioni pratiche per le istituzioni culturali o anche tramite la partecipazione a iniziative globali.

Da ricordare

I dati hanno un valore direttamente proporzionale al loro uso e ri-uso.

Possiamo evolverci dall’essere sul Web all’essere del Web, e l’intero Web può essere al nostro servizio.

Abbiamo bisogno di un Web semantico perché viviamo in un mondo semantico.

Il significato non esiste nelle cose in sé, ma è generato o ricavato dalle relazioni e dalle interazioni fra i dati.

Non saremo mai d’accordo su ciò che significano le cose sul Web, o fuori dal Web. E questo è un bene.