AIB. CNUR. Convegno: The Digital Library. Metadata e metatag / R. Ridi

[AIB]
AIB. Commissione nazionale università e ricerca

AIB-WEB | Le Commissioni | Commissione università ricerca

The Digital Library
Challenges and solutions for the new millenium
Bologna, June 17-18, 1999

Standards and Protocols

Metadata e metatag: l'indicizzatore a metà strada fra l'autore e il lettore [*]/ Riccardo Ridi [**]

"Metadata" (o "metadati", a seconda dei gusti): niente di nuovo sotto il sole, ovvero "vino vecchio in botti nuove" o "catalogare sotto un altro nome", come a più riprese hanno fatto notare in pubblicazioni, corsi e convegni numerosi specialisti dell'indicizzazione e della ricerca bibliografica,[1] talvolta rivolgendosi a platee orientate a credere che si trattasse piuttosto di qualche diavoleria informatica nuova di zecca.

I metadata sono "dati sui dati", ovvero informazioni, generalmente strutturate e scandite in campi, relative a documenti primari "a testo pieno" (full-text), che ne permettono una più efficiente organizzazione e recupero. La loro funzione è permettere o comunque facilitare il raggiungimento dei seguenti obiettivi:[2]

[1] Searching, ovvero individuare l'esistenza di un documento.
[2] Location, ovvero rintracciare una particolare manifestazione del documento.
[3] Selection, ovvero analizzare, valutare e filtrare una serie di documenti.
[4] Semantic interoperability, ovvero permettere la ricerca in ambiti disciplinari diversi grazie a una serie di equivalenze fra descrittori.
[5] Resource management, ovvero gestire le raccolte di documenti grazie all'intermediazione di banche dati e cataloghi.
[6] Availability, ovvero ottenere informazioni sulla effettiva disponibilità del documento.

Come appare evidente non si tratta di niente di più o di diverso da quanto, da tempo immemorabile, viene garantito, ad esempio, dalle canoniche schede catalografiche bibliotecarie, veri e propri "metadata" rispetto ai "data" costituiti dai libri e dai periodici conservati sugli scaffali delle biblioteche, cui tali schede si riferiscono. Possiamo quindi dare per acquisito che i metadata non si presentano esclusivamente in formato elettronico e non si riferiscono esclusivamente a documenti primari elettronici.

Cataloghi, bibliografie e repertori bibliografici vari, sia in formato cartaceo che elettronico, non sono altro che insiemi organizzati di metadata costruiti e mantenuti da professionisti dell'informazione per individuare, selezionare, localizzare e permettere il recupero di documenti primari più ingombranti e meno maneggevoli delle loro "immagini" o "surrogati" sintetici, ovvero delle schede, dei record, degli item bibliografici.[3] Mettere in ordine alfabetico di autore mille piccoli record elettronici (o anche mille schede cartacee) scanditi in campi riempiti con valori normalizzati è infinitamente più semplice e meno faticoso che effettuare la stessa operazione con mille voluminosi libri o mille articoli fisicamente legati ai periodici che li contengono; per tacere dei documenti prodotti da più autori, magari indicati di volta in volta con forme e in modi diversi.

Il lavoro necessario per estrarre i metadata dai data è ricompensato dalla loro maggiore manipolabilità rispetto ai data originari. L'autore produce i data; l'indicizzatore ne estrae i metadata e li organizza; il lettore interroga i metadata e individua i data che fanno per lui ("a ogni lettore il suo libro") più velocemente ed efficacemente di quanto riuscirebbe a fare manipolando direttamente i data ("salva il tempo del lettore"); il costo degli indicizzatori è sostenuto in parte dai lettori e in parte dalla società nel suo complesso.

Nell'ambito dei documenti primari elettronici, e specialmente di quelli disponibili in rete, si è inizialmente trascurata l'importanza dei metadata. Essi sono invece ancora più indispensabili nell'invisibile ciberspazio che nelle tradizionali biblioteche, dove un utente sciaguratamente privato del catalogo potrebbe comunque sempre scandagliare "a vista" gli scaffali.[4] Se, nella sostanza, il controllo bibliografico, catalografico e più genericamente repertoriale del World Wide Web è, da molti punti di vista, nettamente inferiore a quello del docuverso cartaceo, è inversamente vero che il termine "metadata" è attualmente utilizzato in letteratura quasi esclusivamente con riferimento al contesto dell'informazione elettronica in rete e anch'io oggi resterò all'interno di tale ambito.[5]

Le risorse informative disponibili in Internet sono della natura più varia: testi, immagini statiche e in movimento, suoni, software, ecc. La maggior parte degli strumenti per la ricerca di informazioni sono invece di tipo testuale, anche se cominciano a svilupparsi "motori di ricerca" basati su "campionamenti" di immagini o suoni da rintracciare senza alcuna intermediazione verbale. I metadata di cui ci occuperemo saranno quindi, alla fin fine, delle stringhe di testo strutturate secondo un determinato schema e associate in qualche modo ai documenti più o meno multimediali disponibili in rete.

Molti dei progetti relativi ai metadata attualmente in corso sono condotti da persone provenienti da ambienti informatici o comunque non bibliotecari, preoccupate soprattutto di escogitare il metodo per associare i data ai relativi metadata e di stabilire lo schema da seguire nella loro creazione. Solo laddove l'influenza bibliotecaria si fa sentire maggiormente (ad esempio nel progetto Dublin Core[6]) emerge una maggiore attenzione anche per gli aspetti del controllo terminologico delle stringhe da utilizzare. Semplificando, gli informatici si preoccupano di preparare un elenco di campi, di dove metterli e di come riconoscerli, i bibliotecari anche di come riempirli.

Il "Dublin Core Metadata" è un progetto su cui vengono riposte molte speranze negli ambienti bibliotecari (forse troppe, si sussurra in altri ambienti), sviluppato a partire da un workshop tenutosi nel 1995 presso la sede di OCLC a Dublin, nell'Ohio. L'obiettivo è la definizione di uno standard che permetta la descrizione di ogni risorsa disponibile in rete da parte degli autori e degli editori stessi, in modo da garantire al tempo stesso un livello minimo di autocatalogazione per ciascun documento e la premessa necessaria per eventuali successive indicizzazioni più sofisticate da parte di automi o di catalogatori umani professionali.

Questo è il set di elementi descrittivi minimi (il core, ovvero il nocciolo) individuati, nella traduzione italiana di Antonio Scolari <https://www.aib.it/aib/lis/std/t9503.htm>, tratta dalla sezione di AIB-WEB dedicata agli standard tecnici di interesse bibliotecario, con link al testo originale e ad altri documenti inerenti il progetto:

[1] titolo;
[2] autore o creatore;
[3] soggetto e parole chiave;
[4] descrizione (descrizione testuale del contenuto della risorsa, incluso un eventuale abstract);
[5] editore (l'entità responsabile della diffusione della risorsa nella sua forma presente);
[6] altro responsabile (persona o ente che ha contribuito intellettualmente);
[7] data (data in cui la risorsa à stata resa disponibile, nella forma AAAA-MM-GG);
[8] tipo di risorsa (la categoria cui appartiene la risorsa, secondo liste in via di sviluppo);
[9] formato (il formato dei dati, usato per identificare il software e hardware necessari per utilizzare la risorsa; è in corso di sviluppo una lista di formati);
[10] identificatore della risorsa (stringa di caratteri o numero univoci di identificazione della risorsa: ad es. l'URL o l'URN[7] - quando sarà sviluppato);
[11] fonte (una stringa o un numero univoco di identificazione della fonte da cui la risorsa è derivata);
[12] lingua (lingua del contenuto della risorsa nella forma standard ANSI NISO Z39.53);
[13] relazione (esprime la relazione della risorsa con altre risorse);
[14] copertura (caratteristiche spaziali e/o temporali della risorsa);
[15] diritti (un link a una notizia di copyright o di diritti d'autore della risorsa).

Per molti campi sono stati sviluppati o sono in via di sviluppo liste di termini controllati fra cui poter scegliere quello da includere. Laddove liste controllate erano già disponibili nella comunità bibliotecaria (ad esempio per il soggetto) o costituivano già standard accettati a livello internazionale (ad esempio per la lingua), si deve attingere da esse, con la possibilità di indicare lo schema (scheme, ovvero la lista controllata) prescelta, permettendo ricerche particolarmente mirate (ad esempio utilizzando la Classificazione Decimale Dewey o i soggetti della Library of Congress). Quello della ricerca resta tuttavia lo scoglio principale su cui rischiano di infrangersi gran parte dei progetti relativi ai metadata.

Molti di essi (ad esempio quelli del Dublin Core) possono essere inclusi nello stesso file HTML della risorsa catalogata stessa, nella parte HEAD del file, invisibile ai browser ma utilizzata da molti degli indici web per parola (comunemente chiamati "motori di ricerca"), incapsulati in alcuni specifici tag (marcatori) della famiglia META, già utilizzati dai più avvertiti autori di pagine web per fornire informazioni sul contenuto del documento stesso e permetterne un maggiore recupero.

I motori di ricerca - però - benchè utilizzabili gratuitamente, non sono avulsi da cogenti logiche commerciali e pubblicitarie, e più che alla raffinatezza di analisi dei bibliotecari badano alla diffusione più o meno massiccia degli elementi da prendere in considerazione nella realtà del World Wide Web. Sarà che i metadata del Dublin Core o di altri analoghi progetti sono poco utilizzati dagli autori di pagine web perchè non vengono sfruttati dai principali motori di ricerca e quindi si rivelano - almeno per ora - poco utili, oppure sarà che - all'inverso - i motori di ricerca non sanno che farsene di elementi identificativi ancora rarissimamente utilizzati, fatto sta che scarso uso da parte degli autori e scarsa considerazione da parte dei motori coesistono e si rinforzano a vicenda.

I motori invece prendono in considerazione una serie di "metatag" molto meno sofisticati ma ben più diffusi, fra cui i seguenti:[8]

AUTHOR = Indica l'autore della pagina, in genere identificato con l'"htmlizzatore" piuttosto che con chi detiene la paternità intellettuale del suo contenuto.
COPYRIGHT = Dichiarazione esplicita e sintetica sui diritti relativi al documento, senza link a formulazioni più articolate.
GENERATOR = Indica il software utilizzato per creare il file HTML. Molti di tali software inseriscono automaticamente il proprio nome nel file stesso senza neppure "avvertire" l'utilizzatore. Evidenti le implicazioni pubblicitarie.
ROBOT = Indica ai software di ricerca dei motori (chiamati "robot" o "spider" ) se e come tenere conto della pagina. Non tutti i robot sono però rispettosi delle indicazioni ricevute.
TITLE = Il metatag più importante. Non dovrebbe mai mancare in una pagina ben costruita e dovrebbe includere alcune parole particolarmente significative per individuare la risorsa a cui si riferisce. E' il metatag più utilizzato e più "pesante" per i motori di ricerca, che - fra l'altro - lo visualizzano in testa alle "schedine" che si ottengono effettuando una interrogazione. Inoltre il TITLE, che potrebbe essere definito come qualcosa a metà strada fra il soggetto e il titolo uniforme, appare anche nei bookmark e in testa alla finestra del browser. Alcuni motori[9], infine, permettono di limitare la ricerca alle sole parole contenute in questo metatag.
DESCRIPTION = Breve descrizione del contenuto della pagina, ovvero un mini-abstract che molti motori visualizzano nel corpo delle loro "schedine". In caso di assenza di questo metatag il motore si arrangia da solo, visualizzando in genere le prime parole presenti nella parte visibile al browser della pagina (BODY), con risultati talvolta efficaci ma più spesso inutilizzabili.
KEYWORD = Ulteriori parole chiave (oltre a quelle contenute in TITLE e DESCRIPTION) ritenute particolarmente significative dall'autore della pagina per caratterizzarne il contenuto.

Quando si effettua una ricerca su decine e decine di milioni di documenti con tecniche di interrogazione non particolarmente sofisticate come quelle in dotazione ai motori di ricerca web, ci si può facilmente aspettare di ottenere una quantità esorbitante di risultati, non sempre facilmente "raffinabili" con ulteriori interrogazioni. Diventa allora di importanza capitale il criterio utilizzato dal motore per effettuare l'ordinamento (ranking) dei risultati. Il criterio più diffuso è quello che i motori stessi amano chiamare "ordinamento in base alla rilevanza" (relevance ranking), e che in realtà cela un complesso e mutevole[10] mix (tenuto rigorosamente segreto per motivi commerciali[11]) di criteri puramente quantitativi e statistici, fra cui i seguenti:[12]

[1] Frequenza = numero di occorrenze dei termini utilizzati per la ricerca all'interno della singola pagina recuperata.
[2] Densità = rapporto fra il numero di occorrenze dei termini all'interno della pagina e il totale delle parole contenute nella pagina.
[3] Rarità = rapporto inverso fra il numero di occorrenze dei termini utilizzati per la ricerca all'interno del database del motore e il totale delle parole contenute nel database stesso. Alcuni motori dispongono anche di una lista di stopwords che vengono ignorate.
[4] Compresenza = presenza, nella pagina, di più d'uno dei termini richiesti o addirittura di tutti. In questo modo l'operatore booleano AND contribuisce, in una certa misura, al risultato finale anche se nella ricerca iniziale, come spesso avviene, è impostato di default l'OR.[13]
[5] Prossimità = presenza, nella pagina, di più d'uno dei termini richiesti - o addirittura di tutti - nella medesima frase o comunque vicini fra loro.[14]
[6] Priorità = ordine in cui sono stati immessi i termini nel form di ricerca.
[7] Posizione = presenza dei termini in particolari zone della pagina. Nella sezione visibile BODY vengono tipicamente "premiate" le prime parole e quelle contenute nei tag H e HREF (ovvero nei vari titoletti (heading) e nei link). La sezione nascosta HEAD è complessivamente "premiata" più di quella BODY. In particolare vengono considerati particolarmente "pesanti" il TITLE e, in subordine, KEYWORD e DESCRIPTION.
[8] Aggiornamento = a parità di requisiti, alcuni motori privilegiano le pagine più recenti
[9] Popolarità = numero dei link "in entrata" provenienti da altre pagine contenute nel database del motore e numero delle selezioni della pagina effettuate dagli utenti a partire dalle schermate di risposta del motore. Si tratta di un criterio di recente introduzione e ancora poco utilizzato.
[10] Tariffazione = Altavista ha recentemente annunciato che sarà possibile, pagando, garantire una posizione di rilievo alle proprie pagine nella schermata di risposta. C'è chi sospetta che tale criterio sia già utilizzato da vari motori senza dichiarazioni esplicite, almeno per quanto riguarda pagine relative a prodotti propri o di aziende collegate.

Appare evidente, in questo contesto, l'importanza, ai fini del recupero dell'informazione disponibile in rete, della presenza di appropriati metatag nelle pagine web, che contribuirebbero in maniera determinante a ridurre quell'information overload di cui molti si lamentano. Se però i progetti di metadata ben strutturati si disperdono in mille rivoli in concorrenza fra loro, sarà improbabile che uno di essi prevalga come standard diffuso e venga adottato da tutti i principali motori di ricerca. Fino ad allora investire tempo nella creazione di metadata articolati e rigorosi costituisce, da parte degli autori, più un atto di fede che un investimento sicuramente redditizio.

Per fortuna non tutti i progetti sono alternativi fra loro. Anzi, la peculiare natura dei metadata li predispone a incastrarsi fra loro in autoreferenziali e vertiginose mise en abîme. Ad esempio, due importanti progetti che non dovrebbero entrare in contrasto col Dublin Core sono quelli relativi al Resource Description Framework (RDF)[15] e al Warwick Framework.[16]

Il Resource Description Framework (RDF), a cui sta lavorando il principale organismo di autogoverno della Rete, ovvero il World Wide Web Consortium (W3C), stabilirà - a livello informatico - il modo di descrivere qualsiasi tipo di documento disponibile in Internet mediante XML (un sottoinsieme di SGML[17]), in modo da poter veicolare qualsiasi tipo di standard descrittivo delle risorse. Il Warwick Framework[18] è invece una estensione del Dublin Core che consente di incorniciare al suo interno tanto un set di metadata ridotto come quello del Dublin Core quanto set più complessi predisposti per ambiti più specialistici. [19]

Potremmo quindi avere una situazione di questo tipo:

Meta-meta-meta-meta-livello = RDF (METADATA)
Meta-meta-meta-livello = Warwick Framework (METADATA)
Meta-meta-livello = Dublin Core (METADATA)
Meta-livello = Particolare schema inserito nel DC, ad esempio la DDC (METADATA)
Livello primario = Documento full-text primario (DATA)

Un ulteriore problema, indipendente dal formato adottato, peculiare dei metadata relativi a fonti disponibili in rete è quello della individuazione del soggetto preposto alla loro creazione, che in ambiente cartaceo o anche di supporti elettronici portatili è tipicamente un professionista che svolge un ruolo terzo fra autore e lettore, fungendo da intermediario fra docuverso e utenti, ottimizzando così l'incontro fra domanda e offerta informativa.

Con l'avvento di Internet non è più detto che l'autore produca i data, l'indicizzatore ne estragga i metadata e li organizzi in appositi "contenitori" (come i cataloghi e le bibliografie) e che infine il lettore interroghi i metadata raccolti nei "contenitori" per individuare e poi raggiungere i data più appropriati al suo bisogno informativo.

In ambiente di rete sempre più spesso data e metadata tendono a fondersi in file che contengono entrambi, facendo dell'autore dei documenti (e molto più raramente - nonostante i buoni propositi - del loro editore) un vero e proprio pre-indicizzatore degli stessi, in uno scenario in cui le ingenti masse di informazioni che quotidianamente approdano sul Web, abbinate alla crescente scarsità di risorse economiche a disposizione di biblioteche e centri di documentazione, aumentano considerevolmente le probabilità che tale pre-indicizzazione "leggera" (light)[20] resti a lungo o per sempre l'unica disponibile.

Già in ambiente cartaceo gli editori più accorti da tempo introducono nel paratesto dei loro libri il CIP (Cataloguing in Publication), ovvero una schedina bibliografica che, con qualche verifica e accomodamento, può essere trascritta dagli indicizzatori nei rispettivi cataloghi. Ma la differenza, in rete, è che non c'è più bisogno di trascrivere i metadata in un "contenitore", perchè i motori li rintracciano già dove si trovano, cioè nel "paratesto" del documento primario.

Il ruolo dell'indicizzatore rischia così di svanire progressivamente, man mano che gli autori si "disintermediano" ? La tipica risposta dei diretti interessati, orgogliosi delle proprie competenze tecniche e dei preziosi strumenti di lavoro creati dalla comunità professionale è "no, perchè gli autori non sanno indicizzare bene, non conoscono nè i principi generali di base, nè le regole più adatte da adottare, nè tutti quei repertori, thesauri, soggettari e authority files che noi abbiamo costruito negli anni e che migliorano la qualità dei nostri metadata".

L'argomentazione non fa una piega, e infatti i metadata disponibili in rete, sotto gli occhi di tutti, sono spesso di una qualità semplicemente imbarazzante, anche solo restando al basilare TITLE. Come supponiamo che se la caverebbero con i 15 campi del Dublin Core, anche in casi banali, senza affrontare sofisticati - e tuttavia reali - problemi di polisemia, sinonimia, ambiguità e intestazioni uniformi, le stesse persone capaci di usare come TITLE termini semanticamente insignificanti come "welcome", "homepage" o "file13" ? Per non parlare degli sciatti "no title" che infestano le schermate di risposta dei motori di ricerca.

Ma c'è qualcosa di ancora più preoccupante, su cui si pone in genere minore attenzione. Potrebbero esserci (e ci sono) aziende che inseriscono nei metatag delle proprie pagine web il nome dei diretti concorrenti più pubblicizzati per dirottare sul proprio sito una parte dei loro clienti. Potrebbero esserci (e ci sono) altre aziende che ci inseriscono invece nomi di prodotti che non trattano, ma che analisi di mercato hanno rivelato essere spesso cercati dagli stessi clienti che si spera acquistino i loro veri prodotti. Potrebbero esserci (e ci sono) aziende, enti, associazioni e singole persone che pur di aumentare a qualsiasi costo il numero dei visitatori del proprio sito, inseriscono nello HEAD e nel BODY parole tanto popolari quanto non attinenti al sito stesso.[21]

Potrei continuare a lungo, ma credo che ci siamo capiti. Oltre alla dimensione tecnica dell'indicizzazione ne esiste anche una etica, deontologica. La terzietà dell'indicizzatore rispetto ad autore e lettore non è solo una ottimizzazione per consentirgli di specializzarsi e di salvare il tempo del lettore, ma costituisce anche una garanzia che chi predispone i metadata abbia interesse solo a farlo nel modo tecnicamente migliore e non sia direttamente avvantaggiato - economicamente o da altri punti di vista - dal recupero di certi data piuttosto che di altri.

Così come in un processo equo il giudice deve essere imparziale e "terzo" fra la difesa e l'accusa, così, per una indicizzazione "equa" l'indicizzatore dovrebbe essere "terzo" fra autore e lettore e non coincidere con una di tali figure. Altrimenti si rischia di ascoltare una arringa convinti che si tratti di una sentenza.[22]

Ciò non significa che la "auto-indicizzazione" sia una patologia da eliminare. Anzi, di fronte alla quantità crescente di documentazione prodotta dall'umanità, si tratta di una strada che siamo obbligati a percorrere, ma consapevoli che si tratta di un male minore rispetto alla "non-indicizzazione" e che il do-it-yourself diffuso va comunque integrato e coordinato da interventi mirati dei professionisti.[23]

Fra la proliferazione probabilmente eccessiva dei progetti di metadata (molti dei quali ancora in via sviluppo e in concorrenza fra loro), le resistenze da parte dei motori di ricerca all'adozione dei metadata più strutturati e le difficoltà tecniche e deontologiche legate alla auto-indicizzazione, il rischio è che la massiccia elaborazione teorica messa in campo non sfoci in tempi ragionevoli in risultati concreti apprezzabili.

Ecco che allora una soluzione per uscire dall'impasse potrebbe essere quella, che sta cominciando a diffondersi,[24] di abbassare il tiro e mirare a motori di ricerca locali, che coprono solo un Intranet aziendale oppure un pool di virtual reference desk del medesimo ambito, potenziandoli con la creazione di metadata più o meno raffinati a seconda delle esigenze locali, scelti fra i vari progetti esistenti e soprattutto supportati dal motore che si è adottato.[25] Il compito del collegamento fra le varie "isole" del Web andrebbe progressivamente lasciato, in questa ottica, a strumenti di tipo repertoriale o a motori meno raffinati. Molti dei problemi di autorevolezza dell'indicizzazione, di controllo terminologico e di scarso dialogo fra standard per la produzione di metadata e standard per la loro ricerca a cui ho accennato si ridurrebbero, soprattutto se gestiti dai bibliotecari e documentalisti locali.[26]

Il prezzo da pagare sarebbe modico, e consisterebbe nella rinuncia al ricorrente mito della ricerca unica, semplice, efficace ed esaustiva sull'intero docuverso, sia pure limitato alla sua parte web. Parrebbe ragionevole, ma - si sa - i sogni sono duri a morire.

NOTE

[*] Testo aggiornato e link controllati dall'autore il 29 Settembre 1999 per la pubblicazione in AIB-WEB.

[1] La documentazione disponibile, su carta e in rete, sul tema dei metadata è così vasta che è inutile in questa sede anche solo tentare di renderne conto esaustivamente. Mi limito qui a segnalare, per una introduzione al tema, la rassegna VELLUCCI [1998], il rigoroso DEMPSEY - HEERY [1998] e l'aggiornatissimo MILSTEAD- FELDMAN [1999], ricco di riferimenti ai progetti in corso, oltre ai contributi italiani TAMMARO [1997] e, nelle loro parti conclusive, GATTI [1997] e LUNATI [1997].

[2] Cfr. HEERY - POWELL - DAY [1997], citato in LARGE - TEDD - HARTLEY [1999], p. 137. Esula dagli obiettivi di questa relazione, centrata sui problemi dell'indicizzazione e del recupero dell'informazione, affrontare la pur notevole rilevanza dei metadata nell'ambito della preservazione dei documenti elettronici, su cui si possono vedere, fra gli altri, RIDI [1999], la relazione di Giovanni Bergamin in questo stesso convegno e gli atti del convegno internazionale "The future of memory", organizzato dalla Università degli studi della Repubblica di San Marino il 21-23 Maggio 1999, di prossima pubblicazione presso Brepols.

[3] "Metadata is data about data. It describes the attributes and contents of an original document or work. The DESIRE project <http://www.ukoln.ac.uk/metadata/desire/overview/rev_ti.htm> describes metadata as "data associated with objects which relieves their potential users of having to have full advance knowledge of their existence and characteristics." In other words, standard bibliographic information, summaries, indexing terms, and abstracts are all surrogates for the original material, hence metadata" MILSTEAD- FELDMAN [1999], P. 26.

[4] Cfr. MILSTEAD- FELDMAN [1999], p. 25.

[5] Per una approfondita panoramica sui progetti di metadata relativi a risorse web cfr. EFTHIMIADIS - CARLYLE [1997].

[6] Cfr. WEIBEL [1999].

[7] "Oltre all'URL, che in una biblioteca potrebbe essere paragonato alla collocazione, è in via di definizione un altro oggetto, l'URN (Uniform Resource Name). URN è il nome univoco che un'autorità centrale assegnerà a una risorsa Internet, esattamente come un ISBN viene assegnato a una pubblicazione. L'URN quindi è del tutto indipendente dalla collocazione della risorsa stessa. Un determinato file, ad esempio, avrà un solo URN che lo identifica, ma a quel solo URN potranno corrispondere più URL, uno per ciascuno dei server che lo contengono. Dato che l'URN (il corrispondente dell'ISBN) e l'URL (il corrispondente della collocazione) non comprendono la descrizione della risorsa stessa, sarà necessario definire anche un URC (Uniform Resource Characteristics), un oggetto costituito da un insieme di meta informazioni sulla risorsa e che potrebbe corrispondere alla descrizione bibliografica. Se una risorsa si sposta o cambia indirizzo, infine, potrebbe risultare molto comodo l'uso di un PURL, ovvero un Persistent URL che resti immutato anche quando una risorsa si sposta nel cyberspace, grazie alla "triangolazione" garantita da agenzie incaricate di tenere sotto controllo queste frequenti migrazioni, rendendole trasparenti per gli utenti. A parte gli URL, già utilizzati dai WWW e ormai universalmente accettati, e i PURL, al centro di alcune limitate sperimentazioni, questi oggetti per il momento sono solo teoria; in futuro però, grazie a un accurato lavoro di catalogazione, gli strumenti per la ricerca delle informazioni in rete forse potrebbero evolversi e operare con meccanismi molto più sofisticati di quelli esistenti oggi". METITIERI - RIDI [1998] p. 60-61.

[8] Cfr. VALENTE [1998] e TURNER - BRACKBILL [1998].

[9] Attualmente almeno Altavista, Hotbot, Infoseek, Northern Light e Lycos Pro Search. Cfr. HOCK [1999], p. 26-27.

[10] Mutevole sia fra motore e motore, sia nel corso della storia di ogni singolo motore, per venire sempre più incontro alle aspettative degli utenti, che tendono a valutare i motori più dall'ordinamento dei risultati che dalle dimensioni e dall'aggiornamento dei relativi database o dall'effettiva individuazione di pagine realmente rilevanti.

[11] Fa eccezione alla generale riservatezza dei gestori dei motori sulle rispettive modalità di funzionamento il recente motore Google <http://www.google.com>, nato a Stanford a fini di ricerca scientifica, su cui si può vedere il ben documentato BRIN - PAGE [1998]. Più in generale, per informazioni sui motori di ricerca, si può vedere PESENTI [1999], un ottimo repertorio commentato di guide, bollettini, gruppi di discussione, bibliografie e raccolte di link sugli strumenti per la ricerca in Internet.

[12] Cfr. COURTOIS - BERRY [1999], all'interno di un recentissimo numero di "Online" interamente dedicato ai motori di ricerca web, che dopo aver illustrato i criteri di ordinamento più diffusi e riportato le scarne dichiarazioni in proposito dei vari motori, tenta di dedurre ulteriori informazioni dall'accurata analisi di una serie di ricerche effettuate. Per una carrellata sui principali criteri utilizzati dai motori per il relevance ranking cfr. anche, nello stesso fascicolo, NOTESS [1999], che propone di prendere in considerazione, a tal fine, anche le stringhe contenute nell'URL. Sull'uso dei metatag da parte dei motori di ricerca cfr. anche RICHMOND [1999].

[13] Resta in genere salva la possibilità per gli utenti di forzare il motore alla ricerca in AND con l'uso di particolari operatori (spesso il "+").

[14] Alcuni motori sono dotati di liste (non liberamente consultabili) delle coppie o dei gruppi di termini che vengono più spesso utilizzati dagli utenti nella medesima interrogazione (talvolta però solo se uniti fra loro con le virgolette in una ricerca della "exact phrase"). Tale tipo di ricerca "esatta" viene in tali casi effettuata automaticamente anche se l'utente, ignaro della "memoria" del motore, sta utilizzando i termini "gemellati" slegati fra loro.

[15] Cfr. HEERY [1998].

[16] Cfr. LAGOZE [1996].

[17] "SGML è lo Standard Generalized Markup Language, un linguaggio di marcatura fortemente orientato alla struttura logica del documento, estremamente ricco ma non facile da imparare e da utilizzare. Si tratta di uno standard ISO (International Organization for Standardization) da cui sono derivati altri linguaggi; lo stesso HTML è una sua applicazione semplificata. I documenti in SGML possono essere visualizzati con particolari interpreti quali Panorama, oppure possono essere tradotti da un'applicazione residente sul server al momento della richiesta, "on the fly" (al volo), con l'invio al client di un file HTML visualizzabile con qualsiasi browser. SGML non definisce in concreto una particolare serie di marcatori, ma prescrive delle regole astratte per creare insiemi di marcatori adatti a esigenze specifiche. Ciascun insieme di tag e delle reciproche relazioni costituisce un DTD (Document Type Definition); fra questi, alcuni dei più utilizzati sono quelli definiti dalla Text Encoding Initiative (TEI) per il trattamento di testi a carattere umanistico. I documenti codificati in SGML sono esportabili in ogni ambiente, dato che sono costituiti da un semplice file di caratteri ASCII, e consentono di incorporare nel documento stesso numerose informazioni aggiuntive utili per effettuare ricerche. Manuali, bibliografie, software, archivi e progetti sono raggiungibili partendo dalla aggiornatissima SGML/XML Web page <http://www.sil.org/sgml/sgml.html> [...]
XML è l'Extensible Markup Language. Fra la incredibile ricchezza di possibilità offerte da SGML, difficili da imparare e da applicare, e l'eccessiva povertà di HTML, il W3 Consortium ha recentemente tentato una soluzione di compromesso, XML, un sottoinsieme semplificato di SGML studiato specificamente per essere utilizzato in ambiente WWW. Questo nuovo standard mantiene la possibilità insita in SGML (non nella sua applicazione HTML) di creare nuovi marcatori a seconda delle specifiche esigenze, ampliando notevolmente le possibilità espressive delle pagine Web e rendendole più flessibili e adattabili a differenti contesti formali e di contenuto. L'evoluzione di questo standard, ancora poco diffuso, può essere seguita a partire dalla già citata SGML/XML Web page, oppure dal sito del W3C <http://www.w3.org>". METITIERI - RIDI [1998] p. 173-174.

[18] Cfr. LAGOZE [1996].

[19] "UKOLN and OCLC jointly organised a conference in Spring 1996 to examine various general metadata issues and the Dublin Core in particular. The venue was Warwick and a new requirement was identified and scoped, which resulted in the Warwick Framework proposal. It was concluded that an architecture for the interchange of metadata packages was required. A package is conceived as a metadata object specialised for a particular purpose. A Dublin Core-based record might be one package, a MARC record another, a terms and conditions record another, and so on. Such discrete packages might be numerous and varied in content and even source. Users or software agents would need the ability to aggregate these discrete metadata packages, hence the notion of a container-package architecture". DEMPSEY - HEERY [1998] p. 163.

[20] Cfr. MUSELLA - PADULA [1996].

[21]"Fatto il motore trovato l'inganno, da parte di chi non esita a imbottire, più o meno visibilmente, le proprie pagine web di termini poco o niente pertinenti al contesto pur di far artificialmente aumentare il numero dei "lettori", tanto proditoriamente attirati quanto probabilmente delusi. Il fenomeno è così frequente che è stato coniato un neologismo ("spamdexing = the practice of entering the same keyword multiple times in a Web page to force it to the top of search results in a search engine." Gareth Branwyn, Jargon watch, "Wired", IV (1996), 12, p. 72) e che - come ha ricordato Eugenio Gatto nel dibattito - ci sono addirittura ditte che assicurano a pagamento questo servizio, basandosi sull'analisi statistica dei termini più utilizzati nelle ricerche sui motori e di quelli contenuti nei siti più frequentati." RIDI [1997], p. 53.

Per ovviare a questi inconvenienti alcuni motori non prendono in considerazioni i metatag (ad esempio Excite) o non attribuiscono loro un "peso" maggiore delle altre parole contenute nella pagina (ad esempio Lycos), ma questo tipo di soluzione è, a mio avviso, ancora più dannosa del problema che vorrebbe risolvere.

[22] Il paragone fra indicizzatore e giudice regge anche in altri ambiti, dalla applicazione di codici normativi preesistenti ai singoli casi particolari fino al compito di dover prendere decisioni difficili in caso di conflitto fra più sistemi normativi. Ma non è questa la sede per continuare a inseguire questa suggestione.

[23] "Retrieval metadata has the purpose of improving the finding function. Information seeking is a very complex human activity, not easily expressed in algorithms or calculations. It is both cumulative and iterative, and needs to take into account such things as the seeker's level of education, language preferences, and immediate goals. So far, the best interface between a person and information has turned out to be another person - someone who has already studied the topic at hand." COYLE [1997], p. 46.

[24] Per il resoconto di una esperienza in un Intranet aziendale, cfr. DORAN [1999].

[25] "In realtà mi pare che l'intero argomento dei META sia da discutere, se ne vogliamo mostrare in AIB-WEB un approccio bibliotecario: a me pare che sinora siano lì "con beneficio d'inventario", senza una precisa idea di se e come servano. Personalmente, al di là e indipendentemente di quel che altri (persone e macchine) possano fare dei META, mi piacerebbe che innanzitutto fossero fatti in modo da servire a noi: cioè, innanzitutto dimostrassero la loro utilita` in AIB-WEB stesso, in modo che siano anche dimostrazione pratica e diretta (e non ipotesi "per futuri usi") della loro applicazione nel nostro contesto, e ben verificabile da parte dei colleghi bibliotecari." GATTO [1999].

[26] Ad esempio un nuovo orizzonte per i bibliotecari, accanto alla tutto sommato tradizionale indicizzazione delle pagine web del proprio ente di riferimento (oltre, ovviamente, a quelle della propria biblioteca), potrebbe essere aggiungere ai propri compiti, accanto alla canonica istruzione degli utenti alla ricerca, una inedita "istruzione alla indicizzazione".

RIFERIMENTI BIBLIOGRAFICI

BRIN, Sergey - PAGE, Lawrence [1998] The anatomy of a large-scale hypertextual web search engine, <http://google.stanford.edu/long321.htm>.

COURTOIS, Martin P. - BERRY, Michael W. [1999] Results ranking in web search engines, "Online", XXIII, 3, p. 39-46, oppure <http://www.onlineinc.com/onlinemag/OL1999/courtois5.html>.

COYLE, Karen [1997] Metadata, "Wired", V, 11, p. 46

DEMPSEY, Lorcan - HEERY, Rachel [1998] Metadata: a current view of practice and issues, "Journal of documentation", LIV, 2, p. 145-172.

DORAN, Kelly [1999] Metadata for a corporate Intranet, "Online", XXIII, 1, p. 42-50.

EFTHIMIADIS, Efthimis N. - CARLYLE, Allyson [1997] Organizing Internet resources: metadata and the Web, "Bulletin of the American society for information science", special section, guest editors Efthimis N. Efthimiadis and Allyson Carlyle, XXIV, 1, p. 4-29.

GATTI, Gabriele [1997] Macchine Celibi? Accumulo o distribuzione dell'informazione fra tecnologie e professionalità, "Biblioteche oggi", XV, 6, p. 6-21, oppure in ESB Forum: <http://www.burioni.it/forum/bo97-gatti.htm>.

GATTO, Eugenio [1999] Campi META e Dublin Core, messaggio alla lista della redazione AIB-WEB, 8 Marzo.

HEERY, Rachel [1998] What is...RDF ?, "Ariadne", 14, <http://www.ariadne.ac.uk/issue14/what-is/>.

HEERY, Rachel - POWELL, A. - DAY, M. [1997] Metadata, "Library & information briefings, 75, p. 1-19.

HOCK, Randolph [1999] Web search engines: features and command, "Online", XXIII, 3, p. 24-28.

LAGOZE, Carl [1996] The Warwick framework: a container architecture for diverse sets of metadata, "D-lib magazine", II, 7, July/August, <http://www.dlib.org/dlib/july96/lagoze/07lagoze.html>.

LARGE, Andrew - TEDD, Lucy A. - HARTLEY, Richard J. [1999] Information seeking in the online age: principles and practice, London, Bowker-Saur.

LUNATI, Gabriele [1997] Bollicine di champagne... Strumenti per la ricerca ed il recupero dell'informazione su Internet, "Biblioteche oggi", XV (1997), 5, p. 18-29, oppure in ESB Forum: <http://www.burioni.it/forum/motori/motori.htm>.

METITIERI, Fabio - RIDI, Riccardo [1998] Ricerche bibliografiche in Internet. Strumenti e strategie di ricerca, OPAC e biblioteche virtuali , Milano, Apogeo. Indice, introduzione e alcuni estratti disponibili in rete: <http://www.apogeonline.com/catalogo/431.html>.

MILSTEAD, Jessica - FELDMAN, Susan [1999] Metadata: cataloging by another name... [include Metadata projects and standards], "Online", XXIII, 1, p. 24-41, oppure <http://www.onlineinc.com/onlinemag/OL1999/milstead1.html>.

MUSELLA, Davide - PADULA, Marco [1996] The authors catalogue their documents for a light Web indexing, <http://jargo.itim.mi.cnr.it/documentazione/articol_INET96.html>.

NOTESS, Greg R. [1999] Rising relevance in search engines, "Online", XXIII, 3, p. 84-86, oppure <http://www.onlineinc.com/onlinemag/OL1999/net5.html>.

PESENTI, Mariateresa [1999] Guide all'uso degli strumenti di ricerca in Internet, creato novembre 1998, ultimo aggiornamento maggio 1999, in AIB-WEB: <https://www.aib.it/aib/lis/motori.htm>.

RICHMOND, Alan [1999] META tagging for search engines, <http://www.stars.com/Search/Meta/Tag.html>.

RIDI, Riccardo [1997] Il ruolo del bibliotecario nella società dell'informazione elettronica reticolare, in: Il futuro è arrivato troppo presto? Internet, biblioteche ed accesso alle risorse informative, convegno di studi, Cagliari, 14-15 novembre 1996, a cura di Pasquale Mascia e Beniamino Orrù, Roma, AIB, p. 51-57.

RIDI, Riccardo [1999] Il retaggio multimediale fra hardware, software e politiche culturali, in: L'automazione delle biblioteche nel Veneto: l'irruzione della multimedialità, atti del nono Seminario Angela Vinay, 5 Dicembre 1997, a cura di Chiara Rabitti, Fondazione scientifica Querini Stampalia, Venezia, 1999, p. 121-124, oppure in AIB-WEB: <https://www.aib.it/aib/sezioni/veneto/ridi.htm>.

TAMMARO, Anna Maria [1997] Catalogando, catalogando ... metacatalogando. Come può cambiare una funzione tradizionale della biblioteca, "Biblioteche oggi", XV, 1, p. 80-84.

TURNER, Thomas P - BRACKBILL, Lise [1998] Rising to the top. Evaluating the use of the HTML META tag to improve retrieval of World Wde Web documents through Internet search engines, "Library resources & technical services", XXXXII, 4, p. 258-271.

VALENTE, Massimiliano [1998] Metatag e motori di ricerca, "Internet news", IV, 8, p. 118-120.

VELLUCCI, Sherry L. [1998] Metadata, "Annual review of information science and technology", XXXIII, p. 187-222.

WEIBEL, Stuart [1999] The state of the Dublin Core metadata initiative: April 1999, "D-lib magazine", V, 4, April, <http://www.dlib.org/dlib/april99/04weibel.html>.

** Riccardo Ridi
Coordinatore AIB-WEB <https://www.aib.it>
homepage personale <http://www.burioni.it/forum/ridi>
e-mail <ridi@aib.it>

Per scelta esplicita del suo autore, a questa pagina non si applica l'attuale "Dichiarazione di copyright AIB-WEB". Tutti i diritti sui testi e sulle immagini eventualmente contenute sono riservati all'Associazione italiana biblioteche, ai curatori editoriali delle pagine, agli autori originari dei documenti e ai detentori di diritti delle eventuali edizioni precedenti.

È vietato ogni genere di duplicazione su altri siti, così come ogni genere di distribuzione integrale tramite sistemi di comunicazione digitale on-line e ogni utilizzo commerciale, a meno di specifici accordi. Sono consentite la riproduzione e la circolazione in formato cartaceo o su supporto elettronico portatile (off-line) ad esclusivo uso scientifico, didattico o documentario, purchè i documenti non vengano alterati in alcun modo sostanziale, ed in particolare mantengano le corrette indicazioni di data, paternità e fonte originale.

1999-09-30, a cura di Serafina Spinelli. Ultimo aggiornamento, 2010-02-21
URL: https://www.aib.it/aib/commiss/cnur/dltridi.htm

AIB-WEB | Le Commissioni | Commissione università ricerca

	AIB. Commissione nazionale università e ricerca
AIB-WEB \| Le Commissioni \| Commissione università ricerca