AIB. Commissione nazionale università e ricerca | |
Obiettivi
Con questo lavoro ci siamo proposti di valutare l'impatto che un corso di istruzione, organizzato dalla Biblioteca della Facoltà di Medicina dell'Università degli Studi di Brescia, ha sulla capacità di utilizzo, da parte dei propri utenti, del sistema di recupero dell'informazione della base dati Medline su Cd-Rom e, di conseguenza, sulla qualità delle ricerche effettuate.
Metodologia
Il campione
Sin dall'inserimento di Medline cd-rom nel 1992, la biblioteca ha cercato di monitorare l'uso di questo strumento, nella convinzione che una buona qualità delle ricerche svolte sia di interesse generale e non solo del singolo utilizzatore. A tal fine ad ogni utilizzatore di Medline è chiesto di compilare un modulo, sul quale vengono riportati dati relativi al profilo dell'utente, ma anche dati quantitativi ed opinioni personali. A questo modulo viene chiesto di allegare il Print Screen della strategia di ricerca impostata (cosa che non avviene in maniera sistematica, ma sulla base della disponibilità e sensibilità del singolo). E' stata così raccolta una grande quantità di materiale che è servito come base per questo lavoro.
Il primo tentativo effettuato è stato quello di ricavare una valutazione qualitativa da una serie di parametri quantitativi: durata della ricerca, numero di set impiegati, quantità di citazioni reperite ecc... E' emersa ben presto l'impossibilità di una tale analisi essendo ogni ricerca un caso a sé, con obiettivi specifici che esigono strategie di ricerca differenziate, i risultati delle quali non sono confrontabili sulla base di parametri puramente quantitativi.
La via scelta è stata quindi quella di selezionare un campione e "far girare" di nuovo tutte le ricerche tentando di individuare alcuni indicatori di qualità che potessero dare risposta alle due domande che ci ponevamo:
- Che uso viene fatto dagli utenti di tale strumento?
- C'è una differenza di qualità tra chi segue il corso e chi no?
Gli utenti sono stati così divisi in due gruppi: coloro che hanno seguito il corso di istruzione - in genere individuale - tenuto dal personale di biblioteca e coloro che invece hanno solamente seguito il tutorial predisposto dal distributore della base di dati.
Una analisi qualitativa di questo tipo presenta rischi non indifferenti, avendo alla base due ipotesi non immediatamente dimostrabili:
1) che sia possibile - e che si sia in grado di - interpretare i bisogni dell'utente, deducendoli dalla strategia di ricerca impiegata;
2) che colui che valuta le ricerche sia a sua volta un buon utilizzatore dell'information retrieval.
Per poter impostare questo lavoro abbiamo dovuto dare per scontate entrambe le ipotesi.
La scheda di valutazione
Selezionato il campione, si è proceduto alla creazione di una scheda per la valutazione della qualità delle ricerche (all. 1); anche in questo caso siamo partiti da un presupposto: che una buona ricerca sia quella che utilizzi un vocabolario controllato, una volta che questo sia disponibile, e che lo integri con un uso accorto della ricerca a testo libero quando necessario.
La prima operazione fatta è stata quindi quella di distinguere tra STRUMENTI e TECNICHE di ricerca che l'information retrieval metteva a disposizione. In prima battuta si sono individuati tre strumenti;
- ricerca da vocabolario controllato (d'ora in poi THESAURUS);
- ricerca a testo libero (d'ora in poi FIND);
- ricerca in indice (d'ora in poi INDEX).
Abbiamo poi individuato alcune tecniche specifiche degli strumenti di ricerca utilizzati e altre tecniche di ricerca più generali.
Una prima ricognizione ha portato a togliere l'INDEX dagli strumenti di ricerca ed inserirlo nelle tecniche generali di reperimento dell'informazione. Ciò, essenzialmente per due motivi:
- da un lato perché la struttura dell'information retrieval non sempre consente di rilevare o meno l'uso di tale strumento;
- dall'altro perché, al di là delle potenzialità di recupero ad esso intrinseche, viene essenzialmente usato per un tipo di ricerca strutturalmente semplice: la ricerca per autori. Il suo peso nell'analisi non poteva essere quindi quello degli altri due strumenti.
Una volta costruita la scheda di rilevazione dei dati si è proceduto a stabilire una griglia di attribuzione dei punteggi, nel modo che segue segue:
THESAURUS e FIND sono stati valutati sulla base di uno schema che prevede: un USO INDICATO, un USO EFFETTIVO ed un USO ADEGUATO, attribuendo ad ognuna delle combinazioni possibili dei tre indicatori un minimo di uno ed un massimo di tre punti (fig. 1):
Uso indicato: 0=NO, 1= SI Uso effettivo: 0=NO, 1= SI Uso adeguato: 0=NO/NON APLL., 1=SI
Fig. 1 - Griglia di valutazione
Uso indicato | Uso effettivo | Uso adeguato | Punteggio |
0 | 0 | 0 | 3 |
0 | 1 | 1 | 2 |
0 | 1 | 0 | 1 |
1 | 1 | 1 | 3 |
1 | 1 | 0 | 2 |
1 | 0 | 0 | 1 |
L'uso combinato dei due strumenti consente dunque l'attribuzione di un punteggio minimo di due ed uno massimo di sei, che è stato considerato il punteggio di base per giudicare una strategia di ricerca adeguata.
Si sono quindi considerate alcune tecniche specifiche ad ogni strumento (in particolare: explode e uso subheadings per il THESAURUS; uso della ricerca in campo e uso di caratteri speciali per il FIND); nel caso di uso corretto di una di esse si è proceduto ad assegnare un punto, così come si è dato un punto per l'uso di almeno una delle principali tecniche generali di ricerca individuate (uso dell'INDEX, uso degli operatori booleani).
A queste tecniche è stato dato un peso minore rispetto agli strumenti di ricerca in quanto sono state giudicate decisive ai fini dell'efficienza della ricerca ma non fondamentali ai fini dell'efficacia. Con l'obiettivo di inserire un elemento di compensazione abbiamo, infine, assegnato un punto alle ricerche considerate complesse e nessun punto a quelle giudicate più semplici.
Lo schema di attribuzione del punteggio è quello che compare in figura 2.
Fig. 2 - Schema di attribuzione del punteggio
Strumenti e tecniche | Punteggio massimo |
Uso o non uso adeguato del THESAURUS | 3 |
Uso di tecniche relative al THESAURUS | 1 |
Uso o non uso adeguato del FIND | 3 |
Uso di tecniche relative al FIND | 1 |
Uso di tecniche di ricerca generali | 1 |
Grado di difficoltà | 1 |
Punteggio massimo ottenibile | 10 |
Nel modulo di rilevazione dei dati, senza che fossero utilizzati nella valutazione, abbiamo anche inserito, in quanto ritenuti di potenziale interesse, la probabile perdita o il probabile eccesso di informazioni, così come abbiamo espresso una valutazione soggettiva sulla qualità della ricerca, da poter poi confrontare con i punteggi ottenuti, ai fini di una valutazione sulla adeguatezza o meno dello stesso strumento usato.
I risultati
Sono state complessivamente valutate 107 ricerche bibliografiche a cui corrispondono 107 utilizzatori, essendo state eliminate più ricerche attribuibili alla stessa persona. Di questi 49 sono maschi e 58 femmine. Dei 107 utilizzatori valutati, 53 hanno frequentato il corso di istruzione e 54 no.
La distribuzione per categoria professionale vede una leggera prevalenza dei medici (39) sugli studenti (36) seguono gli specializzandi (13), i ricercatori (7) ed i dottorandi (5). Altro o non dichiarato raggiungono i 7 casi.
Lo scopo dell'uso del sistema è in 65 casi la ricerca, in 22 la tesi ed in 16 conferenze e pubblicazioni; il dato è mancante in 4 casi.
La tabella seguente mostra la comparazione delle variabili che abbiamo ritenuto più espressive ai fini della comparazione qualitativa delle ricerche compiute dai due gruppi analizzati (tab. 1).
Tab. 1 - Comparazione tra Gruppo 1(Corso) e Gruppo 2(Tutorial) con riferimento alle variabili più significative
Variabile | Totale (n=107) |
Corso | Tutorial | Valore di P |
Uso Thesaurus indicato | 98(91,6%) | 47(47,9%) | 51(52,1%) | 0,087 |
Uso effettivo Thesaurus | 28(26,2%) | 16(57,1%) | 12(42,9%) | 0,411 |
Uso adeguato Thesaurus | 25(23.4%) | 14(56,0%) | 11(44,0%) | 0,724 |
Uso Find indicato | 41(38,3%) | 28(68,3%) | 13(31,7%) | 0,004 |
Uso effettivo Find | 94(87,9%) | 48(51,1%) | 46(48,9%) | 0,740 |
Uso adeguato Find | 41(38,3%) | 27(65,9%) | 14(34,1%) | 0,039 |
Uso tecniche di ricerca | 90(84,1%) | 49(54,4%) | 41(45,6%) | 0,058 |
Probabile perdita di informazioni | 40(37,4%) | 16(40,0%) | 24(64,0%) | 0,094 |
Probabile eccesso di informazioni | 23(21,5%) | 12(52,2%) | 11(47,8%) | 0,853 |
L'uso del THESAURUS è stato da noi giudicato opportuno in 98 casi, pari al 91,6% del totale; a fronte di questo dato sta il suo utilizzo effettivo da parte di sole 28 persone (26,2%); nel 73,8% dei casi, pur essendo opportuno usare il THESAURUS, è stata dunque preferita la ricerca a testo libero. Dei 28 utenti che usano il THESAURUS, in compenso, ben 25 ne hanno fatto un uso adeguato.
Relativamente alle tecniche in Thesaurus (non illustrate per non appesantire ulteriormente la lettura della tabella così come per le tecniche del FIND) abbiamo visto che l'esplosione (ossia l'inclusione nella ricerca dei termini subordinati ad uno più generale) è stato usato da 20 persone, mentre l'uso delle subheadings è stato fatto da tutte le 28 persone che hanno usato il THESAURUS.
Passiamo ora all'analisi del FIND. Abbiamo giudicato l'uso del FIND opportuno in 41 casi (38.3%). Ne è stato fatto un uso effettivo da parte di 94 utenti (87,9%) ed un uso adeguato da 41, pari (38,3%). In 53 casi, (49,5%), ne viene fatto un uso non adeguato mentre in 13 casi (12,1%) il dato non è rilevabile. Per quanto riguarda le tecniche proprie del FIND individuate, solo 7 utenti usano la ricerca in un campo specifico del database ed altrettanto usano caratteri speciali (il particolare la ricerca per radice di parola tramite l'uso del troncamento).
Quanto alle tecniche di ricerca generali, una sintesi delle frequenze d'uso ci dice quanto segue:
- 17 utenti (15,9%) usano accertatamente l'INDEX;
- 20 (18,7%) usano l'operatore OR
- 82 (76,6%) usano l'operatore AND
- 02 (1,9%) usano l'operatore NOT.
Relativamente alla possibile perdita od al possibile eccesso di informazioni abbiamo invece i seguenti dati: in 40 ricerche (37,4%) si è ritenuto che informazioni rilevanti siano andate perse; in 23 (21,5%) si ritiene vi sia stato un eccesso di informazioni.
Come si evidenzia nella colonna relativa al valore di P, l'unica differenza statisticamente significativa tra i due gruppi riguarda l'uso adeguato dello strumento FIND, più elevato nel gruppo sottoposto ad istruzione. Un campione più ampio probabilmente permetterebbe di raggiungere la significatività statistica anche alla variabile delle tecniche di ricerca generali esaminate (Index, operatori booleani).
Applicando, infine, ai risultati ottenuti la griglia di punteggio elaborata, ricaviamo che solo 34 ricerche (31,8%) sono state giudicate sufficienti. In 73 casi (68,2%) non è stata raggiunto la valutazione minima di 6.
Se rapportiamo questi valori alla frequentazione o meno del corso vediamo che, dei 34 utenti che hanno ottenuto la sufficienza, 23 hanno frequentato il corso e 11 no; dei 73 che non hanno raggiunto la valutazione di 6, 31 sono gli istruiti e 42 quelli che hanno seguito il tutorial. Il test del chi-quadrato rivela una differenza statisticamente significativa fra i due gruppi, che si esprime in una migliore performance (punteggio uguale o maggiore a 6) del gruppo sottoposto ad istruzione (valore di p=0,015.) (tab. 2).
Tab. 2 - Analisi comparativa dei punteggi tra Gruppo1 (Corso) e Gruppo 2 (Tutorial)
Corso | Tutorial | Totale | Valore di p | Odds Ratio | Interv. Confidenza | |
Punteggio: > 6 | 23 | 11 | 34 | |||
Punteggio: < 6 | 31 | 42 | 73 | 0,015 | 2,83 | 1,20 - 6,66 |
54(50,5%) | 53(49,5%) | 107(100,0%) |
Anche l'analisi basata sui risultati della somma dei punteggi (non categorizzati come < o > 6) organizzati sui ranghi (test di Mann-Whitney) conferma una migliore qualità di ricerca (somma e media dei ranghi più alta) tra coloro che hanno frequentato il corso (p = 0,001) (tab. 3).
Tab. 3 - Analisi comparativa dei ranghi tra Gruppo1 (Corso) e Gruppo 2 (Tutorial) (test di Mann-Whitney)
Totale | Media del Rango | Somma dei Ranghi | Valore di p | |
Corso | 54 | 64,08 | 3460,50 | |
Tutorial | 53 | 43,73 | 2317,50 | 0,001 |
107 |
Le due domande che ci ponevamo in apertura del lavoro sembrano ora trovare una risposta, basata su dei dati.
La tendenza che si rileva è quella di un uso della ricerca a testo libero anche quando i termini da ricercare sono presenti nel vocabolario controllato. La partecipazione o meno al corso di istruzione non sembra influenzare la scelta dello strumento utilizzato.
Se il sistema di recupero dell'informazione viene usato in forme tutto sommato grezze, sicuramente ben al di sotto delle potenzialità ad esso intrinseche, la frequentazione del corso di istruzione sembra dare all'utente una maggiore confidenza con gli strumenti e le tecniche di ricerca; e se la decisa sotto utilizzazione del vocabolario controllato ha come parziale bilanciamento un uso particolarmente preciso di esso, ciò non è, tuttavia, sufficiente ad evitare un difettoso recupero dell'informazione, che si esprime o in una consistente perdita di dati o nel reperimento di informazioni presumibilmente non pertinenti.
Riassumendo in una frase potremmo dire quanto segue: la partecipazione al corso ha determinato una migliore qualità delle ricerche che è rimasta tuttavia, in genere, al di sotto di un livello giudicato sufficiente.
Un ultimo dato che riteniamo di proporre alla attenzione riguarda il grado di accuratezza dello strumento utilizzato. Nonostante la validazione di una scala di punteggio per l'analisi della ricerca su Medline non fosse l'obiettivo principale del lavoro (ciò avrebbe richiesto un altro disegno di studio), abbiamo fatto una comparazione tra la valutazione complessiva della ricerca da parte dell'esaminatore (considerata il gold standard) ed il punteggio ricavato dalla scheda di valutazione. Il proposito era quello di misurare se lo strumento proposto era accurato nel discriminare la ricerca di buona qualità da quella di qualità più scarsa. Nella tabella seguente vengono indicati la sensibilità, la specificità e il rapporto di verosimiglianza dei positivi e dei negativi. (tab. 4)
Tab. 4 - Analisi del Grado di accuratezza dello strumento utilizzato (scheda di punteggio)
Adeguata | Non adeguata | |
Punteggio: > 6 | 29 | 3 |
Punteggio: < 6 | 28 | 42 |
Totale | 57 | 45 |
Sensibilità = 50,8%
Specificità = 93,3%
Rapporto di Verosimiglianza dei Positivi = 7,63
Rapporto di Verosimiglianza dei Negativi = 0,53
La scheda di attribuzione del punteggio, se comparata con la valutazione del ricercatore, è caratterizzata da una bassa sensibilità e da una alta specificità, ossia: fra i 57utenti considerati esecutori di una buona ricerca soltanto la metà circa, è stata identificata come tale dalla scheda di punteggio; però dei 45 che non hanno fatto una buona ricerca, soltanto 3 non sono individuati dalla scheda. Un altro modo di interpretare i risultati sarebbe quello di dire che, basato sulla analisi del rapporto di verosimiglianza, è circa 7,5 volte più probabile trovare un test positivo (punteggio > 6) in presenza di una valutazione positiva piuttosto che nella assenza di essa; dall'altra parte si può anche dire che la chance che un punteggio basso (punteggio < 6) sia dato a uno che ha realizzato una buona ricerca in relazione a uno che ha fatto una ricerca di bassa qualità è di circa 1:2.
Era opportuno l'uso del thesaurus?
E' stato usato il thesaurus?
E' stato usato correttamente?
Quali tecniche di ricerca in thesaurus sono state usate?
Explode
Subheadings
Era opportuno l'uso del FIND ai fini della ricerca?
E' stato usato il FIND ai fini della ricerca?
E' stato usato correttamente?
Quali tecniche di ricerca in FIND sono state usate?
Ricerca in campo
Uso di caratteri speciali
E' stato usato l'INDEX?
Sono stati usati gli operatori booleani?
OR AND NOT
Sono stati usati sets di ricerca precedenti?
Grado di difficoltà della ricerca (0=semplice 1=complessa)
Probabile perdita di informazioni
Probabile eccesso di informazioni
Valutazione complessiva ricerca (0=non adeguata 1=adeguata)
Tab. 1 - Distribuzione per sesso | Tab. 2 - Distribuzione per professione | |||||||
Corso | Tutorial | Totale | Corso | Tutorial | Totale | |||
Maschi | 30 | 19 | 49(45,8%) | Studente | 18 | 18 | 36(33,6%) | |
Femmine | 24 | 34 | 58(54,2%) | Medico | 17 | 22 | 39(36,4%) | |
Totale | 54 | 53 | 107(100,0%) | Ricercatore | 7 | 0 | 7(06,5%) | |
Specializz. | 3 | 10 | 13(12,1%) | |||||
Tab. 3 - Distribuzione per scopo ricerca | Tecnico | 4 | 1 | 5(04,7%) | ||||
Corso | Tutorial | Totale | Altro | 5 | 2 | 7(06,5%) | ||
Ricerca | 41 | 24 | 65(60,7%) | Totale | 54 | 53 | 107(100,0% | |
Conf/Pubbl | 6 | 10 | 16(15,0%) | |||||
Tesi | 7 | 15 | 22(20,6%) | |||||
Altro | 0 | 4 | 4(03,7% | |||||
Totale | 54 | 53 | 107(100,0%) |
Tab. 4 - Comparazione tra Gruppo 1 (Corso) e Gruppo 2(Tutorial) con riferimento alle variabili più significative
Variabile | Totale (n=107) |
Corso | Tutorial | Valore di P |
Uso Thesaurus indicato | 98(91,6%) | 47(47,9%) | 51(52,1%) | 0,087 |
Uso effettivo Thesaurus | 28(26,2%) | 16(57,1%) | 12(42,9%) | 0,411 |
Uso adeguato Thesaurus | 25(23.4%) | 14(56,0%) | 11(44,0%) | 0,724 |
Uso Find indicato | 41(38,3%) | 28(68,3%) | 13(31,7%) | 0,004 |
Uso effettivo Find | 94(87,9%) | 48(51,1%) | 46(48,9%) | 0,740 |
Uso adeguato Find | 41(38,3%) | 27(65,9%) | 14(34,1%) | 0,039 |
Uso tecniche di ricerca | 90(84,1%) | 49(54,4%) | 41(45,6%) | 0,058 |
Probabile perdita di informazioni | 40(37,4%) | 16(40,0%) | 24(64,0%) | 0,094 |
Probabile eccesso di informazioni | 23(21,5%) | 12(52,2%) | 11(47,8%) | 0,853 |
Tab. 5 - Distribuzione dei punteggi tra Gruppo 1 (Corso) e Gruppo 2 (Tutorial)
Punteggio | Corso | Tutorial | Totale |
2 | 0 | 4 | 4(3,7%) |
3 | 6 | 14 | 20(18,7%) |
4 | 6 | 12 | 18(16,8%) |
5 | 19 | 12 | 31(29%) |
6 | 9 | 2 | 11(10,3%) |
7 | 6 | 6 | 12(11,2%) |
8 | 5 | 2 | 7(6,5%) |
9 | 3 | 1 | 4(3,7%) |
Totale | 54 | 53 | 107(100%) |
Tab. 6 - Analisi comparativa dei punteggi tra Gruppo 1 (Corso) e Gruppo 2 (Tutorial)
Corso | Tutorial | Totale | Valore di P | |
Punteggio: > 6 | 23 | 11 | 34(31,8%) | |
Punteggio: < 6 | 31 | 42 | 73(68,2%) | 0,015 |
54 | 53 | 107(100,0%) |