13/05/2011
1
La Ricerca dell‟Informazione
per le Scienze Umane
13 maggio 2011
1
Informatica per le Discipline Umanistiche - Mauro Cadei
La Ricerca dell‟Informazione:
Oggetti e Attori
13 maggio 2011
2
Informatica per le Discipline Umanistiche - Mauro Cadei
Documento
conoscenze e informazioni
letteratura di riferimento per una specifica disciplina
informazione fattuale (dati)
sono registrate su supporti fisici
documento(risorsa informativa) = supporto + contenuto analogico o digitale
locale o remoto (accessibile in rete)
testuale, grafico, multimediale …
13 maggio 2011
3
Informatica per le Discipline Umanistiche - Mauro Cadei
Documento
risorsa continuativa (più frequente in ambito analogico): documento costituito da più parti che si aggiungono successivamente al contenuto iniziale(es.: rivista, opera multivolume)
risorsa integrativa (più frequente in ambito digitale): documento il cui contenuto è modificato con frequenza elevate(es. home page di un sito web)
ciclo di vita: periodo di tempo nel quale il contenuto del documento è aggiornato o rilevante
13 maggio 2011
4
Informatica per le Discipline Umanistiche - Mauro Cadei
Esigenza Informativa
13 maggio 2011
5
Informatica per le Discipline Umanistiche - Mauro Cadei
Anomalous State of Knowledge(ASK): percezione soggettiva di una lacuna di conoscenza che determina una ricerca d‟informazione
ricerca di un documento conosciuto(known item search)
ricerca di un argomento specifico(specific subject search)
esplorazione (browsing) all‟interno di un ambito disciplinare
navigazione (surfing) partendo da un documento e seguendo collegamenti
serendipità (serendipity): guidato solo dalla curiosità spero di essere fortunato e trovare qualcosa d‟interessante
Ricerca di Informazioni
tacit knowledge retrieval: rivolgersi
ad un esperto
information retrieval: interrogare il
catalogo di una biblioteca, una
web directory, un motore web …
full text retrieval: consultare un
documento
reference linking: consultare i
documenti riferiti in un documento
13 maggio 2011
6
Informatica per le Discipline Umanistiche - Mauro Cadei
13/05/2011
2
Information Retrieval (IR)
processo interattivo
richiesta (query) formulata dall‟utente (chi cerca le informazioni)
risposta (result) fornita da un sistema che
seleziona, tra tutte le informazioni di cui dispone, quelle pertinenti con la query
indicizza le informazioni (indica come reperire i documenti che le contengono)
ordina le informazioni secondo il grado di rilevanza (relevanceranking)
13 maggio 2011
7
Informatica per le Discipline Umanistiche - Mauro Cadei
Information Retrieval
disciplina tecnico/scientifica
nata negli anni „50
classical IR: nelle DB
web IR: nei motori di ricerca
13 maggio 2011
8
Informatica per le Discipline Umanistiche - Mauro Cadei
I Metadati
13 maggio 2011
9
Informatica per le Discipline Umanistiche - Mauro Cadei
Query
query con
termini generici
su motore
generalista
es: “Umberto Eco
tesi” su Google
(quasi 60.000
risultati)
13 maggio 2011
10
Informatica per le Discipline Umanistiche - Mauro Cadei
Query
query con valori
qualificati su motore
specialistico
es.
Google Libri
Titolo = “tesi”
Autore = “Umberto Eco”
(1 risultato)
13 maggio 2011
11
Informatica per le Discipline Umanistiche - Mauro Cadei
Metadati per l‟IR
metadato: attributo strutturato del documento che ne promuove il reperimento
indicizzazione: inserimento di metadati (cercando di anticipare i criteri di ricerca)
record: insieme di metadati che fornisce una descrizione sufficientemente articolata del documento
schema di metadati: insieme predefinito di elementi che per ogni metadato indicano
nome (etichetta)
valore che può assumere
regole di utilizzo
formati di scambio (per la condivisione con altri sistemi)
13 maggio 2011
12
Informatica per le Discipline Umanistiche - Mauro Cadei
Ih kj kjh kjh kjh kjh kjh
jj lkj lkj lkj lkj lkj lkj lkj
lkj lkj lkj lkj lkj lkj lkj
lkj lk jlk jlk jlk jl kjl kj
lkj lkj lkjl kj lkj lkj lkj.
Lkj lkj lk jlk jlk jlk jl kjl
kj lkj lkj lkj lkj lkj lkj
lkj.
hgfhhgf hgf hgf hg
hgf hgf hgf hgf hg
hgf hgf hggf hgf hf
hgf hgfh gfhgf hgf
hgf hgf hg hgf.
gjh jhg jhg jh jhg jhg
metadato
metadato
metadato
metadato
metadato
13/05/2011
3
Indicizzazione
manuale
catalogatore: operatore umano specializzato che si occupa dell‟indicizzazione (di solito solo da frontespizio e poche altre parti (paratesto))
abstract: indicizzazione di articoli scientifici da parte dell‟autore
social tagging: indicizzazione distribuita nel web
automatica
eseguita da un sistema di IR
può essere su tutto il testo (full text indexing)
13 maggio 2011
13
Informatica per le Discipline Umanistiche - Mauro Cadei
Metadati
descrittivi (es. titolo, autore, lingua, data di pubblicazione …)
identificatore (es. ISBN, DOI …)
semantici: riguardano il contenuto intellettuale (es. parole chiave, abstract, codice di classificazione …)
di localizzazione: riguardano l‟esemplare fisico o copia del documento (es. segnatura, URL …)
amministrativi e gestionali: riguardano le modalità di archiviazione e manutenzione
strutturali: collegano le varie componenti di risorse composte
13 maggio 2011
14
Informatica per le Discipline Umanistiche - Mauro Cadei
ISBN
International Standard Book Number
www.isbn.it
13 cifre (5 parti separate da “-”)
prima parte (3 cifre): identifica il tipo di manufatto (libro: 978 e in futuro anche 979)
seconda parte: area linguistica (identifica il Paese o l'area linguistica dell'editore)
terza parte: prefisso editore (identifica l'editore/marchio editoriale)
quarta parte: numero identificativo del titolo
quinta parte (1 cifra): numero di controllo (garanzia contro possibili errori)
13 maggio 2011
15
Informatica per le Discipline Umanistiche - Mauro Cadei
DOI
Digital Object Identifier: standard che consente l'identificazione duratura, all'interno di una rete digitale, di qualsiasi entità che sia oggetto di proprietà intellettuale (testi, immagini, risorse audio o video, software …) e di associarvi metadati
www.doi.org
benefici:
persistenza (alla modifica dell‟ubicazione del materiale …)
cooperazione con altri dati, provenienti da altre fonti
estensibilità (possibile aggiungere nuove caratteristiche e servizi attraverso l‟amministrazione dei Gruppi dei DOI Name)
indipendenza dalla piattaforma
aggiornamenti dinamici
13 maggio 2011
16
Informatica per le Discipline Umanistiche - Mauro Cadei
Metadati
esterni: registrati all‟esterno del
documento primario, in un
documento secondario
(surrogato)
(es. scheda catalografica)
interni: all‟interno del documento
primario
specifici tag nei documenti digitali
(es. tag nello header dei file
HTML)
13 maggio 2011
17
Informatica per le Discipline Umanistiche - Mauro Cadei
Elenchi di Record di Metadati
13 maggio 2011
18
Informatica per le Discipline Umanistiche - Mauro Cadei
indici: liste di surrogati,
supportano il browsing
(es. bibliografie, web directory
…)
gestiti in modalità DB:
supportano ricerche più articolate
(es. cataloghi online di
biblioteche …)
13/05/2011
4
La Biblioteca come Sistema di IR
13 maggio 2011
19
Informatica per le Discipline Umanistiche - Mauro Cadei
Biblioteca Tradizionale
missione: rendere liberamente accessibili le informazioni di interesse per il pubblico di riferimento
funzioni:
selezionare e acquisire documenti
disporli fisicamente nella collezione
segnalarne la presenza agli utenti (catalogo, strumenti di disseminazione)
facilitarne la ricerca e l‟accesso (reference: istruzione e aiuto agli utenti)
gestirne la circolazione (consultazione, prestito, copie analogiche e digitali (download))
conservarli (riordino, pulizia, rilegatura, sostituzione)
scartarli (al termine del ciclo di vita)
13 maggio 2011
20
Informatica per le Discipline Umanistiche - Mauro Cadei
Biblioteca: Evoluzione
documenti digitali (testuali e multimediali): ebooks, ejournals, banche dati, audio, video, immagini
accesso remoto
necessità di confrontarsi con le nuove realtà di gestione e circolazione delle conoscenze (web …)
funzioni di gestione: automazione, accesso online
13 maggio 2011
21
Informatica per le Discipline Umanistiche - Mauro Cadei
IR in Biblioteca
biblioteca a scaffale aperto
disposizione fisica dei documenti per argomento
browsing a scaffale
biblioteca a scaffale chiuso
catalogo: collezione di surrogati (schede catalografiche)
intestazione (punto di accesso): metadato utilizzato come criterio di ordinamento
segnatura: metadato che indica la collocazione fisica
descrizione: altri metadati
13 maggio 2011
22
Informatica per le Discipline Umanistiche - Mauro Cadei
Catalogo
catalogo per autore/titolo: intestazione = cognome dell‟autore o titolo per opere anonime o collettive, riviste …
catalogo per soggetto: intestazione = stringa di testo che esprime l‟argomento
catalogo cartaceo: schede mobili in cassetti
catalogo informatizzato: realizzato con DB
OPAC (Online Public Access Catalog): online
13 maggio 2011
23
Informatica per le Discipline Umanistiche - Mauro Cadei
La Catalogazione Bibliotecaria
13 maggio 2011
24
Informatica per le Discipline Umanistiche - Mauro Cadei
13/05/2011
5
Catalogazione Bibliografica
ramo della biblioteconomia (library science)
principi internazionali di catalogazione(Statement of International CataloguingPrinciples) (2009)
standard catalografici: schemi di metadati
metadati descrittivi
International Standard Bibliographic Description(ISBD) (2007)
codici di catalogazione nazionali:
in Italia: Regole Italiane di Catalogazione (RICA) (2009)
metadati semantici testuali (soggetti)
in Italia: Nuovo Soggettario (2006)
metadati semantici codificati (codici di classificazione)
Classificazione Decimale Dewey
13 maggio 2011
25
Informatica per le Discipline Umanistiche - Mauro Cadei
Registrazione Bibliografica
record bibliografico
visualizzazione
nell‟OPAC
intestazione
segnatura
13 maggio 2011
26
Informatica per le Discipline Umanistiche - Mauro Cadei
Registrazione Bibliografica
visualizzazione in formato UNIMARC XML (formato di scambio internazionale tra le biblioteche basato su XML)
punti di accesso indispensabili: metadati indicizzati più utilizzati come criteri di ricerca (titolo, autore, soggetto, anno, identificatore standard)
punti di accesso aggiuntivi: gli altri metadati (Paese, lingua …)
13 maggio 2011
27
Informatica per le Discipline Umanistiche - Mauro Cadei
Controllo di Autorità
effettuato dal
catalogatore per
risolvere problemi
di omonimia e
sinonimia
si crea un record
di autorità e le
varianti sono rinvii
ad esso
13 maggio 2011
28
Informatica per le Discipline Umanistiche - Mauro Cadei
Entità dell‟Universo Bibliografico
opera: puro contenuto intellettuale di un documento
espressione: modo in cui l‟opera si realizza (es. in forma di testo, in
forma di immagini in movimento …)
manifestazione: l‟oggetto fisico in cui l‟espressione si materializza (es. il libro, il film …)
esemplare: la singola copia che istanzia la manifestazione (es. una copia del libro o di un DVD …)
13 maggio 2011
29
Informatica per le Discipline Umanistiche - Mauro Cadei
Relazioni tra Documenti
relazione di equivalenza: tra i documenti cambia solo la manifestazione (es. fotocopie, ristampe, digitalizzazioni …)
relazione derivativa: cambia solo l‟espressione (es. traduzioni, nuove edizioni, revisioni, riduzioni cinematografiche)
relazione descrittiva: cambia l‟opera: uno dei documenti commenta, critica, recensisce o analizza l‟altro
relazione sequenziale: un documento continua l‟altro (es. sequel di un film)
relazione di accompagnamento: un documento si aggiunge ad un altro (es. supplemento di una rivista)
13 maggio 2011
30
Informatica per le Discipline Umanistiche - Mauro Cadei
13/05/2011
6
La Catalogazione Semantica:
la Soggettazione
13 maggio 2011
31
Informatica per le Discipline Umanistiche - Mauro Cadei
Soggettazione
descrizione dell‟argomento
principale (aboutness) del
documento con una o più stringhe
di testo strutturate (soggetti)
i termini della stringa sono scelti
da un vocabolario controllato
regole in Italia: Nuovo
Soggettario (2006)
13 maggio 2011
32
Informatica per le Discipline Umanistiche - Mauro Cadei
Soggettazione: Esempio
titolo: “I rag@zzi del web - I preadolescenti e Internet: una ricerca”
soggetto:
Oggetto: Internet
Azione: Internet – Diffusione
Agente/Beneficiario: Internet –Diffusione – Adolescenza
Forma del contenuto: Internet –Diffusione – Adolescenza -Inchieste
13 maggio 2011
33
Informatica per le Discipline Umanistiche - Mauro Cadei
Controllo del Vocabolario
linguaggio di indicizzazione: vocabolario dei termini utilizzati per la soggettazione non controllato: utilizza i termini
contenuti nel documento da catalogare (es. liste di keyword)
controllato: si basa su un vocabolario controllato, elenco di descrittori, termini preferiti cui sono associati termini non-preferiti (sinonimi, quasi sinonimi, forme varianti …)
thesauro: vocabolario controllato con indicazione delle relazioni tra i descrittori di concetti correlati
13 maggio 2011
34
Informatica per le Discipline Umanistiche - Mauro Cadei
La Catalogazione Semantica:
la Classificazione
13 maggio 2011
35
Informatica per le Discipline Umanistiche - Mauro Cadei
Classificazione Bibliografica
classificazione dei documenti in aree disciplinari
attribuisce ad ogni documento un codice
alfabetico
numerico
misto
utile anche per la collocazione a scaffale
si basa su uno schema di classificazione
ambito di applicazione
generale: per l‟intero sapere umano
specialistico: per singole discipline
rappresentazione dei concetti
enumerativo: i concetti sono elencati gerarchicamente
a faccette: ogni concetto è la combinazione di singoli termini (faccette)
13 maggio 2011
36
Informatica per le Discipline Umanistiche - Mauro Cadei
13/05/2011
7
Classificazione Decimale Dewey
Melvil Dewey (1851–1931): bibliotecario statunitense
Dewey DecimalClassification
lo schema più diffuso nel mondo (30 lingue, 135 paesi, 60 biblioteche nazionali)
schema generale, enumerativo
codice numerico
13 maggio 2011
37
Informatica per le Discipline Umanistiche - Mauro Cadei
Classificazione Decimale Dewey
classificazione gerarchica del sapere
10 classi (aree disciplinari)
000: generalità
100: flosofia
200: religione
300: scienze sociali
400: linguaggio
500: scienze naturali e matematiche
600: tecnologia (scienze applicate)
700: belle arti e arti decorative
800: letterature
900: geografia - storia13 maggio 2011
38
Informatica per le Discipline Umanistiche - Mauro Cadei
CDD: Esempio
13 maggio 2011Informatica per le Discipline Umanistiche - Mauro Cadei
39
Zangara Aldo, “Il post-infarto e le patologie associate: interventi preventivi, curativi e riabilitativi nella pratica clinica”, Piccin, 1997, ISBN 88-299-1353-7
600 scienze applicate
610 medicina
616 malattie
616.1 specifiche malattie
616.12 malattie del cuore
616.123 malattie delle coronarie
616.1237 infarto miocardico
616.123705 misure preventive
La Ricerca dell‟Informazione
13 maggio 2011
40
Informatica per le Discipline Umanistiche - Mauro Cadei
Ricerca dell‟Informazione
definire il target informativo (argomento, aspetti principali, limitazioni linguistiche, temporali …)
tradurre il target in un profilo di ricerca(stringa di termini e relazioni tra essi)
inserire il profilo in uno o più sistemi di information retrieval
in base a numerosità e bontà dei risultati
riformulare il profilo di ricerca
allargare la ricerca (pearl growing)
restringere la ricerca (onion peeling)
navigare tra le citazioni (citation search)
una volta raggiunto un set soddisfacente
filtrarlo ed ordinarlo (ranking)
monitorare le fonti nel tempo (aggiornamento)
13 maggio 2011
41
Informatica per le Discipline Umanistiche - Mauro Cadei
Ricerca nell‟OPAC: Navigatore Dewey
es.: http://opac.bncf.firenze.sbn.it/opac/controller.jsp?action=dewey_browse13 maggio 2011
42
Informatica per le Discipline Umanistiche - Mauro Cadei
13/05/2011
8
OPAC: Liste di Browsing
titoli
13 maggio 2011
43
Informatica per le Discipline Umanistiche - Mauro Cadei
OPAC: Liste di Browsing
autori
13 maggio 2011
44
Informatica per le Discipline Umanistiche - Mauro Cadei
OPAC: Liste di Browsing
soggetti
13 maggio 2011
45
Informatica per le Discipline Umanistiche - Mauro Cadei
OPAC: Ricerca Libera (Keyword)
13 maggio 2011Informatica per le Discipline Umanistiche - Mauro Cadei
46
OPAC: Ricerca Base
13 maggio 2011Informatica per le Discipline Umanistiche - Mauro Cadei
47
OPAC: Ricerca Avanzata
operatori booleani: AND, OR, NOT
logica fuzzy (es. “autorekw@:(
cadei @~ )” trova gli autori
“Cadei”, “Zadei”, “Caldei” …)
caratteri jolly
*: uno o più caratteri
?: un solo carattere
rilevanza (@^)
filtri
13 maggio 2011
48
Informatica per le Discipline Umanistiche - Mauro Cadei
13/05/2011
9
OPAC: Ricerca Avanzata
ordinamento
salvataggio dei
risultati
13 maggio 2011
49
Informatica per le Discipline Umanistiche - Mauro Cadei
SuperOPAC: SBN
Servizio Bibliotecario
Nazionale
www.sbn.it
quasi 4.000 biblioteche
italiane
13 maggio 2011
50
Informatica per le Discipline Umanistiche - Mauro Cadei
SuperOPAC: WorldCat
WorldCat di OCLC
www.oclc.org/worldcat
più di 60.000 biblioteche
112 Paesi
più di 470 lingue
182 milioni di record
bibliografici
13 maggio 2011
51
Informatica per le Discipline Umanistiche - Mauro Cadei
MetaOPAC: KVK
Karlsruher Virtueller Katalogwww.ubka.uni-karlsruhe.de/kvk/kvk/kvk_it.html
13 maggio 2011
52
Informatica per le Discipline Umanistiche - Mauro Cadei
MetaOPAC: TEL
The European Library
www.theeuropeanlibrary.org
13 maggio 2011
53
Informatica per le Discipline Umanistiche - Mauro Cadei
Social Cataloguing
social tagging applicato
alla catalogazione
metadati di giudizio
raccomandazioni
recensioni
voti
in genere i record
bibliografici sono
importati da OPAC
13 maggio 2011
54
Informatica per le Discipline Umanistiche - Mauro Cadei
13/05/2011
10
Social Cataloguing: LibraryThing
www.librarything.it13 maggio 2011
55
Informatica per le Discipline Umanistiche - Mauro Cadei
Accesso ai Documenti Primari
in Internet
13 maggio 2011
56
Informatica per le Discipline Umanistiche - Mauro Cadei
Barriere all‟Accesso
non sempre è possibile aprire il testo pieno di un documento
barriere economiche: richiesta di abbonamento o pay-per-view
barriere legali: legate al copyright, strumenti di digital rights management inibiscono alcuni utilizzi (stampa, download …)
barriere tecniche formati proprietari che richiedono SW a
pagamento
formati non interoperabili
forme non fruibili per i disabili
13 maggio 2011
57
Informatica per le Discipline Umanistiche - Mauro Cadei
Archivio Aperto
biblioteca digitale che supporta l‟autoarchiviazionedei documenti da parte degli autori
nasce in ambito accademico per supportare la circolazione del sapere tra i ricercatori archivio istituzionale: supporta
i ricercatori collegati ad un‟istituzione (tesi, preprint, dispense, slide …)
archivio disciplinare: contributi in un ambito scientifico da tutto il mondo
13 maggio 2011
58
Informatica per le Discipline Umanistiche - Mauro Cadei
HAL
Hyper Articles en Lignehttp://hal.archives-ouvertes.fr
archivio aperto istituzionale nazionale francese13 maggio 2011
59
Informatica per le Discipline Umanistiche - Mauro Cadei
arXiv
www.arxiv.org
archivio aperto disciplinare
fisica
matematica
informatica
biologia quantitativa
finanza quantitativa
statistica
oltre 600.000 articoli
13 maggio 2011
60
Informatica per le Discipline Umanistiche - Mauro Cadei
13/05/2011
11
PubMed Central
www.pubmedcentral.nih.gov
archivio aperto disciplinare (medicina)
13 maggio 2011
61
Informatica per le Discipline Umanistiche - Mauro Cadei
Rivista Open Access
rivista
con comitato editoriale
con processo di revisione per la selezione degli articoli
pubblicata in un archivio aperto
Directory of Open Access Journals(www.doaj.org): ne elenca oltre 5.000
13 maggio 2011
62
Informatica per le Discipline Umanistiche - Mauro Cadei
Valutazione dei Sistemi di IR
13 maggio 2011
63
Informatica per le Discipline Umanistiche - Mauro Cadei
Metriche sui Sistemi di IR
rilevanza: indica l‟interesse dell‟utente nei confronti dei documenti reperiti: non è oggettiva, dipende dalle conoscenze pregresse dell‟utente (doppioni, documenti simili, ridondanze …)
precisione: percentuale di documenti rilevanti per l‟utente rispetto al totale dei risultati
rumore: percentuale di documenti irrilevanti per l‟utente rispetto al totale dei risultati
richiamo: percentuale di documenti rilevanti reperiti rispetto al totale dei documenti rilevanti presenti nell‟intera collezione
silenzio: percentuale di documenti rilevanti non reperiti
novelty ratio: percentuale di documenti rilevanti reperiti precedentemente sconosciuti all‟utente
coverage ratio: rapporto tra i documenti rilevanti reperiti e i documenti rilevanti già noti all‟utente
13 maggio 2011
64
Informatica per le Discipline Umanistiche - Mauro Cadei
Legge di Mooers
Calvin Mooers (1952): “un sistema di IR tenderà a non essere usato quando trovare le informazioni è più noioso e doloroso che non trovarle”
rapidità: dipende da
velocità del sistema nel processare la query
capacità del sistema di far risparmiare tempo all‟utente
facilità d’uso: dipende da
facilità di apprendimento delle funzioni del sistema
possibilità di personalizzazioni
efficacia della presentazione dei risultati e dell‟accesso ai documenti primari
13 maggio 2011
65
Informatica per le Discipline Umanistiche - Mauro Cadei
FINE66
Informatica per le Discipline Umanistiche - Mauro Cadei 13 maggio 2011