teoria e tecniche della catalogazione e classificazione utenti, documenti, linguaggi di...

29
Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2004/2005

Upload: tino-pini

Post on 01-May-2015

218 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

Teoria e tecniche della catalogazione e classificazione

Utenti, documenti, linguaggi di indicizzazionericerca5ir

Prof.ssa Elisa GrignaniUniversità degli studi di Parma

aa. 2004/2005

Page 2: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 2

Abbiamo visto:

• Informazione• Gerarchia dell’informazione• Teoria dell’informazione (C. Shannon)

• Ciclo di trasferimento dell’informazione• Sistemi di recupero dell’informazione

Page 3: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 3

Gerarchia dell’informazione

Wisdom

Knowledge

Information

Data

Page 4: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 4

Teoria dell’informazione

Noise

Source DecodingEncoding Destination

Message Message

Channel

StorageSourceDecoding

(Retrieval/Reading)Encoding

(writing/indexing)Destination

Message Message

Page 5: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 5

Ciclo di trasferimento dell’informazione

Creation

Utilization Searching

Active

Inactive

Semi-Active

Retention/Mining

Disposition

Discard

Using Creating

AuthoringModifying

OrganizingIndexing

StoringRetrieval

DistributionNetworking

AccessingFiltering

Page 6: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 6

Struttura di un sistema IRSearchLine Interest profiles

& QueriesDocuments

& data

Rules of the game =Rules for subject indexing +

Thesaurus (which consists of

Lead-InVocabulary

andIndexing

Language

StorageLine

Potentially Relevant

Documents

Comparison/Matching

Store1: Profiles/Search requests

Store2: Documentrepresentations

Indexing (Descriptive and

Subject)

Formulating query in terms of

descriptors

Storage of profiles

Storage of Documents

Information Storage and Retrieval System

Adapted from Soergel, p. 19

Page 7: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 7

Sistemi IR: struttura (Cooper - Maron, 1985)

1. l’insieme delle possibili chiavi di accesso assegnate ai documenti;

2. l’insieme delle domande formulabili dagli utenti;

3. l’insieme degli indicatori di valore informativo da assegnare ai documenti;

4. una regola di recupero.

Page 8: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 8

Oggi (e domani)

• IR: alcuni concetti di base

Page 9: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 9

Concetti di base IR

• Utenti, bisogni informativi, domande

• Documenti, raccolte di documenti

• Linguaggi di indicizzazione, vocabolari controllati

• Processo di ricerca

• Valutazione - Rilevanza

Page 10: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 10

Concetti di base IR

• Utenti, bisogni informativi, domande

• Documenti, raccolte di documenti

• Linguaggi di indicizzazione, vocabolari controllati

• Processo di ricerca

• Valutazione - Rilevanza

Page 11: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 11

Utenti: bisogni informativi

• Perchè costruire sitemi IR?• Le diverse persone hanno bisogni

informativi diversi e del tutto svariati• Le persone spesso non sanno cosa cercano,

o possono non essere in grado di esprimere il loro bisogno informativo in modo utile

Page 12: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 12

Utenti: domande

• Una domanda (query) è una forma di espressione dei bisogni informativi dell’utente

• Può essere espressa in vari modi– in linguaggio naturale

– nei termini di un linguaggio di indicizzazione

• Le domande talvolta non rappresentano in modo accurato il bisogno informativo– Differenze tra una conversazione tra persone e una

espressione formale di ricerca

Page 13: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 13

Utenti: domande: cataloghi

Indagine sponsorizzata dal Council on Library Resources sull’utilizzo dei cataloghi online nelle biblioteche USA: Using online catalogs: a nationwide survey, New York, Neal-Schuman, 1983.

Page 14: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 14

Page 15: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 15

Utenti: domande: Web

Indagini sull’uso del Web:

• La gente che cosa cerca?

• Come utilizza i motori di ricerca?

– In quale percentuale trova ciò che sta cercando?

– Qual è il livello di difficoltà nel trovare ciò che cerca?

• Come si possono migliorare i motori di ricerca?

Page 16: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 16

La gente che cosa cerca nel Web?

• Studio di Amanda Spink et al., Ott. 1998

Indagine su Excite; dati tratti da un campione di 316 utenti intervistati tramite questionario

<www.shef.ac.uk/~is/publications/infres/paper53.html>

Page 17: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 17

What Do People Search for on the Web?Self-reported topics

• Genealogy/Public Figure: 12%• Computer related: 12%• Business: 12%• Entertainment: 8%• Medical: 8%• Politics & Government 7%• News 7%• Hobbies 6%• General info/surfing 6%• Science 6%• Travel 5%• Arts/education/shopping/images 14%

• Something is missing…

Page 18: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 18

What Do People Search for on the Web?

• 4660 sex

• 3129 yahoo

• 2191 internal site administr.

• 1520 chat

• 1498 porn

• 1315 horoscopes

• 1284 pokemon

• 1283 SiteScope test

• 1223 hotmail

• 1163 games

• 1151 mp3

• 1140 weather

• 1127 www.yahoo.com

• 1110 maps

• 1036 yahoo.com

• 983 ebay

• 980 recipes

50,000 queries from Excite 1997

Most frequent terms:

Page 19: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 19

Google come spirito del tempo Zeitgeist

• Andiamo a vedere la pagina:

<http://www.google.com/press/zeitgeist.html>

Page 20: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 20

Concetti di base IR

• Utenti, bisogni informativi, domande

• Documenti, raccolte di documenti

• Linguaggi di indicizzazione, vocabolari controllati

• Processo di ricerca

• Valutazione - Rilevanza

Page 21: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 21

Documenti• Un documento è una rappresentazione di una

aggregazione di informazioni, considerata come una unità

• Cosa intendiamo con documento?– l’intero documento?– un suo surrogato?– pagine?

• M. Buckland, What is a Document, “JASIS”, Sept. 1997, pp. 804-809

• J. LeGoff, Documento/Monumento, in Enciclopedia, Torino, Einaudi, 1977-1982, vol. 5, pp. 38-48

Page 22: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 22

Raccolte di documenti / Collezioni

• Una collezione è una aggregazione fisica o logica di documenti– museo, pinacoteca– biblioteca – base di dati– biblioteca digitale– ...

• Krzysztof POMIAN, Memoria, in Enciclopedia, Torino, Einaudi, 1977-1982, vol. 15, pp. 388-399

Page 23: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 23

Concetti di base IR

• Utenti, bisogni informativi, domande

• Documenti, raccolte di documenti• Linguaggi di indicizzazione, vocabolari

controllati (da approfondire nel modulo B del corso)

• Processo di ricerca

• Valutazione - Rilevanza

Page 24: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 24

Linguaggi di indicizzazione

• Indicizzazione a parole chiave non controllate: p.e. KWIC, KWOC, “cerca” nel titolo in un OPAC

• Linguaggi di indicizzazione controllati ma non strutturati

• Thesauri: controllati e strutturati

• Schemi di classificazione: controllati, strutturati e codificati

Page 25: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 25

Vocabolari controllati

• Il controllo terminologico è un tentativo di fornire un insieme standardizzato e coerente di termini (quali voci di soggetto, nomi di persone o enti, notazioni di uno schema di classificazione) con lo scopo di portare un aiuto nella ricerca di informazioni

• Un esempio linguistico: Word Net <www.cogsci.princeton.edu/~wn>

Page 26: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 26

Vocabolari controllati• Soggettari: p.e., Soggettario di Firenze, Library of

Congress Subject Headings: <http://authorities.loc.gov/>

• Thesauri: p.e., ERIC Thesaurus of Descriptors <www.ericfacility.net/extra/pub/thessearch.cfm>,

The Art and Architecture Thesaurus <www.getty.edu/research/conducting_research/vocabularies/>,

Medical Subject Headings (MESH)• Name Authority File: <http://authorities.loc.gov/>

• Schemi di classificazione: p.e., CDD, CDU, CC• ...

Page 27: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 27

Sistemi pre- e post-coordinati

• Sistemi pre-coordinati: è l’indicizzatore (bibliotecario, etc.) che costruisce adeguate rappresentazioni del contenuto dei documenti.

• Sistemi post-coordinati: è l’utente o chi conduce la ricerca che combina i singoli concetti per descrivere documenti che potrebbero essere considerati rilevanti.

Page 28: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 28

Concetti di base IR

• Utenti, bisogni informativi, domande

• Documenti, raccolte di documenti

• Linguaggi di indicizzazione, vocabolari controllati

• Processo di ricerca

• Valutazione - Rilevanza

Page 29: Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli

T&T 2004/05 29

Prossimamente

• Processo di ricerca dell’informazione

• Valutazione – Rilevanza

• Cataloghi e bibliografie come sistemi IR