universit à degli studi di modena e reggio emilia facolt à di ingegneria – sede di modena corso...
TRANSCRIPT
Università Degli Studi di Modena e Reggio Emilia
Facoltà di Ingegneria – Sede di ModenaCorso di Laurea in Ingegneria Informatica
Nuovo Ordinamento Didattico
TESI DI LAUREA DI PRIMO LIVELLOAnno accademico 2003 – 2004
Sistema Momis: analisi sperimentale dell’integrazione di una nuova sorgente
materiale disponibile all’url http://www.dbgroup.unimo.it/tesi/indexNod.html
Candidato:
Matteo Generali
Relatore:
Prof. Sonia Bergamaschi
SYNSET2
SYNSET#
SYNSET4
SYNSET1
MANUALANNOTATION
SEMI-AUTOMATICANNOTATION
INFERRED RELATIONSHIPS
LEXICON DERIVEDRELATIONSHIPS
SCHEMA DERIVEDRELATIONSHIPS
CommonThesaurus
COMMON THESAURUSGENERATION
USER SUPPLIEDRELATIONSHIPS
ODLI3LOCAL SCHEMA N
WRAPPING
ODLI3LOCAL SCHEMA 1
…
GVV GENERATION
MAPPING TABLES
GLOBAL CLASSES
clustersgeneration
Structuredsource
RDB
<XML>
<DATA>
Semi-StructuredSource
Sistema MOMIS: Mediator envirOnment for Multiple Information Sources
Estrazione delle sorgenti locali
SorgenterelazionaleSorgente
relazionaleWrapper
relazionaleWrapper
relazionaleODLi3ODLi3
SorgenteXML DTDSorgenteXML DTD
WrapperDTD
WrapperDTD
ODLi3ODLi3
SorgenteHTML
SorgenteHTML
WrapperHTML (Lixto)
WrapperHTML (Lixto)
Annotazione delle sorgenti locali
Elemento(Classe o Attributo)
Elemento(Classe o Attributo)
WordNetWordNet
Annotazione:• Word form• Significato
Annotazione:• Word form• Significato
Generazione del Common Thesaurus
• SYN (Synonim)• BT (Broader Term)• NT (Narrower Term)• RT (Related Term)
Tipi di relazione Origini delle relazioni
• Schema• Lessico• Aggiunte del progettista• ODB-Tools (chiusura
transitiva)
Generazione della GVV• Naming Affinity Coefficient (NA)Calcolato considerando i cammini che legano i nomi di due classi
{ } { } { }C
xflagCx
cAcA
nncAacAaanncAacAaaccSA
l
qtl
qtqqtl
qttl 1)(|
)()(
~),(),(|~),(),(|),(
=∈⋅
+
∈∈+∈∈=
• Global Affinity Coefficient (GA)
GA = (NA x wNA) + (SA x wSA)
{ }qtl
qtqt nncAacAaaaC ~),(),(|),( ∈∈= Valori suggeritiwNA = 0,5wSA = 0,5Soglia = 0,5
• Structural Affinity Coefficient (SA)Affinità strutturale fra le descrizioni di due classi
10),( )1(2312 ≤⋅⋅⋅<=′ −ℜℜ mmccNA σσσ K α≥′→ ′ ),( ccNAANDnnse cm
c
0),( =′ccNA negli altri casi
Annotazione della GVV
G = <{ class, teaching,course},{class#3,teaching#3, course#1}>G = <{ class, teaching,course},{class#3,teaching#3, course#1}> G = <{ class, teaching,course},{class#3,teaching#3, course#1}>G = <{ class, teaching,course},{class#3,teaching#3, course#1}>
Classe Globale annotataClasse Globale annotata
CS.Class=<class, {class#3}>
UNI.Course=<course,{course#1}>
UNI.Teaching=<teaching,{teaching#3}>
CS.Class=<class, {class#3}>
UNI.Course=<course,{course#1}>
UNI.Teaching=<teaching,{teaching#3}>
Classi Locali annotateClassi Locali annotate
class#3 = course#1 = education imparted in a series of class#3 = course#1 = education imparted in a series of lessons or class meetings lessons or class meetings
teaching#3 = teaching#3 = activities that impart knowledgeactivities that impart knowledge
class#3 = course#1 = education imparted in a series of class#3 = course#1 = education imparted in a series of lessons or class meetings lessons or class meetings
teaching#3 = teaching#3 = activities that impart knowledgeactivities that impart knowledgeSignificatiSignificati
WordNetWordNet
G= {CS.Class, UNI.Course, UNI.Teaching}G= {CS.Class, UNI.Course, UNI.Teaching}
significatisignificati
nominomi
nome più generalenome più generalesignificato più generalesignificato più generale
Relazioni del Common ThesaurusRelazioni del Common Thesaurus
Integrazione di una nuova sorgente
oldSource1oldSource1
oldSource2oldSource2
oldSource3oldSource3
newSourcenewSource
newGVV
oldSource1
oldSource2
oldSource3
newSource
Primo approccio
GVVold
oldSource1
oldSource2
oldSource3
newSourcenewSource
Secondo approccio
Ricalcolo della GVV sfruttando la GVV precedente
GCnewGCnew GCold LCnew LCnew
GCnewGCnew LCnew LCnew LCnew
GCnewGCnew GCold GCold LCnew
•Caso 1
•Caso 2
•Caso 3
SperimentazioneEsperimento 1
• Sperimentazione Caso 1 e Caso 2
• Confronto tra le GVV ottenute
Esperimento 2
• Sperimentazione Caso 3
• Analisi teorica del Caso 3
Esperimento 1: esempioIndirizzo Indirizzo(prontocomune) Via Via CAP CAP Regione Regione Comune Comune
Indirizzo Indirizzo(prontocomune) Via Via CAP CAP Regione Regione Comune Comune +
Indirizzo (address, 2) CAP (string) zip_code (1) POSTA-ELETTRONICA (set <str ing>) e-mail (1) FAX (set <string>) fax (1) Via (string) street (1) Regione (string) region (3) TEL (set <string>) telehpone (1) Comune (string) town (1)
Indirizzo (address, 2) CAP (string) zip_code (1) POSTA-ELETTRONICA (set <str ing>) e-mail (1) FAX (set <string>) fax (1) Via (string) street (1) Regione (string) region (3) TEL (set <string>) telehpone (1) Comune (string) town (1)
=Indirizzo Indirizzo(subfor) Indirizzo(prontocomune) Via Via Via TEL TEL POSTA-ELETTRONICA POSTA-ELETTRONICA CAP CAP CAP FAX FAX Regione Regione Regione Comune Comune Comune
Indirizzo Indirizzo(subfor) Indirizzo(prontocomune) Via Via Via TEL TEL POSTA-ELETTRONICA POSTA-ELETTRONICA CAP CAP CAP FAX FAX Regione Regione Regione Comune Comune Comune
GVVold.Indirizzo
subfor.Indirizzo
GVVnew.Indirizzo
Confronto tra i due approcci
• Risultati finali confrontabili
• Il primo approccio è più oneroso nel numero delle relazioni
• Il secondo approccio ha un potere espressivo inferiore
• Il secondo approccio si presta a procedure con intervento minimo del progettista, il primo approccio consente maggiore interazione
Esperimento 2
• La sua presenza può compromettere la struttura della GVV come vista da applicazioni che svolgono query su di essa
Il terzo caso di integrazione è più complesso:
Esperimento 2: esempio
Caso Rel A-C Rel B-C Rel A-B NA(A,B) SA(A,B) NA(A,C) SA(A,C) NA(B,C) SA(B,C) Possibile 1 - - * * 0,5 0 0,5 0 0,5 NO 2 SYN SYN SYN 0,5 * 0,5 0 0,5 0 NO
3-a RT RT RT 0,25 < 0,25 0,25 ≥ 0,25 0,25 ≥ 0,25 SI 3-b RT RT NT/BT 0,4 < 0,1 0,25 ≥ 0,25 0,25 ≥ 0,25 SI 4-a NT NT RT 0,32 < 0,25 0,4 ≥ 0,1 0,4 ≥ 0,1 SI 4-b NT NT NT 0,4 < 0,1 0,4 ≥ 0,1 0,4 ≥ 0,1 SI 5-a SYN RT RT 0,25 < 0,25 0,5 * 0,25 < 0,25 SI 5-b SYN NT NT 0,4 < 0,1 0,5 * 0,4 ≥ 0,1 SI 6 RT NT NT 0,4 < 0,1 0,25 ≥ 0,25 0,4 ≥ 0,1 SI
7-a - - - 0 0,5 0 0,5 0 0,5 NO 7-b - NT - 0 0,1 0 0,5 0,4 ≥ 0,1 SI 8 RT RT RT 0,25 0 0,25 0,25 0,25 0,25 SI
Riepilogo
A B
CNT
NA = 0,4
SA ≥ 0,1
NTNA = 0,4
SA ≥ 0,1
RTNA = 0,32
SA < 0,25
Esperimento 2: conclusioni
• Il terzo caso di integrazione introduce una possibile inefficacia della GVV
• Solamente casi limite sono impossibili, molti altri sono realizzabili in teoria
• Talvolta è conveniente affrontare il terzo caso come estensione di uno degli altri due