Αξιολόγηση μετρικών απόστασης λέξεων και η εφαρμογή...

41
Αξιολόγηση μετρικών απόστασης λέξεων και η εφαρμογή τους στην ταύτιση όμοιων εγγραφών Ραπανάκης Σταμάτης Ιούνιος 2007

Upload: veda-giles

Post on 01-Jan-2016

37 views

Category:

Documents


4 download

DESCRIPTION

Αξιολόγηση μετρικών απόστασης λέξεων και η εφαρμογή τους στην ταύτιση όμοιων εγγραφών. Ραπανάκης Σταμάτης Ιούνιος 2007. Δομή παρουσίασης. Εισαγωγή Μέθοδοι Σύγκρισης Υλοποίηση Πειράματα Συμπεράσματα Μελλοντικές επεκτάσεις. Κίνητρο. Εύρεση όμοιων εγγραφών σε βάσεις δεδομένων - PowerPoint PPT Presentation

TRANSCRIPT

Αξιολόγηση μετρικών απόστασης λέξεων και η εφαρμογή τους στην ταύτιση όμοιων

εγγραφών

Ραπανάκης Σταμάτης Ιούνιος 2007

2

Δομή παρουσίασης

Εισαγωγή

Μέθοδοι Σύγκρισης

Υλοποίηση

Πειράματα

Συμπεράσματα

Μελλοντικές επεκτάσεις

3

Εύρεση όμοιων εγγραφών σε βάσεις δεδομένων“Philippe The Original 1001 N. Alameda St. Chinatown 213-

628-3781 Cafeterias”“Philippe's The Original 1001 N. Alameda St. Los Angeles

213/628-3781 American”

Ενοποίηση βάσεων δεδομένωνΑντιμετώπιση προβλημάτων δομικής και λεξικής ετερογένειας

Διασύνδεση εγγραφών (Record Linkage): Διαδικασία του εντοπισμού εγγραφών από μια ή περισσότερες πηγές δεδομένων.

Κίνητρο

4

Πειραματική αξιολόγηση μετρικών απόστασης λέξεων για σκοπούς διασύνδεσης εγγραφών

Ανάπτυξη και παροχή μίας προγραμματιστικής

βιβλιοθήκης για τον εντοπισμό διπλότυπων εγγραφών και την αξιολόγηση των μετρικών απόστασης

Σκοπός της εργασίας

5

Δομή παρουσίασης

Εισαγωγή

Μέθοδοι Σύγκρισης

Υλοποίηση

Πειράματα

Συμπεράσματα

Μελλοντικές επεκτάσεις

6

Σύγκριση εγγραφών σε επίπεδοΕπιμέρους πεδίωνΟλόκληρης εγγραφής

Σύγκριση ωςΣυμβολοσειράΦωνητική αναπαράσταση

Θεωρητικό υπόβαθρο (1/2)

7

Σύγκριση ως συμβολοσειρέςΑπόσταση Επεξεργασίας (edit distance)

Levenshtein Smith – Waterman

Απόσταση βασισμένη σε λεκτικές μονάδες (tokens) Jaccard Monge – Elkan

Απόσταση βασισμένη σε υβριδική προσέγγιση SoftTFIDF

Άλλες αποστάσεις COCLU

Θεωρητικό υπόβαθρο (2/2)

8

Μετρική LevenshteinΥπολογίζει τον ελάχιστο αριθμό λειτουργιών σύνταξης για να

μετατραπεί η συμβολοσειρά στην συμβολοσειρά Υπάρχουν 3 τύποι λειτουργιών σύνταξης

Εισαγωγή ενός χαρακτήρα σε μια συμβολοσειρά Διαγραφή ενός χαρακτήρα από μια συμβολοσειρά Αντικατάσταση ενός χαρακτήρα με έναν άλλο

Παράδειγμα: “stamatios” “Stamatis”Αντικατάσταση χαρακτήρα “s” με “S” Διαγραφή χαρακτήρα “o”Απόσταση 2

1s 2s

Μετρικές απόστασης επεξεργασίας (1/2)

9

Η μετρική LevenshteinΑναθέτει σε κάθε λειτουργία το ίδιο κόστος σύνταξηςΔεν λειτουργεί καλά σε συντομευμένες συμβολοσειρές

“Jonathan R. Smith” έναντι “Jonathan Richard Smith”

Μετρική Smith-WatermanΠαρέχει επιπλέον λειτουργίες

Εισαγωγή κενού σε μια συμβολοσειρά (υψηλότερο κόστος) Επέκταση κενού σε μια συμβολοσειρά (χαμηλότερο κόστος)

Παίρνει ως παράμετρο έναν πίνακα με κόστη χαρακτήρωνΣυγκρίνει υποακολουθίες όλων των πιθανών μηκών και

εντοπίζει τις όμοιες υποακολουθίες Παράδειγμα: “Prof. John R. Smith, University of Calgary” και

“John R. Smith, Prof.”

Μετρικές απόστασης επεξεργασίας (2/2)

10

Χωρίζουν την συμβολοσειρά στις λεκτικές μονάδες στις οποίες συνίσταταιΣυγκρίνονται οι επιμέρους λεκτικές μονάδες Εντοπίζουν μεταθέσεις λέξεων αντί για μεταθέσεις

χαρακτήρων, π.χ. “John Smith” έναντι “Smith John”

Μετρικές αυτής της κατηγορίαςJaccardMonge-Elkan

Μετρικές βασισμένες σε λεκτικές μονάδες (1/3)

11

Μετρική JaccardΟρίζονται δύο σύνολα A και B που περιέχουν τις λέξεις που

αποτελούν τις υπό σύγκριση συμβολοσειρές, π.χ. A = {“Ventura”, “Blvd.”, “Studio”, “City”} B = {“Ventura”, “Boulevard.”, “Studio”, “City”}

Η απόσταση Jaccard ορίζεται ως

Στο παραπάνω παράδειγμα είναι 2/5

Μετρικές βασισμένες σε λεκτικές μονάδες (2/3)

| | | |1 ( , )

| |dist sim

A B A BJ J A B

A B

12

Μετρική Monge-ElkanΔύο συμβολοσειρές Α και Β ταιριάζουν είτε αν είναι ακριβώς

ίδιες είτε αν οι λέξεις της μίας είναι συντομεύσεις των αντίστοιχων λέξεων (tokens) της άλλης

Συγκρατούμε το καλύτερο αποτέλεσμα σύγκρισης για κάθε token

Α, Β οι συμβολοσειρές, match η απόσταση Smith – Waterman – Gotoh

Παράδειγμα: “Souliou, 11 A, Marousi, 15124” και η συμβολοσειρά “Marousi, 15 124, Souliou, 11 A, Athens”

Μετρικές βασισμένες σε λεκτικές μονάδες (3/3)

13

Μετρικές βασισμένες σε υβριδική προσέγγιση απόστασης επεξεργασίας και λεκτικών

μονάδων (1/3)Ορισμός συναρτήσεων ομοιότητας του τύπου

Οι συμβολοσειρές s και t χωρίζονται στις συνιστώσες τους λεκτικές μονάδες και

είναι η εκάστοτε μετρική ομοιότητας που χρησιμοποιείται

1... Lt b b

11

1( , ) max ( , ),

K L

i jj

i

sim s t sim A BK

1... Ks a asim

14

Μετρικές βασισμένες σε υβριδική προσέγγιση απόστασης επεξεργασίας και λεκτικών

μονάδων (2/3)

Μετρική TFIDFΓια κάθε εγγραφή ορίζουμε ένα διάνυσμα της μορφής

, όπου η τιμή της συνιστώσας είναι: 0, αν η λέξη t δεν υπάρχει στο αντίστοιχο πεδίο της εγγραφής που

μελετάμε , διαφορετικά

είναι ο αριθμός των φορών όπου η λέξη t εμφανίζεται στο πεδίο και

, όπου ο αριθμός των εγγραφών στην βάση που περιέχουν την λέξη t στο αντίστοιχο πεδίο

1 2, ,..., ktt tv v v v ˆtv

,log( 1) log( )V t tTF IDF

,V tTF

| |

| |tt

CIDF

C | |tC

15

Μετρικές βασισμένες σε υβριδική προσέγγιση απόστασης επεξεργασίας και λεκτικών

μονάδων (3/3)

Η ομοιότητα δίνεται από την σχέση

Μετρική SoftTFIDFΥπολογίζει και ζεύγη από λέξεις που είναι «όμοια» με κάποια

άλλη μετρικήΑποδίδει καλά στις περιπτώσεις των τυπογραφικών λαθών,

π.χ. “Compter Science Department” και “Deprtment of Computer

Science”

( , ) t t

t Tsim v w v w

16

Αλγόριθμος COCLU (Compression based Clustering)Αναθέτει τις συμβολοσειρές σε συστάδες (cluster)Κάθε συστάδα χαρακτηρίζεται από ένα δένδρο HuffmanΗ μετρική CCDiff (Cluster Code Difference) αναπαριστά την

διαφορά: |Length(Cluster_tokens) – Length (Cluster_tokens+candidate)|

Ανάλογα με το κατώφλι που ορίζουμε, αποφασίζουμε αν μια υποψήφια συμβολοσειρά θα ανήκει σε ένα cluster

Στην υλοποίηση μας δύο συμβολοσειρές είναι όμοιες εάν ανήκουν στην ίδια συστάδα.Η πρώτη συμβολοσειρά σχηματίζει μια συστάδα και ελέγχεται

αν η δεύτερη μπορεί να εκχωρηθεί σε αυτή

Άλλες μετρικές

17

Δομή παρουσίασης

Εισαγωγή

Μέθοδοι Σύγκρισης

Υλοποίηση

Πειράματα

Συμπεράσματα

Μελλοντικές επεκτάσεις

18

Επίπεδα του συστήματος(Αρχ/κή Taylor)

Επίπεδο γραφικής διεπαφής

Εργαλεία Μετρήσεων

Μοντέλα Απόφασης

Επίπεδο Σύγκρισης

Επίπεδο Blocking

Προτυποποίηση

Σύστημα Διαχείρισης ΒΔ

19

Λειτουργικό επίπεδο Ονομασία διεπαφής

6. Εργαλεία Μετρήσεων Measurement

5. Μοντέλα απόφασης Decision

4. Επίπεδο Σύγκρισης Comparison

3. Επίπεδο Blocking Blocking

2. Προτυποποίηση Standardisation

1. ΣΔΒΔ DataSource

Επίπεδα διεπαφής

20

Οι τυπικές πηγές των δεδομένων είναι είτε βάσεις δεδομένων είτε αρχεία. Χαρακτηριστικές υλοποιήσεις της διεπαφής DataSource:FileHandleJDBCHandle

Παρέχονται οι μέθοδοι:void openConnection()void closeConnection()Record[] getRecords()

Σύστημα Διαχείρισης Β.Δ.

21

Συγκρίνει συμβολοσειρές με βάση τις υλοποιήσεις της διεπαφής Comparison:JaccardComparisonLevenshteinComparison

Παρέχονται οι μέθοδοι:boolean Match(String s1, String s2)double MatchConfidence(String s1, String s2)boolean Match(String s1, String s2, Object[] oParam)double MatchConfidence(String s1, String s2, Object[]

oParam)

Επίπεδο Σύγκρισης

22

Λαμβάνεται η απόφαση αν δύο εγγραφές ταιριάζουν ή όχι. Χαρακτηριστικές υλοποιήσεις της διεπαφής Decision:LinearDecision

Παρέχονται οι μέθοδοι:public int DecideMatch(Record r1, Record r2)public int DecideMatch(Record r1, Record r2, Object[]

oParams)

Μοντέλα απόφασης

23

Υλοποίηση της κανονικοποιημένης απόστασης Levenshtein:

public double MatchConfidence(String s1, String s2)

{

double dLevenshtein = DistanceMetrics.Levenshtein.computeLevenshteinDistance(s1, s2);

int max_string_length = Math.max(s1.length(), s2.length());

double match_conf = dLevenshtein/max_string_length;

return 1.0 - match_conf;

}

Παράδειγμα

24

Μπορεί να χρησιμοποιηθεί είτε σαν ανεξάρτητο πρόγραμμα εντοπισμού πολλαπλών εγγραφών είτε να ενσωματωθεί σε κάποιο άλλο πρόγραμμα ως λειτουργική υπομονάδα.

Σε αντίθεση με τα υπάρχοντα προγράμματα μπορεί να επεκταθεί/ τροποποιηθεί εύκολα.Παρέχει στο χρήστη ευελιξία που δεν παρέχουν άλλες

πλατφόρμεςΣτηρίζεται σε ευρέως γνωστές βιβλιοθήκεςΜπορεί να λειτουργήσει σαν πειραματική πλατφόρμα

Πλεονεκτήματα της Βιβλιοθήκης

25

Δομή παρουσίασης

Εισαγωγή

Βιβλιογραφικό Υπόβαθρο

Υλοποιήσεις μας

Πειράματα

Συμπεράσματα

Μελλοντικές επεκτάσεις

26

ΣκοπόςΠροσδιορισμός της αποτελεσματικότητας της κάθε μετρικής

απόστασης.Ποιες από τις μετρικές αποδίδουν καλύτερα ανεξάρτητα από

τον τύπο του πεδίου

Αρχικό σύνολο δεδομένωνFodors και Zagats (W. Cohen)864 εγγραφές, 112 όμοιες εγγραφές.Με το πεδίο τηλέφωνο/ χωρίς το πεδίο τηλέφωνο (που είναι

πιο δύσκολο).

Πειράματα

27

Philippe's 34 E. 61st St. New York 212/ 319-1660 American

Yujean Kang's 67 N. Raymond Ave. Pasadena 818-585-0855 Chinese

Για κάθε ζεύγος εγγραφών παράγουμε ένα διάνυσμα της μορφής , όπου π.χ. Sim(“Philippe”, “Philippe’s”) Sim(“34 E. 61st St.”, “34 E. 61st St.”) Sim(“New York City”, “New York”), κλπ.R = TRUE αν οι δύο εγγραφές ταιριάζουν, FALSE διαφορετικά

Chinois on Main 2709 Main St. Santa Monica 310-392-9025 Pacific New Wave

Philippe 34 E. 61st St. New York City 212-319-1660 American (New)Fodors:

Zagats:

1 2 3 4 5, , , , ,x x x x x R 1x

1x2x 3x 3x 3x

Μεθοδολογία πειραμάτων (1/2)

2x

3x

ix

28

Προσδιορισμός μιας σχέσης

Χρησιμοποιούμε την πλατφόρμα μηχανικής μάθησης Weka για την εκπαίδευση ενός ταξινομητή

Θα κατατάσσει τα διανύσματα της παραπάνω μορφής ως TRUE/FALSE

ii

Mx

a

Μεθοδολογία πειραμάτων (2/2)

29

Δεδομένα εκπαίδευσης: 10 τυχαία ζευγάρια εγγραφών που ταιριάζουν και 10 τυχαία ζευγάρια εγγραφών που δεν ταιριάζουν από την συλλογή Fodors και Zagats.

Σύνολο αξιολόγησης: Το σύνολο των εγγραφών

Επιλογή του ταξινομητή DecisionStump για την εύρεση ενός κανόνα της μορφής If Phone_similarity <= 0.8333, FALSE else TRUE

H αναλογία ζευγών εγγραφών που ταιριάζουν /δεν ταιριάζουν είναι 1:1 στα δεδομένα εκπαίδευσης αλλά διαφορετική στα δεδομένα αξιολόγησης.

Εκπαίδευση ταξινομητή

30

Ποσοστό επιτυχημένης ταξινόμησης εγγραφώνΜε το πεδίο τηλέφωνο

0 20 40 60 80 100

Monge - Elkan

Jaccard

Levenshtein

Smith - Waterman

Jaro - Winkler

Jaro

TokenFellegiSunter

Qgrams

COCLU

SoftTF-IDF

TF-IDF

Αποτελέσματα (1/6)

31

CO

CLU

Monge -

Elk

an

Jaccard

Levenshte

in

Sm

ith -

Wate

rman

Jaro

- W

inkle

r

Jaro

TokenF

elle

giS

unte

r

Qgra

ms

SoftT

F-I

DF

TF

-ID

F Ακρίβεια

00,10,20,30,40,50,6

0,7

Ακρίβεια

Ακρίβεια - Με το πεδίο τηλέφωνο

Αποτελέσματα (2/6)

32

CO

CLU

Mon

ge -

Elk

an

Jacc

ard

Leve

nsht

ein

Sm

ith -

Wat

erm

an

Jaro

- W

inkl

er

Jaro

Tok

enF

elle

giS

unte

r

Qgr

ams

Sof

tTF

-ID

F

TF

-ID

F

Ανάκληση

0,930,940,950,960,970,98

0,991

Ανάκληση

Ανάκληση - Με το πεδίο τηλέφωνο

Αποτελέσματα (3/6)

33

0 20 40 60 80 100

Monge - Elkan

COCLU

Levenshtein

Jaro

Smith - Waterman

Jaro - Winkler

Jaccard

TokenFellegiSunter

Qgrams

SoftTF-IDF

TF-IDF

Αποτελέσματα (4/6)

Ποσοστό επιτυχημένης ταξινόμησης εγγραφώνΧωρίς το πεδίο τηλέφωνο

34

Ακρίβεια - Χωρίς το πεδίο τηλέφωνο

Αποτελέσματα (5/6)

CO

CLU

Mon

ge -

Elk

an

Leve

nsht

ein

Jaro

Sm

ith -

Wat

erm

an

Jaro

- W

inkl

er

Jacc

ard

Tok

enF

elle

giS

unte

r

Qgr

ams

Sof

tTF

-ID

F

TF

-ID

F

Ακρίβεια

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

Ακρίβεια

35

CO

CLU

Levenshte

in

TokenF

elle

giS

unte

r

Jaro

Qgra

ms

Sm

ith -

Wate

rman

Jaccard

Jaro

- W

inkle

r

Monge -

Elk

an

SoftT

F-I

DF

TF

-ID

F Ανάκληση

0,75

0,8

0,85

0,9

0,95

1

Ανάκληση

Αποτελέσματα (6/6)

Ανάκληση - Χωρίς το πεδίο τηλέφωνο

36

Δομή παρουσίασης

Εισαγωγή

Μέθοδοι Σύγκρισης

Υλοποίηση

Πειράματα

Συμπεράσματα

Μελλοντικές επεκτάσεις

37

Τα αποτελέσματα οφείλονται στο ότιΠεδία όπως Τηλέφωνο ή Πόλη προσδιορίζουν επαρκώς τις

όμοιες εγγραφέςΜικρός βαθμός ανομοιογένειας των πινάκων

Οι υβριδικές μετρικές επιτυγχάνουν καλύτερα αποτελέσματαΣυνδυάζουν τα πλεονεκτήματα των μετρικών σύγκρισης

χαρακτήρων και λεκτικών μονάδωνΠερισσότερο χρονοβόρες

Ο αλγόριθμος του COCLU είναι ασταθήςΑνάγκη αξιόπιστου μηχανισμού για τον προσδιορισμό του

κατωφλίου

Συμπεράσματα (1/2)

38

Οι μετρικές που στοχεύουν σε συγκεκριμένη εφαρμογή δεν αποδίδουν πάντα.Monge – ElkanCOCLU

Περισσότερα πειράματα είναι απαραίτητα.Τα πεδία να περιέχουν λάθη (ορθογραφικά)Περισσότερους τύπους πεδίωνΠειράματα με πιο ανομοιογενείς συλλογές εγγραφών

Η μέθοδος δεν είναι χρήσιμη ως αυτόματη, αλλά ως ημιαυτόματη.

Συμπεράσματα (2/2)

39

Δομή παρουσίασης

Εισαγωγή

Μέθοδοι Σύγκρισης

Υλοποίηση

Πειράματα

Συμπεράσματα

Μελλοντικές επεκτάσεις

40

Χρήση σύνθετων μοντέλων απόφασηςΕκμετάλλευση του συσχετισμού των πεδίωνΧρησιμοποίηση άλλων ταξινομητών

Υλοποίηση ευριστικών μηχανισμών για την επιλογή της καταλληλότερης μετρικής ανάλογα με τον τύπο του πεδίουΔυσκολία αναγνώρισης του τύπου του πεδίου

Αξιολόγηση των μετρικών με βάση θέματα αλγοριθμικής πολυπλοκότητας

Μελλοντικές επεκτάσεις

41

Ευχαριστώ!