h ΠΛΗΡΟΦΟΡΙΚΗ ΣΤh...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ...

35
H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH ΓΛΩΣΣΑ Ποσοτικές Προσεγγίσεις στην Επεξεργασία Σωμάτων Κειμένου Κάτια Κερμανίδου [email protected]

Upload: others

Post on 07-Jun-2020

10 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH ΓΛΩΣΣΑ

Ποσοτικές Προσεγγίσεις στην Επεξεργασία Σωμάτων Κειμένου

Κάτια Κερμανίδου

[email protected]

Page 2: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι είναι ένα σώμα κειμένων (text corpus);

• Corpus = σώμα στα Λατινικά • Σώμα κειμένων είναι ένα σώμα εμφανίσεων

γλωσσολογικών στοιχείων που προκύπτουν με φυσικό τρόπο

• Συνήθως συλλέγεται με κάποιο συγκεκριμένο σκοπό και είναι αντιπροσωπευτικό μιας γλώσσας

• Χρησιμοποιείται για να – Επαληθεύσει υπάρχουσες θεωρίες και υποθέσεις

Γλωσσολογίας – Να δημιουργήσει καινούριες γλωσσολογικές

υποθέσεις – Εκτός Γλωσσολογίας, να παράσχει στοιχεία κειμενικά

σε θέματα που αφορούν σε ανθρωπιστικές και κοινωνικές επιστήμες

Page 3: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Ο πιο διαδεδομένος ορισμός

• “Σώμα κειμένων θεωρείται κάθε συλλογή τμημάτων μιας συγκεκριμένης γλώσσας, τα οποία επιλέγονται και διατάσσονται σύμφωνα με συγκεκριμένα γλωσσολογικά κριτήρια, έτσι ώστε να μπορούν να χρησιμοποιηθούν ως αντιπροσωπευτικό δείγμα της γλώσσας αυτής” (Sinclair, 1996)

Page 4: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι ΔΕΝ είναι ένα σώμα κειμένων (text corpus);

• Μια λίστα λέξεων (λεξικό)

• Ένα μεμονωμένο κείμενο

• Μια ΤΥΧΑΙΑ συλλογή κειμένων

Page 5: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Ένα σώμα κειμένων • Είναι αντιπροσωπευτικό μιας γλώσσας • Φανερώνει τι είναι σύνηθες σε μια γλώσσα • Μπορεί να δώσει ακριβείς στατιστικές μετρήσεις των

φαινομένων της γλώσσας • Αποθηκεύεται και ανακαλείται οποιαδήποτε στιγμή η

πληροφορία σε αυτό • Παρέχει φυσικά/πραγματικά παραδείγματα της γλώσσας • Αποτελεί αντικειμενικό δείγμα της χρήσης της γλώσσας • Είναι διαθέσιμο σε όλους • Μπορεί να επικαιροποιείται συνεχώς και αν αντανακλά τις

πρόσφατες αλλαγές στην γλώσσα • Δεν μπορεί να παρέχει αρνητική ένδειξη για μη δυνατά

φαινόμενα • Δεν μπορεί από μόνο του να εξηγήσει αυτά που

παρατηρούνται σε αυτό • Αποτελεί περιορισμό για την όποια έρευνα στηρίζεται σε αυτό • Eίναι πολωμένο/στρεβλωμένο (skewed) – Ν. Chomsky

Page 6: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Είδη σωμάτων κειμένου • Γραπτού λόγου/προφορικού λόγου

• σύγχρονα/διαχρονικά

• Γενικού σκοπού (ισορροπημένα)/εξειδικευμένα – Γενικού σκοπού: για χρήση σε εφαρμογές ανεξάρτητες

θεματικής περιοχής, π.χ. WSJ corpus

– Εξειδικευμένα: για εφαρμογές σε συγκεκριμένες θεματικές περιοχές, π.χ. chat text για ανάλυση τέτοιου είδους επικοινωνίας

• Μονόγλωσσα/Παράλληλα

• Επίπεδο επισημείωσης – Γυμνό σώμα κειμένων (raw corpus)

– Λημματοποιημένο

– Επισημειωμένες λέξεις ως προς το μέρος του λόγου

– Συντακτικά αναλυμένο

– Σημασιολογικά αναλυμένο

Page 7: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Επισημείωση/Annotation

• Το κείμενο φέρει φωνολογικές, γραμματικές, συντακτικές ή σημασιολογικές πληροφορίες.

• Μέθοδοι επισημείωσης – Χειρωνακτική – Αυτόματη – Ημι-αυτόματη

Page 8: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Επισημείωση/Annotation • Η επισημείωση μπορεί να πραγματοποιηθεί σε διάφορα

επίπεδα γλωσσολογικής γνώσης • Φωνολογικό επίπεδο

• Όρια φωνητικών συλλαβών • Στοιχεία προσωδίας

• Μορφολογικό επίπεδο • Προθέματα • Επιθέματα • Λήμματα/Θέματα • Επισημείωση μορφολογικής πληροφορίας • Μέρη του Λόγου

• Συντακτικό επίπεδο • Treebanks • Ομαδοποίηση λέξεων σε φράσεις

• Σημασιολογικό επίπεδο • Έννοιες λέξεων

• Πραγματολογικό επίπεδο • Αντωνυμικές αναφορές • Επισημείωση υφολογικών στοιχείων

Page 9: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι μπορώ να μετρήσω με ένα ΣΚ; Ωμές συχνότητες (Raw frequencies)

• Η πιο απλή ποσοτική προσέγγιση στην επεξεργασία ενός σώματος κειμένων είναι η μέτρηση των φορών που εμφανίζεται μια λέξη/φράση μέσα στο σώμα κειμένων.

• Στο παραπάνω κείμενο: – Συχνότητα(«κειμένων») = ?

– Συχνότητα («η») = ? (case-sensitive)

– Συχνότητα («η») = ? (όχι case-sensitive)

Page 10: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Ο Νόμος του Zipf (Zipf’s Law) • Λίγες λέξεις σε μια γλώσσα εμφανίζονται πού συχνά,

οι περισσότερες είναι σπάνιες (Νόμος του Zipf) • Σε ένα σώμα κειμένων μετράω την συχνότητα (f) των

λέξεων και τις ταξινομώ κατά φθίνουσα συχνότητα. • r = η θέση μιας λέξης στην παραπάνω κατάταξη

(rank) • O Zipf (1949) ανακάλυψε ότι f*r=k (σταθερό) Εάν ο πιο συχνός όρος (the) εμφανίζεται f φορές τότε ο δεύτερος πιο συχνός όρος (of) εμφανίζεται f/2

φορές ο τρίτος πιο συχνός όρος (and) εμφανίζεται f/3 φορές ...

Page 11: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Ο Νόμος του Zipf (Zipf’s Law)

Page 12: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι μπορώ να μετρήσω με ένα ΣΚ; Κανονικοποιημένες συχνότητες

(Normalized frequencies) • Στο British National Corpus ομιλίας η υβριστική λέξη

f**k εμφανίζεται 250 φορές

• Στο British National Corpus γραπτού λόγου η ίδια λέξη εμφανίζεται 500 φορές

• Βρίζουν οι άνθρωποι με διπλάσια συχνότητα στον γραπτό λόγο από ότι στον προφορικό;

• Όχι, το BNC γραπτού λόγου είναι 9 φορές μεγαλύτερο σε μέγεθος (~90 εκατ. λέξεις) από το BNC προφορικού λόγου (~10 εκατ. λέξεις)

• Κανονικοποιημένη συχνότητα στο σώμα ομιλίας: – 250/10.000.000 = x/1.000.000 => x=25

• Κανονικοποιημένη συχνότητα στο σώμα γραπτού λόγου: – 500/90.000.000 = x/1.000.000 => x=5.55

Page 13: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Ωμές συχνότητες (Raw frequencies) • Το πρόβλημα με τις ωμές συχνότητες είναι ότι

δεν λαμβάνουν υπόψη πώς κατανέμεται η λέξη/φράση μέσα στο σώμα κειμένων.

• Είναι ομοιόμορφα κατανεμημένη σε όλα τα μέρη του σώματος, ή εμφανίζεται κατά κύριο λόγο σε ένα μέρος και πολύ σπάνια αλλού;

• Στο British National Corpus (ΒΝC) – Οι λέξεις HIV, keeper, lively εμφανίζονται περίπου

με την ίδια συχνότητα, δηλ. ~16 φορές ανα 1 εκατ. λέξεις

– Αν χωρίσουμε το σώμα κειμένων σε 100 ισομεγέθη μέρη, τότε η λέξη HIV εμφανίζεται σε 62 από αυτά, ενώ οι λέξεις keeper & lively εμφανίζονται σε 97.

– Από αυτό συμπεραίνουμε ότι η λέξη HIV εμφανίζεται μέσα σε πιο εξειδικευμένα συμφραζόμενα.

Page 14: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Document Frequencies

• Έστω ότι το σώμα κειμένων απαρτίζεται από έγγραφα (documents).

• Document frequency: Ο αριθμός των εγγράφων στα οποία εμφανίζεται η λέξη

Page 15: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι μπορώ να μετρήσω με ένα ΣΚ; N-grams

N-gram: ακολουθία Ν λέξεων/χαρακτήρων σε ένα κείμενο

Page 16: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι μπορώ να μετρήσω με ένα ΣΚ; Πιθανότητες

1. P( ) = ? 2. P() = ? 3. P(red, ) = ?

4. P(blue) = ?

Page 17: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι μπορώ να μετρήσω με ένα ΣΚ; Πιθανότητες

Page 18: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι μπορώ να μετρήσω με ένα ΣΚ; Πιθανότητες

Page 19: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι μπορώ να μετρήσω με ένα ΣΚ; Δεσμευμένες (ή Υπο Συνθήκη)

Πιθανότητες

Page 20: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι μπορώ να μετρήσω με ένα ΣΚ; Δεσμευμένες (ή Υπο Συνθήκη)

Πιθανότητες

Page 21: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Αλυσιδωτές Πιθανότητες

Page 22: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Αλυσιδωτές Πιθανότητες στα ΣΚ

P(w1 w2 w3 …. wn) = P(w1) * P(w2|w1) * P(w3|w1,w2)

*…* P(wn| w1,w2…. wn-1)

Page 23: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

Σύμφραση είναι μια έκφραση αποτελούμενη από δυο ή περισσότερες λέξεις, της οποίας το νόημα είναι διαφορετικό από τον συνδυασμό των νοημάτων των λέξεων που την αποτελούν: Νέα Υόρκη (ενώ ‘νέα εταιρία’;) Σκληρός δίσκος (ενώ ‘σκληρό στρώμα’;) -Δεν μπορεί να αντικατασταθεί κάποια από τις λέξεις μιας σύμφρασης από άλλη (non-substitutability) -Δεν μπορεί να συντεθεί το νόημα της σύμφρασης από το νόημα των λέξεων που την απαρτίζουν (non-compositionality) - Δεν μπορεί να μεταφραστεί μια σύμφραση σε άλλη γλώσσα λέξη προς λέξη

Οι ιδιωματικές εκφράσεις είναι ακραία παραδείγματα συμφράσεων - Πουλάει φύκια για μεταξωτές κορδέλες

Page 24: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

Πώς υπολογίζω συμφράσεις σε ένα σώμα κειμένων;

Με συχνότητες; Δίπλα φαίνονται τα πιο συχνά δίγραμμα (2-grams) σε ένα ΣΚ. Εκτός από την Νέα Υόρκη, όλα τα υπόλοιπα δίγραμμα είναι ζευγάρια λειτουργικών λέξεων. Λειτουργικές λέξεις (function words) είναι οι λέξεις σε μια γλώσσα που δεν περιέχουν σημασιολογική πληροφορία, αλλά χρησιμοποιούνται για να συνδέουν τις υπόλοιπες λέξεις του κειμένου μεταξύ τους Λειτουργικές λέξεις είναι τα άρθρα, οι προθέσεις, οι σύνδεσμοι κλπ.

Page 25: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

Πώς υπολογίζω συμφράσεις σε ένα σώμα κειμένων;

Με συχνότητες αν φιλτράρω τα μέρη του λόγου των λειτουργικών λέξεων; Δίπλα φαίνονται τα πιο συχνά δίγραμμα (2-grams) στο προηγούμενο ΣΚ αν κάνω το παραπάνω φιλτράρισμα.

Page 26: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

Πολλές φορές οι λέξεις της σύμφρασης δεν εμφανίζονται δίπλα δίπλα:

she knocked on his door

they knocked at the door

100 women knocked on Donaldson’s door

a man knocked on the metal front door Χρησιμοποιείται -Η μέση τιμή της απόστασης των λέξεων

ΜΤ=

-Η τυπική απόκλιση της απόστασης των λέξεων

ΤΑ=

n: πόσες φορές συνεμφανίζονται οι λέξεις di: η απόσταση των λέξεων στην εμφάνιση I μ: η μέση τιμή της απόστασης των λέξεων

Page 27: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

Με τους προηγούμενους τρόπους μετράω και τυχαίες συνεμφανίσεις. Πώς μπορώ να αποκλείσω την τυχαιότητα;

Έλεγχος Υποθέσεων: μετράει το κάτα πόσο έχω εμπιστοσύνη (confidence) ότι μια συγκεκριμένη συνεμφάνιση έχει συμβεί λόγω συσχέτισης των λέξεων, και όχι τυχαία.

Δημιουργώ μια μηδενική υπόθεση Η0 (null hypothesis) ότι δεν υπάρχει συσχέτιση ανάμεσα στις λέξεις που συνεμφανίζονται, και ότι η συνεμφάνιση είναι τυχαία. Αν μπορέσω να απορρίψω την μηδενική υπόθεση, τότε η συνεμφάνιση δεν είναι τυχαία και οι δυο λέξεις σχηματίζουν σύμφραση. Υπολογίζω την πιθανότητα να εμφανιστεί η συνεμφάνιση αν ισχύει η Η0. Αν η πιθανότητα αυτή είναι μικρότερη από κάποιο κάτω όριο (επίπεδο εμπιστοσύνης – confidence level) τότε απορρίπτω την Η0. Διαφορετικά θεωρώ ότι η Η0 είναι πιθανή. Επίπεδα εμπιστοσύνης: 0.05 ή 0.01 ή 0.005 ή 0.001

Page 28: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται 15828 φορές, το ‘companies’ 4675 φορές και υπάρχουν συνολικά 14307668 δίγραμμα. Η φράση ‘new companies’ εμφανίζεται 8 φορές ανάμεσα στα 14307668 δίγραμμα. Η0 : P(new companies)=P(new)P(companies) (οι δυο λέξεις δεν συσχετίζονται κι άρα η πιθανότητα εμφάνισης της μιας είναι ανεξάρτητη από την πιθανότητα εμφάνισης της άλλης)

P(new companies)=P(new)P(companies) =

Page 29: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ P(παρατηρειθήσα) = 8/14307668=5.591*10-7

Αν θέλω όριο εμπιστοσύνης 0.005, τότε η τιμή του t-test θα έπρεπε να είναι μεγαλύτερη του 2.756 για να μπορέσω να απορρίψω την μηδενική υπόθεση. Επομένως δεν μπορώ να απορρίψω την ανεξάρτητη συνεμφάνιση των δυο λέξεων, και άρα να πω ότι έχω ένδειξη ότι μπορεί να σχηματίζουν σύμφραση. Η τιμή αυτή προκύπτει από πιθανοτικούς πίνακες

999932.0

14307668

10*591.5

10*615.310*591.5

)(

)()(

7

77

N

P

HoPPt

Page 30: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Degrees of freedom (df)

Βαθμοί ελευθερίας =

αριθμός διγράμμων στο

ΣΚ - 1 = 14307668 – 1

= άπειρο

Επίπεδο εμπιστοσύνης

=0.005

Page 31: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

2ο μέτρο για Έλεγχο Υποθέσεων: χ2

Πίνακας Σύγχυσης των παρατηρημένων συχνοτήτων εμφάνισης του δίγραμμου «w1 w2» στο ΣΚ.

a: φορές που εμφανίζεται το δίγραμμο «w1 w2» στο σώμα κειμένων b: φορές που εμφανίζεται η λέξη w1 χωρίς την w2 c: φορές που εμφανίζεται η λέξη w2 χωρίς την w1 d: φορές που δεν εμφανίζεται καμία από τις δυο λέξεις (αριθμός εμφάνισης όλων των υπολοίπων διγράμμων λέξεων στο σώμα κειμένων)

w2 ~w2

w1 a b

~w1 c d

Page 32: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

2ο μέτρο για Έλεγχο Υποθέσεων: χ2

Πίνακας Σύγχυσης των αναμενόμενων συχνοτήτων εμφάνισης του δίγραμμου «w1 w2» στο ΣΚ (δηλ των συχνοτήτων εμφάνισης αν

θεωρήσω ότι δεν υπάρχει συσχέτιση ανάμεσα στις λέξεις – μηδενική υπόθεση).

x2(w1w2) = (a-e)2/e x2(w1 ~w2) = (b-f)2/f Μεγάλο πρόβλημα με τα σπάνια φαινόμενα! x2(~w1 w2) = (c-g)2/g x2(~w1~w2) = (d-h)2/h x2= x2(w1w2) + x2(w1 ~w2) + x2(~w1 w2) + x2(~w1~w2)

w2 ~w2

w1 e=(a+b)x(a+c)/(a+b+c+d) f=(a+b)x(b+d)/(a+b+c+d)

~w1 g=(c+d)x(a+c)/(a+b+c+d) h=(c+d)x(b+d)/(a+b+c+d)

Page 33: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

3ο μέτρο για Έλεγχο Υποθέσεων: Log Likelihood Ratios (LL)

Ο λόγος των λογαρίθμων των πιθανοφανειών είναι ένας αριθμός που δείχνει πόσες φορές είναι πιο πιθανό να ισχύει η μηδενική υπόθεση από την μη-μηδενική (ότι δηλ υπάρχει ένδειξη συσχέτισης ανάμεσα στις δυο λέξεις) ή το αντίστροφο. Μηδενική υπόθεση: οι δυο λέξεις είναι ανεξάρτητες και η συνεμφάνισή τους είναι τυχαία. Μη μηδενική υπόθεση: οι δυο λέξεις συσχετίζονται, και υπάρχει καλή ένδειξη ότι αποτελούν σύμφραση. c1=φορές που εμφανίζεται η w1 p1= c12/c1 c2=φορές που εμφανίζεται η w2 p2=(c2-c12) /(N-c1) c12 =φορές που εμφανίζεται το δίγραμμο w1w2 p= c2/N N = το σύνολο των διγράμμων στο ΣΚ

Page 34: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

3ο μέτρο για Έλεγχο Υποθέσεων: Log Likelihood Ratios (LL)

Logλ = log ( L(Ho)/L(όχιΗο) ) = logL(c12, c1, p) + logL(c2-c12, N-c1, p) - logL(c12, c1, p1) - logL(c2-c12, c1, p2)

Όπου L(k, n, x) = xk (1-x)n-k

Ένα δίγραμμο είναι e0.5(-2logλ) φορές πιο πιθανό να εμφανιστεί από ότι θα εμφανιζόταν τυχαία. Το μέτρο LL είναι πιο κατάλληλο για σπάνια φαινόμενα.

Page 35: H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται

Βιβλιογραφία-Δικτυογραφία

• http://www.linguistics.ucsb.edu/faculty/stgries/research/2014_STG_LevelsOfResolution_DevelopmInEnglish.pdf

• https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=4&ved=2ahUKEwinhsin7N_cAhWIHpoKHdtmCjIQFjADegQIBhAC&url=http%3A%2F%2Fwww.gloriacappelli.it%2Fwp-content%2Fuploads%2F2007%2F05%2Fcorpus-linguistics.ppt&usg=AOvVaw0X88oH3fWy86L4GQn9r4ah

• https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&ved=2ahUKEwiYycqYvpTdAhXHOSwKHR4oAmoQFjABegQIBxAC&url=http%3A%2F%2Fwww.cs.virginia.edu%2F~kc2wc%2Fteaching%2FNLP16%2Fslides%2F02-ngram.pptx&usg=AOvVaw2Tt3YEmCZ013FhOHGYR38q

• https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=5&ved=2ahUKEwjZ_Y3rzJTdAhUKMuwKHWEQD6AQFjAEegQIBhAC&url=http%3A%2F%2Fadimen.si.ehu.es%2F~rigau%2Fteaching%2FEHU%2FPLN%2FNLP-RadaMihalcea%2FLectures%2FCollocations.ppt&usg=AOvVaw2xNZq1PdMcf41ta5VF-WOx

• https://nlp.stanford.edu/fsnlp/