2ο Κεφάλαιο -...

ΕΘΝΙΚΟ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

(ΕΚΠΑ) – ΦΙΛΟΣΟΦΙΚΗ ΣΧΟΛΗ

ΔΙΕΠΙΣΤΗΜΟΝΙΚΟ – ΔΙΑΠΑΝΕΠΙΣΤΗΜΙΑΚΟ

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ

«ΤΕΧΝΟΓΛΩΣΣΙΑ»

Ε Θ Ν Ι Κ Ο Μ Ε Τ Σ Ο Β Ι Ο Π Ο Λ Υ Τ Ε Χ Ν Ε Ι Ο ( Ε Μ Π ) - Σ Χ Ο Λ Η

Η Λ Ε Κ Τ Ρ Ο Λ Ο Γ Ω Ν Μ Η Χ Α Ν Ι Κ Ω Ν Κ Α Ι

Μ Η Χ Α Ν Ι Κ Ω Ν Υ Π Ο Λ Ο Γ Ι Σ Τ Ω Ν

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ''Εφαρμογές εμπειρικών Μαθηματικών-Στατιστικών μεθόδων στην Ελληνική γλώσσα. Μελέτη μαθηματικών φαινόμενων στο γλωσσολογικό Νόμο Menzerath - Altmann''

Επιβλέπων διδάσκων:

Εν Αθήναις, Ιούλιος 2013

Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α

Εισαγωγή…………………………………………………………..

4

1ο Κεφάλαιο Θεωρητικό Υπόβαθρο1.1 Εισαγωγή…………………………………………………………………..

5

2

1.2 Ιστορική Αναδρομή………………..……………………………………..

5

1.3 Μαθηματική Περιγραφή….……………………………………………..

9

1.4 Ο νόμος Μenzerath-Altman σε διάφορες φυσικές γλώσσες………..

11

1.5 Επισκόπηση………………………………………………………………..

18

2ο Κεφάλαιο Εργαλείο Επεξεργασίας Ελληνικής Γλώσσας2.1 Εισαγωγή…………………………………………………………………..

19

2.2 Γλώσσα προγραμματισμού Perl………………………………………...

19

2.2.1 Κανονικές Εκφράσεις…………………………………………………..

21

2.2.2 Οι συναρτήσεις split, join και substr…………………………………..

25

2.3 Σχεδίαση Εργαλείου……………………………………………………...

26

2.4 Δομή Εργαλείου…………………………………………………………..

31

2.5 Περιγραφή Εργαλείου……………………………………………………

33

2.6 Έλεγχος Εργαλείου………………………………………………………..

51

2.7 Επισκόπηση………………………………………………………………..

56

3ο Κεφάλαιο Εφαρμογή Εργαλείου TLMA σε CORPUS3.1 Εισαγωγή…………………………………………………………………..

57

3.2 Μεθοδολογία 57

3

Εφαρμογής………………………………………………..3.3 Στατιστικό Υπόβαθρο…………………………………………………….

58

3.4 Ανάλυση Δεδομένων……………………………………………………..

59

3.4.1 CorpusA1………………………………………………………………

59

3.4.2 CorpusA2………………………………………………………………

66

3.5 Επισκόπηση………………………………………………………………..

73

4ο Κεφάλαιο Συμπεράσματα4.1 Συμπεράσματα……………………………………………………………

74

4.2 Μελλοντική Έρευνα……………………………………………………..

75

Βιβλιογραφία……………………………………………………..

76

4

Ε Ι Σ Α Γ Ω Γ ΗΗ εργασία αυτή διαπραγματεύεται από την μια την ανάπτυξη ενός λογισμικού εργαλείου για την υποστήριξη της μαθηματικής & στατιστικής ανάλυσης ενός corpus και από την άλλη την αξιοποίηση του για την εξαγωγή συμπερασμάτων όσο αφορά τον έλεγχο ισχύος μαθηματικών νόμων της ποσοτικής γλωσσολογίας (μαθηματική-γλωσσολογική διάσταση) στην Ελληνική Γλώσσα. Η υλοποίηση της διπλωματικής εργασίας απαίτησε την συνεργασία δύο (2) ατόμων: ενός μαθηματικού και ενός πληροφορικού. Ο λόγος είναι η ανάγκη για γόνιμο συνδυασμό δύο επιστημονικών πεδίων ώστε να επιτευχθεί όσο γίνεται πιο αποδοτικά, ο σκοπός της εργασίας: η διερεύνηση της ισχύος ή μη του γλωσσολογικού Νόμου Menzerath – Altmann στην Ελληνική Γλώσσα. Ειδικότερα στην διπλωματική εργασία παρουσιάζεται θεωρητικά ο γλωσσολογικός νόμος Menzerath – Altmann, η δομή και λειτουργία του λογισμικού εργαλείου TLMA που υλοποιεί μέτρηση συλλαβών σε συνδυασμό με στατιστικές μετρήσεις ώστε να εξαχθούν συμπεράσματα

5

για την ισχύ ή μη του νόμου σε ένα corpus. Ειδικότερα, η εργασία εστιάζεται:

στην παρουσίαση του νόμου Menzerath – Altmann και της αντίστοιχης βιβλιογραφίας σχετικά με τη διερεύνηση της ισχύς του σε διάφορες φυσικές γλώσσες,

στην σχεδίαση και ανάπτυξη ενός λογισμικού εργαλείου στατιστικών μετρήσεων σε corpus (συλλαβιστής, καταγραφή παραμέτρων του νόμου στην γραμμική εκδοχή του),

στην δοκιμαστική εφαρμογή του εργαλείου σε corpus της σύγχρονης ελληνικής γλώσσας,

στην στατιστική ανάλυση (χρήση γραμμικής παλινδρόμησης γιατί αφορά 2 ποσοτικές μεταβλητές) των αποτελεσμάτων του εργαλείου και

σε συμπεράσματα από την εφαρμογή του εργαλείου στην Ελληνική Γλώσσας και προτάσεις για μελλοντική έρευνα.

Η έρευνα που πραγματοποιήθηκε στα πλαίσια της διπλωματικής εργασίας πιστεύουμε ότι βοηθά καταρχήν στην όλο και πιο αυξανόμενη υιοθέτηση της πληροφορικής ως χρήσιμου εργαλείου στις ανθρωπιστικές επιστήμες και κατά δεύτερον προσφέρει σημαντικά ευρήματα στην μελέτη των γλωσσολογικών δομών της ελληνικής γλώσσας.

1ο Κεφάλαιο

ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ1

1.1 ΕισαγωγήΣτο κεφάλαιο αυτό γίνεται η παρουσίαση του Νόμου Menzerath-Altmann (Ν Μ-Α) που ανήκει στο τομέα της ποσοτικής γλωσσολογίας. Ο νόμος αυτός, πήρε το όνομά του από τους επιστήμονες – ερευνητές Paul Menzerath και Gabriel Altmann. To 1928 o Menzerath παρατήρησε ότι ο μέσος όρος του μήκους των συλλαβών μειώνεται όσο αυξάνεται ο αριθμός των συλλαβών στην λέξη. Έτσι η αύξηση του αριθμού των συλλαβών μιας πρότασης έχει ως αποτέλεσμα, τη μείωση του μέσου μήκους λέξης. Στη γενική μορφή, μια τέτοια εξάρτηση μπορεί να διατυπωθεί ως εξής: όσο μεγαλύτερη είναι η κατασκευή τόσο μικρότερα

1 Γράφτηκε από την XXXXXXXX.

6

είναι τα συστατικά της. Στα επόμενα χρόνια αυτό το εύρημα διατυπώθηκε μαθηματικά με την κατασκευή μαθηματικού τύπου από τον Altmann2. Σήμερα αυτή η μαθηματική διατύπωση, είναι γνωστή ως νόμος Menzerath-Altmann και θεωρείται ότι είναι ένας από τους πιο γενικούς γλωσσολογικούς νόμους με επίδραση που υπερβαίνει το αυστηρά γλωσσολογικό επιστημονικό πεδίο3. Εφαρμογές της χρήσης του νόμου

συναντάμε στην βιολογία (ανάλυση γονιδιώματος)4, στην μουσική ανάλυση5 και σε

άλλες γενικές περιπτώσεις εφαρμογών στις φυσικές γλώσσες.

1.2 Ιστορική ΑναδρομήΟ Νόμος Menzerath-Altmann (Ν Μ-Α), o οποίος πήρε το όνομά του από τους P. Menzerath και G. Altmann, ξεκίνησε αρχικά από μία θεώρηση η οποία προτάθηκε από τον Menzerath (1928)6, σχετικά με τη σχέση μεταξύ του μεγέθους του συστατικού ενός ήχου συγκριτικά με το σύνολο στο οποίο συνευρίσκεται με άλλους ήχους μαζί. Οι δύο επιστήμονες παρατήρησαν σε γλωσσολογικά παραδείγματα τη σχέση μεταξύ των μηκών των συλλαβών και των λέξεων (words – syllables lengths). Όταν το μέσο μήκος μιας συλλαβής μειώνεται, ο αριθμός των συλλαβών της λέξης μεγαλώνει. Έτσι η αύξηση του αριθμού των συλλαβών μιας πρότασης έχει ως αποτέλεσμα, τη μείωση του μέσου μήκους λέξης. Η σχέση μεταξύ του μεγέθους μιας πρότασης και του μεγέθους των τμημάτων (λέξεων) στη γλώσσα (και τη μουσική σε άλλες έρευνες)7 ακολουθούν το νόμο Menzerath –Altmann σε πολλά επίπεδα (μορφήματα, λέξεις, προτάσεις)8:«το μέγεθος ενός ήχου είναι τόσο μικρό όσο μεγάλο είναι το σύνολο στο

οποίο εντάσσεται»Το 1954 ο Menzerath9 διατύπωσε τη περίφημη θεώρησή του και ένα ακόμα γενικό κανόνα, που υποκρύπτει μία στατιστική σχέση μεταξύ του μεγέθους (μήκους) και του αριθμού των συστατικών:

2 Altmann, G. (1980). Prolegomena to Menzerath’s law. Glottometrika 2. p. 1–10.3 Cramer, I. M. (2005). Das Menzerathsche Gezetz. Quantitative Linguistik. Berlin – New York: de Gruyter, p.659–684.4 Wentian Li (2012). "Menzerath's law at the gene-exon level in the human genome". Complexity 17 (4): 49–53. doi:10.1002/cplx.20398.5 Boroda, M. G., Altmann, G., (1991). Menzerath’s law in musical texts. Musikometrica 3, pp.1–13.6 Buk, S. Rovennchak, A. (2007). Menzerath-Altamann Law for Syntactic Structures in Ukrainian, retrieved from arxiv.org/pdf/cs/0701194, [access 19/2/2013].7 βλέπε 6.8 βλέπε 2.9 Menzerath, P. (1954). Die Architektonik des deutschen Wortschatzes. Bonn: Dümmler.

7

http://dx.doi.org/10.1002%2Fcplx.20398

http://en.wikipedia.org/wiki/Digital_object_identifier

«Ο σχετικός αριθμός των ήχων σε μία συλλαβή μειώνεται καθώς ο αριθμός συλλαβών στη λέξη αυξάνεται»

Πρακτικά, ο Menzerath παρατήρησε και διατύπωσε ένα βασικό αριθμητικό συσχετισμό (αντίστροφη αναλογία) μεταξύ του μέσου μήκους των στοιχείων μίας πρότασης και του αριθμού αυτών. Ότι δηλαδή εάν ορίσουμε ως Ζ αυτό το μέσο μέγεθος, τότε όσο αυτός ο αριθμός μικραίνει, τόσο ο αριθμός των στοιχείων Χ μεγαλώνει (και βεβαίως ισχύει και το αντίστροφο). Δηλαδή σε μία πρόταση που αποτελείται από λέξεις και εκείνες με τη σειρά τους από συλλαβές, όταν το μέσο μήκος μιας συλλαβής μειώνεται, τότε ο αριθμός των συλλαβών της λέξης αυξάνεται (Σχ.1.1). Μάλιστα, αυτή η κατά κάποιο τρόπο πρώιμη μαθηματική συσχέτιση δεν βρίσκει εφαρμογή μόνο γενικά στη φυσική γλώσσα, και μάλιστα σε πολλά επίπεδα (π.χ., μορφήματα, λέξεις, προτάσεις) αλλά και σε άλλους τομείς, όπως η μουσική, η υπολογιστική βιολογία κλπ. (Πιν.1.1).

Σχήμα 1.1 Συσχέτιση γλωσσικών στοιχείων κατά Menzerath

Πίνακας 1.1 Μερικοί παράμετροι του Νόμου Menzerath-Altmann σε διάφορα επιστημονικά πεδία10

α/α Πηγή Μέγεθος του

συνόλου(x) (size of

whole)

Μέγεθος των

τμημάτων(y) (size of parts)

Γλώσσες Δείγματα

b c

1 Γλώσσα

Μέγεθος μορφημάτ

ων (σε συλλαβές)

Μήκος

Μέσο μήκος

συλλαβής (σε

φωνήματα)

Ινδονησιακά 1 -0.370.04

8

10 Ferre-I-Canche, R. Forns, N. Hernandez-Fernandez, A. Bel-Enguix, G. Baixeries, J. (2012). The Challenges of Statistical Patterns of Language: The Case of Menzerath’s Law in Genome, Complexity, Vol.18, No3, pp.11-17.

Ζ ΧΖ Χ

Ζ: μέσο μέγεθος στοιχείουΧ: πληθικός αριθμός στοιχείου

Αριθμητική συσχέτιση

Αντίστροφη αναλογία

8

λέξης (σε συλλαβές)

Μήκος πρότασης

Μέσο μήκος

συλλαβής (σε

φωνήματα)

Μέσο μήκος

λέξης (σε λέξεις)

Αγγλικά

Γερμανικά, Αγγλικά, Γαλλικά,

Ουγγρικά, Σλοβάκικα,

Τσέχικα, Σουηδικά,

Ινδονησιακά

1

42

0.15

-.27±.11a

-0.10

Ν.Α.

2 Μουσική

mr- μήκος χωρίων (F-

μοτίβα)

Μέσο μήκος F-μοτίβα

(σε τόνους)

-- 11 -.44±.09a

Ν.Α.

Σχόλιο-1: μ±σ, μ: μέσος όρος του b σε όλα τα δείγματα και σ σχετική τυπική απόκλιση μεταξύ δειγμάτωνΣχόλιο-2: Ν.Α. ισχύει ο βασικός τύπος του Ν Μ-Α για παράμετρο c=ØΣχόλιο-3: Τα στοιχεία του πίνακα βασίζονται στην πρωτοπόρα εργασία του Altmann και συνεργατών του

Ποιοτικά, μέσω του συγκεκριμένου ισχυρισμού του Menzerath, προκύπτει ότι όσο

μεγαλύτερο είναι το σύνολο, τόσο μικρότερα είναι τα μέρη του. Έτσι για παράδειγμα,

όσο μεγαλύτερη είναι μία λέξη (σε συλλαβές), τόσο μικρότερες είναι οι συλλαβές της

σε γράμματα και φωνήματα. H σχέση αυτή, μελετάται σε διάφορα επίπεδα των

γλωσσικών μονάδων όπως συλλαβή - λέξη, μόρφημα-λέξη και αλλού (Σχ.1.2).

Δηλαδή, αναμένεται ότι με την αύξηση του μήκους της λέξης, που μετριέται από τον

αριθμό των συλλαβών, το μέσο μήκος της συλλαβής, μετρούμενο με τον αριθμό των

φωνημάτων γραφημάτων, ή των ήχων, μειώνεται.

Σχήμα 1.2 Εφαρμογή του νόμου Menzerath-Altmann (Ν Μ-Α) στην γλωσσολογία

Ν Μ-Α

Φυσική γλώσσα

συλλαβή - λέξη

μόρφημα – λέξη

Γλωσσικές μονάδες

9

Η συγκεκριμένη θεώρηση αποτελεί μία από τις πιο σημαντικές ιδέες της ποσοτικής γλωσσολογίας που έχει διατυπωθεί τα τελευταία χρόνια, και βρίσκει εφαρμογή σε αρκετά είδη γλωσσικών κατασκευών. Με τον όρο κατασκευή εννοούμε μια μονάδα σε ένα υψηλότερο επίπεδο γλώσσας (π.χ. μία αυτόνομη μονάδα όσον αφορά το νόημα που περικλείει, τη σημασιολογική της κατασκευή και γραμματική – μία πρόταση), ενώ ως συστατικό εννοούμε μια μονάδα σε ένα χαμηλότερο επίπεδο γλώσσας (π.χ. μια λέξη). Προσπαθώντας να αναπαραστήσουμε μέσω μίας βασικής μαθηματικής σχέσης αυτή τη θεώρηση («νόμος Menzerath»), το Ζ (ένας μέσος) μειώνεται καθώς το Χ αυξάνεται (όπου Χ ο αριθμός των τμημάτων της κατασκευής), ενώ το Υ αντιπροσωπεύει το μέγεθος του συνόλου των τμημάτων, έχουμε11: Ζ = Υ / Χ (1.1)Συνεχίζοντας σε αυτό το πλαίσιο, ο Altmann (1980), προχώρησε περισσότερο αυτή την προτεινόμενη γενική θεώρηση του Menzerath, κατασκευάζοντας ένα κανονιστικό μοντέλο για την αποτύπωση αυτής, μέσω μίας στατιστικής σχέσης, αφού πρώτα επαναδιατύπωσε τη δήλωση του Menzerath:«όσο μεγαλύτερη (σε μέγεθος) η πρόταση, τόσο μικρότερα (σε μέγεθος)

τα συστατικά της»

Ιδιαίτερη έμφαση δίνεται στη σχέση μεταξύ του μήκους συλλαβής και λέξεων όπου

σύμφωνα με το νόμο, αναμένεται ότι με την αύξηση του μήκους της λέξης (WoL), που

μετράται από τον αριθμό των συλλαβών, το μέσο μήκος συλλαβής (Syl), που μετράται

από τον αριθμό φωνημάτων ή ήχων ελαττώνεται. H μαθηματική διατύπωση του είναι

η ακόλουθη:

SyL = a ∙ WoL-b

(1.2) όπου a (τιμή εκκίνησης), b (κλίση καμπύλης) παράμετροι, και η συσχέτιση των βασικών όρων της εξίσωσης είναι η εξής:

• WoL: αυξάνεται ↑• SyL: μειώνεται ↓

11 βλέπε 2.

10

Γενικά, μετά την πιο αυστηρή διατύπωση του νόμου (μη γραμμική εκδοχή), οι εφαρμογές του νόμου αυξήθηκαν ξεπερνώντας όπως έχει ήδη σημειωθεί το στενό πεδίο της γλωσσολογίας.

1.3 Μαθηματική ΠεριγραφήΟ νόμος Menzerath-Altmann όπως έχει ήδη σημειωθεί, αφορά ένα γλωσσολογικό νόμο, ο οποίος προσδιορίζει ποσοτικά την σχέση μεταξύ της αύξησης των αποτελεσμάτων μιας γλωσσικής κατασκευής και της μείωσης που ακολουθεί, αντίστοιχα, των επιμέρους συστατικών της12. Έτσι για παράδειγμα, όσο μεγαλύτερη είναι μία λέξη (σε συλλαβές), τόσο μικρότερες είναι οι συλλαβές της σε γράμματα και φωνήματα. H σχέση που αναφέρεται, μελετάται σε διάφορα επίπεδα των γλωσσικών μονάδων (λέξεις, συλλαβές). Σύμφωνα με τον Altmann,13 η αυστηρά μαθηματική διατύπωση του νόμου είναι η εξής:

(1.3)

όπου14, μέγεθος συστατικού (π.χ. μήκος συλλαβής) μέγεθος της γλωσσικής κατασκευής που θα ελεγχθεί (π.χ.

αριθμός συλλαβών ανά λέξη) , , είναι παράμετροι e, αριθμός euler (βάση φυσικών ή νεπέρειων λογάριθμων: 2.71)

Οι παράμετροι και παράγονται μέσα από την επεξεργασία στατιστικού λογισμικού, η δε ποιοτική ερμηνεία αυτών των παραμέτρων έχει ως εξής:

η παράμετρος καθορίζει τη μετατόπιση (shift) κατά τον άξονα των y και ερμηνεύεται ως η αρχική τιμή της καμπύλης (τιμή εκκίνησης), ενώ

η παράμετρος είναι υπεύθυνη για την κλίση και την ταχύτητα της φθίνουσας πορείας της καμπύλης (μείωση).

Μία συστηματική ερμηνεία των παραμέτρων του Ν Μ-Α, π.χ. το μήκος ενός συστατικού είναι συνάρτηση του μήκους της κατασκευής,

12 Altmann, G. Schwibbe, M.H. (1989). Das Menzerathsche Gesetz in informationsverarbeitenden Systemen. Hildesheim/Zürich/New York: Olms.13 μη γραμμική εκδοχή, βλέπε 2.14 Menzerath's_law, http://en.wikipedia.org/wiki/Menzerath's_law [access 2/3/2013].

11

http://en.wikipedia.org/wiki/Menzerath's_law

προτάθηκε από τον Köhler15. Σε σχέση με γλωσσικά συστήματα, προτείνεται ότι η επεξεργασία δεδομένων ανθρώπινης γλώσσας είναι μια διαδοχική διαδικασία και ότι τα στοιχεία γλώσσας υποβάλλονται σε επεξεργασία όρο προς όρο γραμμικά. Επιπλέον υποθέτεται ότι υπάρχει κάποιο είδος ορίου χωρητικότητας στην γλωσσική επεξεργασία, ιδίως όσον αφορά το μήκος των γλωσσικών συστατικών. Για το Ν Μ-Α, η παράμετρος a αναπαριστά, σύμφωνα με τον Köhler, το μέσο μήκος μίας γλωσσικής κατασκευής, που περιλαμβάνει ένα συστατικό. Αντίστοιχα, οδηγήθηκαν και οι άλλοι παράμετροι σε μία εκ νέου ανάλυση από διάφορα γλωσσικά επίπεδα του Ν Μ-Α16. Επιπρόσθετα, επί της σχέσης (1.3) έχουν προταθεί και κάποιες απλοποιήσεις της, που προκύπτουν κυρίως από τα αποτελέσματα εμπειρικών μετρήσεων σε συγκεκριμένες εφαρμογές. Για παράδειγμα μία μορφή που έχει προταθεί περισσότερο για απλοποίηση των υπολογισμών

είναι η ακόλουθη17:

y = a x –b , c = Ø (1.4)

Ο νόμος Menzerath-Altmann μπορεί να χρησιμοποιηθεί σε σύνθετα συστήματα πολλαπλών επιπέδων (σχέση 1.3). Σε συστήματα τριών επιπέδων, είναι ο αριθμός των μεσαίου επιπέδου τμημάτων που περιέχονται σε ένα υψηλότερου επιπέδου τμήμα, είναι ο μέσος αριθμός των χαμηλού επιπέδου τμημάτων που περιέχονται σε ένα μεσαίου επιπέδου τμήμα, ο νόμος Menzerath-Altmann υποστηρίζει ότι υπάρχει μία αρνητική συσχέτιση μεταξύ και . Ο νόμος δείχνει επίσης ότι ισχύει στο ανθρώπινο γονιδίωμα (base-exon-gene levels) και για μία συλλογή ειδών του ζωικού βασιλείου (base-chromosome-genome levels)18.1.4 Ο νόμος Μenzerath-Altmann σε διάφορες φυσικές γλώσσεςΗ σχέση μεταξύ του μήκους συλλαβών και λέξεων, ως μία εκ των εφαρμογών του Ν Μ-Α, έχει επιβεβαιωθεί πειραματικά σε αρκετές

15 Köhler, R. (1984). Zur Interpretation des Menzerathschen Gesetzes. In: Boy, J.; Köhler, R. (eds.), Glottometrika 6. Bochum: Brockmeyer, pp. 177–183 & Köhler, R. (1989). Das Menzerathsche Gesetz als Resultat des Sprachverarbeitungsmechanismus. In: Altmann, G.; Schwibbe, M.H. (eds.), Das Menzerathsche Gesetz in informationsverarbeitenden Systemen. Zürich, New York:Hildesheim, pp. 108–116.16 Cramer, I.M. (2005). The Parameter of the Altmann-Menzerath Law. in: Journal of QuantitativeLinguistics, 12/1; 41–52.17 βλέπε 2.18 Wentian Li (2012). Menzerath's law at the gene-exon level in the human genome. Complexity 17 (4): 49–53. doi:10.1002/cplx.20398.

12

http://en.wikipedia.org/wiki/Genome

http://en.wikipedia.org/wiki/Chromosome

http://en.wikipedia.org/wiki/Nucleotide

http://en.wikipedia.org/wiki/Gene

http://en.wikipedia.org/wiki/Exon

http://en.wikipedia.org/wiki/Nucleotide

http://dx.doi.org/10.1002%2Fcplx.20398

http://en.wikipedia.org/wiki/Digital_object_identifier

γλώσσες. Από τις αρχές της δεκαετίας του ΄90 διερευνήθηκε κατά πόσο η σχέση μεταξύ του μήκους μιας λέξης και του μήκους των συστατικών μορφωμάτων της που μετρώνται σε αριθμό φωνημάτων, ακολουθεί το νόμο19. Επίσης, μελετήθηκε η σχέση μεταξύ του μήκους των προτάσεων και των συστατικών τους (αριθμός λέξεων)20. Συνολικά σε αρκετές μελέτες που ακολούθησαν, επαληθεύτηκε η ορθότητα εφαρμογής του νόμου Μenzerath-Altmann, από το μήκος του ήχου στο μήκος των προτάσεων, ακόμα και σε επίπεδο υπερ-φράσης και επιβεβαιώθηκε σε κάθε περίπτωση (ωστόσο στη Ρωσική γλώσσα το μήκος των προτάσεων έχει μελετηθεί με διαφορετικό αποτέλεσμα)21. Όσο αφορά την Menzerathian κανονικότητα δεν έχει μελετηθεί επαρκώς ακόμα και στο βασικό σημειωτικό επίπεδο (semiotic level) της οργάνωσης της ανθρώπινης γλώσσας (στο επίπεδο των μορφημάτων στα όρια της λέξης). Υπάρχουν μέχρι σήμερα σποραδικές μελέτες που διερευνούν την σχέση μεταξύ λέξης και μήκος μορφήματος σε τρεις κυρίως γλώσσες: γερμανική22, τουρκική23 και ρωσική24.Παρότι σε γενικές γραμμές η μαθηματική διατύπωση του νόμου (1.3) επαληθεύεται, η χρήση των παραμέτρων της εξίσωσης a, b, και c έως και σήμερα εξακολουθεί να θεωρείται αμφιλεγόμενη. Σε μελέτες που έχουν γίνει ακόμα και στις πιο μη συμβατικές (από πλευράς συμβόλων) γλώσσες (π.χ., Γιαπωνέζικα)25, διάφοροι τρόποι χρήσης των παραμέτρων αυτών προτείνονται και αναλύονται πλην όμως χωρίς ξεκάθαρη θεωρητική βάση και αποτέλεσμα. Επιπρόσθετα, ο Ν Μ-Α, βλέπουμε στην βιβλιογραφία έχει εφαρμοσθεί και στην Ουκρανική γλώσσα όπου έχει επιβεβαιωθεί η ισχύ του σε επίπεδο λέξης – συλλαβής26.

19 Gerlach, R. (1982). Zur Uberprufung des Menzerathschen Gesetzes im Bereich der Morphologie. In W. Lehfeldt & U. Strauß (Eds.), Glottometrika 4, pp. 95 – 102.20 Heups, G. (1983). Untersuchungen zum Verhaltnis von Satzlange zu Clauselange am Beispiel deutscher Texte verschiedener Textklassen. In R. Kohler & J. Boy (Eds.), Glottometrika 5, pp. 113 – 133.21 Hřebíček, L. (1995). Text levels: language constructs, constituents and the Menzerath-Altmann law. Trier: Wissenschaftlicher Verlag Trier.22 βλέπε 17.23 βλέπε 19.24 Polikarpov, A.A. (2000). Chronological Morphemic and Word-Formational Dictionary of Russian: Some System Regularities for Morphemic Structures and Units. In: Linguistische Arbeitsberichte; 75. [Institut f ür Linguistik der Universität Leipzig. 3. Europäische Konferenz ≫Formale Beschreibung slavischer Sprachen, Leipzig 1999≪. Leipzig. (201–212). [http://www.philol.msu.ru/~lex/articles/fdsl.htm].25Prün, G. (1994). Validity of Menzerath‐Altmann's law: Graphic representation of language, information processing systems and synergetic linguistics, Journal of Quantitative Linguistics, Vol. 1, Iss. 2.26 βλέπε 6.

13

Στη Σερβική γλώσσα όπως και σε άλλες νοτιοσλαβικές γλώσσες, όπου έχουμε σχετικές έρευνες των Gajic (1950) και Grzybek (1999) στη Κροατική27 και του Grzybek (2000) στη Σλοβενική28, πραγματοποιήθηκε έρευνα σχετικά με την ισχύ του νόμου σε διάφορους τύπους κειμένων για ανάλυση μήκους λέξεων και συλλαβών όπως δείχνει ο επόμενος πίνακας:

Πίνακας 1.2Κατηγορίες

κειμένων στη Σερβική γλώσσα για ανάλυση του Ν Μ-

Α29τύποι

κειμένωναριθμός κειμένων

τύπους μορφής λέξης

Επιστημονικά κείμενα

10 κεφάλαια 4948

Λογοτεχνικά κείμενα

7 κεφάλαια 5216

Δημοσιογραφικά κείμενα

30 5436

κυρήγματα 32 4365Συνολικό corpus

16461

Τα αποτελέσματα από την εμπειρική έρευνα (εφαρμογή του τύπου SyL=a·WoL−b) έδειξαν ότι στη Σερβική γλώσσα η σχέση μεταξύ μήκους λέξης και συλλαβής ακολουθεί αρκετά συστηματικά το Ν Μ-Α (Γραφ. 1.1).

27 Gaji´c, D.M.(1950). Zur Struktur des serbokroatischen Wortschatzes. Die Typologie der serbokroatischenmehrsilbigen Wörter. Dissertation, Bonn. & Grzybek, P. (1999). Randbemerkungen zur Korrelation vonWort- und Silbenlänge im Kroatischen. In: Tošovi´c, B. (ed.), Die grammatischen Korrelationen.Graz: Institut für Slawistik, 67–77.28 Grzybek, P. (2000). Pogostnostna analiza besed iz elektronskego korpusa slovenskih besedil. Ιn: Slavistiˇcna Revija, 48; 141–157.29 Kelih, E. (2010). Parameter interpretation of the Menzerath law: evidence from Serbian, Text and Language Structures, Karl-Franzens Univerität.

14

Γράφημα 1.1Σύγκριση μήκος λέξης – μήκος συλλαβής σε όλο το corpus

Ειδικότερα, για παράδειγμα ανά κατηγορία κειμένων στην Σερβική γλώσσα30 που δοκιμάστηκαν παρατηρούμε τα εξής:

Πίνακας 1.3 Επιστημονικά κείμενα

Wol Syl Syl*

1 2.96 2.93

2 2.54 2.58

3 2.38 2.40

4 2.24 2.28

5 2.19 2.19

6 2.14 2.12

7 2.102.06

a 2.93

b -.18

30 βλέπε 29.

15

1 2 3 4 5 6 70

1

2

3

4

5

6

7

8

Aριθμός συλ. Syl Syl*

Γράφημα 1.2Κατανομή παραμέτρων Ν Μ-Α σε επιστημονικά κείμενα

Πίνακας 1.4 Λογοτεχνικά κείμενα

Wol Syl Syl*

1 3.09 3.01

2 2.44 2.54

3 2.20 2.30

4 2.11 2.15

5 2.08 2.03

6 2.06 1.94

7 --

a 3.01

b -.24

16

Γράφημα 1.3Κατανομή παραμέτρων Ν Μ-Α σε λογοτεχνικά κείμενα

και συνολικά στο corpus: Πίνακας 1.5 Σε όλο το Corpus

Wol Syl Syl*

1 3.18 3.08

2 2.53 2.64

3 2.32 2.42

4 2.21 2.27

5 2.17 2.16

6 2.15 2.08

7 2.102.01

a3.08

b-.22

17

1 2 3 4 5 6 70

1

2

3

4

5

6

7

8

αριθ.συλλαβ.SylSyl*

Γράφημα 1.4Κατανομή παραμέτρων Ν Μ-Α σε όλο το corpus

Αν παρατηρήσουμε όλα τα γραφήματα (Γραφ.1.2, Γραφ.1.3, Γραφ.1.4), όσο ανεβαίνει ο WoL (μήκος της λέξης), τόσο φθίνει το μέσο μήκος της συλλαβής στη στήλη Syl και στη στήλη Syl* αντίστοιχα. H δεύτερη στήλη (SyL) μας δίνει το μέσο μήκος συλλαβής (χαρακτήρες / αριθμό συλλαβών) στα αντίστοιχα κείμενα, κατόπιν εμπειρικών μετρήσεων, ενώ η στήλη (SyL*), μας δίνει το μέσο μήκος συλλαβής στα αντίστοιχα κείμενα, που προκύπτει από τη μαθηματική σχέση (1.2). Παρατηρώντας όλους τους Πίνακες (δεδομένα ανά στήλη) διαπιστώνουμε ότι επιβεβαιώνεται ο νόμος Μenzerath-Altmann31 στο συγκεκριμένο corpus της Σερβικής γλώσσας. Επιπλέον, φάνηκε από τα αποτελέσματα, ότι οι συνήθως επαναληπτικές καθορισμένες παράμετροι (a, b) μπορούν να αντικατασταθούν από εμπειρικά χαρακτηριστικά του μήκους λέξης και συλλαβής, δηλαδή με το μέσο μήκος συλλαβών των μονοσύλλαβων λέξεων (Γραφ.1.5). Λόγω της εμπειρικά προερχόμενης αμοιβαίας αλληλοσυσχέτισης των παραμέτρων και του μέσου μήκους συλλαβών, ένα μοντέλο με την δυνατότητα ερμηνείας των παραμέτρων του μπορεί να χρησιμοποιηθεί.

31 βλέπε 29.

18

Γράφημα 1.5Σχέση μεταξύ Syl-1 και παραμέτρου b

Στην διεθνή βιβλιογραφία, μία γλώσσα που ελέγχθηκε για τον Ν Μ-Α, είναι η Ουγγρική. Η Ουγγρική γλώσσα ανήκει στην κατηγορία των συγκολλητικών γλωσσών όπου έχει τεθεί μία υπόθεση από τον Skalička (1966), ο οποίος ισχυρίστηκεότι οι συγκολλητικές γλώσσες πρέπει να έχουν μεγαλύτερες λέξεις από ότι άλλοι τύποι γλώσσας και συλλαβές με συγκριτικά χαμηλή φωνολογική πολυπλοκότητα32. Η συγκολλητική γλώσσα είναι μια μορφή συνθετικής γλώσσας όπου κάθε πρόσφυμα αναπαριστά τυπικά μια μονάδα νοήματος ή γραμματικής σχέσης (όπως για παράδειγμα η "έλλειψη," ο "παρελθόν χρόνος," ο "πληθυντικός αριθμός," κλπ.), και περιορισμένα μορφήματα εκφράζονται με προσφύματα (affixes) (και όχι με εσωτερική αλλαγή στην ρίζα της λέξης, ή αλλαγές στην έμφαση ή τον τόνο). Επιπροσθέτως, σε μια συγκολλητική γλώσσα τα προσφύματα δεν συγχωνεύονται με άλλα, και δεν αλλάζουν μορφή εξαρτώμενα από άλλα33. Τα αποτελέσματα δείχνουν επαλήθευση του Ν Μ-Α, αλλά απαιτείται η αύξηση και εμπλουτισμό του μεγέθους του corpus (δοκιμάστηκε ένα Λεξικό) υπό έλεγχο και διεύρυνση (με χρήση της υπόθεσης Skalička) και σε άλλες συγκολλητικές γλώσσες (Βασκική, Ιαπωνική, Τουρκική, Κορεατική κ.α.)34 .

32 Skalička, V. (1966). Konsonantenkombinationen und linguistische Typologie. In: Travaux linguistiques de Prague 1: 111-114.33Συγκολλητική γλώσσα, http://el.wikipedia.org/wiki/%CE%A3%CF%85%CE%B3%CE%BA%CE%BF%CE%BB%CE%BB%CE%B7%CF%84%CE%B9%CE%BA%CE%AE_%CE%B3%CE%BB%CF%8E%CF%83%CF%83%CE%B1, [access 4/4/2013].

19

http://el.wikipedia.org/wiki/%CE%A3%CF%85%CE%B3%CE%BA%CE%BF%CE%BB%CE%BB%CE%B7%CF%84%CE%B9%CE%BA%CE%AE_%CE%B3%CE%BB%CF%8E%CF%83%CF%83%CE%B1



Μία άλλη έρευνα του Fenk et al., (2005)35, σε 33 διαφορετικές γλώσσες (γερμανική, ιταλική, ινδονησιακή κλπ.) εξετάζει μια συγκεκριμένη έκδοση του N M-A: «Όσο περισσότερες συλλαβές ανά λέξη, τόσο λιγότερα φωνήματα σε κάθε

συλλαβή».Ο Menzerath, στην κλασική μελέτη του το 1954, ερευνά ήδη τη σχέση μεταξύ των δύο μέτρων της λεξικής πολυπλοκότητας: πολυπλοκότητα όσον αφορά τον αριθμό των συλλαβών και όσο αφορά τον αριθμό των φωνημάτων. Ο Menzerath, αναφέρει επίσης, ότι ο «σχετικός» αριθμός των φωνημάτων (y) μειώνεται με την αύξηση του αριθμού των συλλαβών ανά λέξη (x). Στον Menzerath, το y υποδηλώνει τον αριθμό των φωνημάτων ανά λέξη: το μέγεθος των λέξεων, όπως μετράται σε φωνήματα, αυξάνεται πιο αργά από ό, τι το μέγεθος τους, όπως μετράται σε συλλαβές. Τα αποτελέσματα της έρευνας δείχνουν καταρχήν ότι ο Ν Μ-Α περιγράφει καθολικά γεγονότα σε σχέση με τη φυσική γλώσσα και επιπλέον συνδέονται με τις αρχές της οικονομίας στην επεξεργασία των πληροφοριών, υπό την έννοια της θεωρίας της πληροφορίας και των περιορισμών της ανθρώπινης γνωστικής ικανότητας. Επίσης, οι ερευνητές προτείνουν μία νέα μαθηματική διατύπωση του Ν Μ-Α: y’/y = b/x + c (1.5)με y, ως μέγεθος των συστατικών, x ως το μέγεθος της κατασκευής, και bκαι c ως σταθερές. Τέλος, οι ίδιοι ερευνητές παρουσιάζουν τη γενική λύση της εξίσωσης (1.3): y = axb ecx (1.6)

και την ειδική περίπτωση: y=aecx για b=Ø (1.7)

όπου η καλύτερη προσαρμογή της εξασθένισης της εκθετικής συνάρτησης είναι αν θεωρήσουμε c< Ø ισοδύναμη με την ειδική περίπτωση με την εξαίρεση μίας επιπλέον ασυμπτωτικής τιμής:

34 Köhler, R. (2002). Power Law Models in Linguistics: Hungarian. Glottometrics 5, 2002 , pp. 51-61.35 Fenk, A. Fenk-Oczlon, G. Fenk, L. Syllable Complexity as a Function of Word Complexity in V. Solovyev & V. Polyakov (eds.) (2005) Text Processing and Cognitive Technologies, No 11, Moscow: MISA, pp. 337-346.

20

y0: y = aecx + y0 (1.8)

Αυτή η ασυμπτωτική αξία προσδιορίζεται από την καταγραφή των αντίστοιχων γλωσσών των απλών συλλαβών τους και της μέσης συλλαβικής τους πολυπλοκότητας. Γενικά, ο Ν Μ-Α υποβοηθά στην κατανόηση της συλλαβικής και λεξικής πολυπλοκότητας και συνδέεται από τα ευρήματα της τελευταίας έρευνας με την θεωρία της πληροφορίας. 1.5 ΕπισκόπησηΣτο κεφάλαιο αυτό παρουσιάστηκε ο νόμος Menzerath-Altmann. Ο νόμος πήρε το όνομά του από τους Paul Menzerath και Gabriel Altmann, και ξεκίνησε αρχικά από μία θεώρηση η οποία προτάθηκε από τον Menzerath το 1928, σχετικά με τη σχέση μεταξύ του μεγέθους του συστατικού ενός ήχου σε σύγκριση με το σύνολο στο οποίο συνευρίσκεται. Οι δύο επιστήμονες παρατήρησαν τη σχέση μεταξύ των μηκών των συλλαβών και των λέξεων. Όταν το μέσο μήκος μιας συλλαβής μειώνεται, το μήκος της λέξης μεγαλώνει. Έτσι η αύξηση του αριθμού των συλλαβών μιας πρότασης έχει ως αποτέλεσμα, τη μείωση του μέσου μήκους λέξης. Η σχέση μεταξύ του μεγέθους μιας πρότασης και του μεγέθους των τμημάτων (λέξεων) στη γλώσσα (και τη μουσική) ακολουθούν το νόμο Menzerath –Altmann σε πολλά επίπεδα (μορφήματα, λέξεις, προτάσεις). Η συγκεκριμένη θεώρηση αποτελεί μία από τις πιο σημαντικές ιδέες της γλωσσολογίας που έχει διατυπωθεί τα τελευταία χρόνια, και βρίσκει εφαρμογή σε αρκετά είδη γλωσσικών κατασκευών αλλά και πέρα από την ανάλυση φυσικών γλωσσών, στην υπολογιστική βιολογία (γονιδίωμα), στην μουσική.

21


ΕΡΓΑΛΕΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ36

2.1 ΕισαγωγήΣτο κεφάλαιο αυτό παρουσιάζεται η ανάπτυξη ενός λογισμικού εργαλείου (συλλαβιστής-tokenizer) για την υποστήριξη της μαθηματικής & στατιστικής ανάλυσης ενός corpus και την αξιοποίηση των αποτελεσμάτων για την εξαγωγή συμπερασμάτων όσο αφορά τον έλεγχο ισχύος του μαθηματικού νόμου της ποσοτικής γλωσσολογίας Νόμο Menzerath – Altmann στην Ελληνική Γλώσσα. Το εργαλείο αυτό αναπτύχθηκε σε γλώσσα προγραμματισμού PERL ακολουθώντας τις αρχές του δομημένου προγραμματισμού.

2.2 Γλώσσα προγραμματισμού PERLΤο όνομα PERL προκύπτει από τα αρχικά των αγγλικών λέξεων “Practical Extraction and Report Language” (Γλώσσα πρακτικής εξαγωγής και αναφοράς)37. H Perl είναι μία πολύ δημοφιλής αντικειμενοστραφής γλώσσα προγραμματισμού (object oriented programming). Συνήθως ένα πρόγραμμα σε Perl εκτελείται χρησιμοποιώντας άμεσα ή έμμεσα το διερμηνέα (interpreter) της γλώσσας. Η γλώσσα σχεδιάστηκε από τον L. Wall και ο πηγαίος κώδικάς της διατίθεται βάση της αδείας ανοικτού

36 Γράφτηκε από τον XXXXXXXX.37Schwartz, R. L., Christiansen, T. (1999). Μάθετε την Perl, Δεύτερη Αμερικανική Έκδοση, Εκδόσεις Κλειδάριθμος, σελ. 35.

22

http://el.wikipedia.org/w/index.php?title=Larry_Wall&action=edit&redlink=1

http://el.wikipedia.org/w/index.php?title=Larry_Wall&action=edit&redlink=1

http://el.wikipedia.org/wiki/%CE%93%CE%BB%CF%8E%CF%83%CF%83%CE%B1_%CF%80%CF%81%CE%BF%CE%B3%CF%81%CE%B1%CE%BC%CE%BC%CE%B1%CF%84%CE%B9%CF%83%CE%BC%CE%BF%CF%8D

http://el.wikipedia.org/wiki/%CE%91%CE%BD%CF%84%CE%B9%CE%BA%CE%B5%CE%B9%CE%BC%CE%B5%CE%BD%CE%BF%CF%83%CF%84%CF%81%CE%B5%CF%86%CE%AE%CF%82_%CF%80%CF%81%CE%BF%CE%B3%CF%81%CE%B1%CE%BC%CE%BC%CE%B1%CF%84%CE%B9%CF%83%CE%BC%CF%8C%CF%82

κώδικα GPL. Η πρώτη έκδοση της γλώσσας εμφανίστηκε το 1987 ενώ μέχρι σήμερα βγαίνουν συνεχώς νέες εκδόσεις38. Ως γλώσσα προγραμματισμού η Perl έχει ένα δυναμικό σύστημα τύπων, δηλαδή μία μεταβλητή αποκτά τύπο μόνο μετά από την ανάθεση μιας τιμής σε αυτή. Η Perl μπορεί να διαχειριστεί αριθμούς (δεκαδικούς και ακεραίους) και συμβολοσειρές. Επιπλέον, μπορούμε να έχουμε πίνακες απλούς (arrays) και συσχετιστικούς (associative arrays ή απλά hash tables), οι οποίοι είναι μηχανισμοί οργάνωσης δεδομένων. Μάλιστα με τους συσχετιστικούς πίνακες μπορούμε να δημιουργήσουμε δυναμικές δομές όπως δένδρα, στοίβες, ουρές κ.λπ. Υπάρχει πρόνοια για τον διαχωρισμό μεταβλητών στις οποίες αναθέτουμε απλές τιμές ή σύνθετες τιμές39. Στην Perl τα προγράμματα μπορούν να γραφτούν σε μία γραμμή κειμένου. Παρόλα αυτά, σχεδόν όλα τα προγράμματα της Perl χρησιμοποιούν εσοχές όπως και τα προγράμματα C40. Όταν ορίζουμε μία διαδικασία ή μία συνάρτηση στην Perl δεν σημειώνουμε τυπικές παραμέτρους αλλά απλά θεωρούμε πως η διαδικασία ή η συνάρτηση θα έχουν ως όρισμα έναν πίνακα. Άρα για μια συνάρτηση ή μία διαδικασία δεν υπάρχει προκαθορισμένος αριθμός ορισμάτων. Επίσης οι συναρτήσεις και οι διαδικασίες στην Perl μπορούν να οριστούν αναδρομικά. Ένα άλλο βασικό χαρακτηριστικό της γλώσσας είναι η εξαιρετική υποστήριξη των κανονικών εκφράσεων (Regular expression), δηλαδή παραστάσεων που μπορούν να περιγράψουν την γενική δομή μιας συμβολοσειράς και μπορούν να χρησιμοποιηθούν στη διαχείριση συμβολοσειρών (string processing). Η πιο χαρακτηριστική χρήση των κανονικών εκφράσεων είναι στην λεκτική ανάλυση γλωσσών προγραμματισμού, δηλαδή στο κομμάτι εκείνο ενός μεταγλωττιστή που «σπάει» την είσοδο σε λεκτικές μονάδες (tokens). Στην Perl οι κλάσεις είναι πακέτα με ειδικές συναρτήσεις τα οποία επιστρέφουν την τιμή 1. Ο τρόπος δημιουργίας και χρήσης κλάσεων δεν είναι ιδιαίτερα κομψός ενώ παράλληλα δεν υποστηρίζει πολλές από τις δυνατότητες που υποστηρίζουν κατεξοχήν αντικειμενοστρεφείς γλώσσες όπως η Java και η Scala. Από την άλλη, η Perl μοιάζει με μεταγλωττιστή (compiler) και με ερμηνευτή (interpreter). Είναι μεταγλωττιστής επειδή το πρόγραμμα

38 Perl, http://el.wikipedia.org/wiki/Perl [access 15/6/2013].39 Perl, Wikipedia, βλέπε 2.40 σελ. 39, βλέπε 1.

23

http://el.wikipedia.org/wiki/Scala

http://el.wikipedia.org/wiki/Java

http://el.wikipedia.org/wiki/%CE%9A%CE%B1%CE%BD%CE%BF%CE%BD%CE%B9%CE%BA%CE%AE_%CE%AD%CE%BA%CF%86%CF%81%CE%B1%CF%83%CE%B7

http://el.wikipedia.org/wiki/%CE%94%CF%85%CE%BD%CE%B1%CE%BC%CE%B9%CE%BA%CE%BF%CE%AF_%CF%84%CF%8D%CF%80%CE%BF%CE%B9

http://el.wikipedia.org/wiki/GPL

http://el.wikipedia.org/wiki/Perl

διαβάζεται και αναλύεται πλήρως πριν εκτελεστεί η πρώτη πρόταση. Είναι ερμηνευτής γιατί δεν υπάρχει αντικειμενικός κώδικας που «πιάνει χώρο» στο δίσκο41. Επίσης, η Perl παρέχει εργαλεία για ταυτόχρονη επεξεργασία δεδομένων μέσω νημάτων ή κάνοντας χρήση της κλήσης συστήματος fork. Επιπλέον παρέχει υποδομές για δικτυακό προγραμματισμό. Επιπρόσθετα, παρέχει υποδομές για την εύκολη διασύνδεση με γνωστές βάσεις δεδομένων, ενώ τα τελευταία χρόνια έγινε ιδιαίτερη δημοφιλής λόγω της χρήσης της στη βιοπληροφορική αλλά και στην επεξεργασία φυσικής γλώσσας. Τέλος, η Perl έγινε πολύ γνωστή λόγω της χρήσης της για τη δημιουργία των λεγομένων CGI scripts. Τα προγράμματα CGI δεν επεξεργάζονται απλώς τα δεδομένα που εισάγονται σε μία φόρμα. Εκτελούνται επίσης όταν επιλέγεται μία εικόνα γραφικών, και μπορούν να χρησιμοποιούνται για να παρέχουν το είδος της εξόδου που «βλέπει» ο φυλλομετρητής (browser). Οι ιστοσελίδες CGI υποστηρίζουν δυναμικές πληροφορίες σε συνδυασμό με αλληλεπίδραση42. Η Perl χρησιμοποιείται από ένα ευρύ φάσμα χρηστών και σε πολλές εφαρμογές. Για παράδειγμα χρησιμοποιείται στη βιοπληροφορική, στη διαχείριση συστημάτων, στη διαχείριση ιστοτόπων, στην ανάκτηση πληροφοριών, στην γλωσσολογία κ.λ.π43.

2.2.1 Κανονικές ΕκφράσειςΜία κανονική έκφραση (Regular expression) είναι ένα μοτίβο (pattern) το οποίο εξετάζεται αν ταιριάζει με ένα αλφαριθμητικό (string). Ο έλεγχος ταύτισης μιας κανονικής παράστασης με ένα αλφαριθμητικό είτε θα επιτύχει είτε θα αποτύχει. Κανονικές εκφράσεις χρησιμοποιούνται από πολλά προγράμματα, όπως είναι οι εντολές του UNIX grep, sed, awk, ed, vi, emacs, ακόμη και από τα διάφορα κελύφη. Σε κάθε πρόγραμμα χρησιμοποιείται διαφορετικό σύνολο χαρακτήρων προτύπου. Η Perl είναι ένα υπερσύνολο όλων αυτών των εργαλείων: μία κανονική έκφραση που μπορεί να γραφτεί σε κάποιο από αυτά τα εργαλεία μπορεί επίσης να γραφτεί στην Perl, αν και όχι με εντελώς ίδιους χαρακτήρες44. Οι δυνατότητες αναγνώρισης (pattern matching) και διαχείρισης χαρακτήρων της Perl είναι ανώτερες, και ευκολότερες στη χρήση, από

41 σελ. 39-40, βλέπε 1.42 σελ. 264, βλέπε 1.43Perl, Wikipedia, βλέπε 2.44 σελ. 131, βλέπε 1.

24

http://el.wikipedia.org/wiki/%CE%92%CE%B9%CE%BF%CF%80%CE%BB%CE%B7%CF%81%CE%BF%CF%86%CE%BF%CF%81%CE%B9%CE%BA%CE%AE

http://el.wikipedia.org/w/index.php?title=Fork_(operating_system)&action=edit&redlink=1

κάθε άλλης γλώσσας προγραμματισμού. Η συνηθέστερη μορφή pattern matching στην Perl εμφανίζεται σε if statements όπως45: if ($something =~ m/mitsos/) { κάνε κάτι } (2.1)

το =~ σημαίνει «περιέχει ή υπάρχει» και αναφέρεται σε ότι βρίσκεται ανάμεσα στις //. Δηλαδή λέμε στην Perl πως αν η μεταβλητή ($something) περιέχει την ακολουθία χαρακτήρων mitsos τότε θα πρέπει να εκτελεστεί το περιεχόμενο των {}. Αν θέλαμε η μεταβλητή $something να μην περιέχει την ακολουθία mitsos τότε αντί για =~ θα γράφαμε !~. if ($something !~ m/mitsos/) { κάνε κάτι } (2.2)

Χρησιμοποιούνται ειδικοί χαρακτήρες στις regular expressions. Τέτοιες είναι: ^ . ? { ( ) / [ $ + * \ | (2.3)

Πριν από τους παραπάνω χαρακτήρες θα πρέπει να χρησιμοποιείται η backslash (\). Για παράδειγμα αν επιθυμούμε να βρεθεί το 25$ τότε πληκτρολογούμε: m/$35\$$/ (2.4)

Σημειώστε ότι το m δεν είναι απαραίτητο και οι // μπορούν να πάρουν και άλλη μορφή. Όταν η ακολουθία χαρακτήρων που δηλώνουμε βρίσκεται μέσα σε // τότε το m μπορεί να παραληφθεί. Είναι όμως υποχρεωτικό όταν αντί για // χρησιμοποιούμε κάποιον άλλο ειδικό χαρακτήρα. Οι παρακάτω εκφράσεις λοιπόν είναι ισοδύναμες: m/mitsos/ /mitsos/ m|mitsos| m!mitsos! m%mitsos% (2.5)

Εκτός από απλές ακολουθίες χαρακτήρων (strings) η Perl μπορεί να διαχειριστεί και πιο περίπλοκες εκφράσεις όπως φαίνεται στον επόμενο πίνακα46:

Πίνακας 2.1 Τύποι Κανονικών Εκφράσεων (Regular Expression) στην Perl

Χαρακτήρας Ιδιότητα

\wΟποιοδήποτε γράμμα, αριθμός ή ο χαρακτήρας underscore

(το _), δηλαδή οτιδήποτε μπορεί να χρησιμοποιηθεί ως μέρος του ονόματος μιας μεταβλητής στην Perl.

45Εισαγωγή στη γλώσσα προγραμματισμού Perl, http://www.eeei.gr/perl/all.htm#_Toc15442024 [access 15/6/2013].46 Εισαγωγή στην γλώσσα προγραμματισμού Perl, βλέπε 9.

25

http://www.eeei.gr/perl/all.htm#_Toc15442024

\W Οτιδήποτε εκτός από γράμμα, αριθμό ή underscore (ο χαρακτήρας αυτός αποτελεί το αντίθετο του \w)

\d Οποιοδήποτε ψηφίο (0,1,2,3,4,5,6,7,8,9)

\D Οτιδήποτε εκτός από ψηφίο (ο χαρακτήρας αυτός αποτελεί το αντίθετο του \d)

\s Οποιοδήποτε σύμβολο κενού και συναφών στοιχείων (\n\t\f\r), δηλαδή κενό διάστημα, αλλαγή γραμμής (\n), tab (\t), formfeed (\f), carriage return (\r).

\S Οτιδήποτε εκτός από σύμβολο κενού (ο χαρακτήρας αυτός αποτελεί το αντίθετο του \s)

\b Λεκτικό σύνορο (word boundary)

\B Οτιδήποτε εκτός από λεκτικό σύνορο

^ Αρχή string

$ Τέλος string

| ή διαζευκτικό (ο λογικός χαρακτήρας εναλλαγής)

[] Εναλλακτική χρήση του περιεχομένου (character class)

. Οποιοσδήποτε χαρακτήρας

? Μια ή καμία εμφάνιση του προηγούμενου χαρακτήρα

* Καμία, μια ή περισσότερες εμφανίσεις του προηγούμενου χαρακτήρα

+ Μια ή περισσότερες εμφανίσεις του προηγούμενου χαρακτήρα

{} Αριθμός επαναλήψεων ενός χαρακτήρα

26

Οι κυριότεροι τρόποι σύναξης pattern matching της Perl είναι οι ακόλουθοι (Πιν.2.2)47:

Πίνακας 2.2 Τύποι Κανονικών Εκφράσεων (Regular Expression) στην Perl

Παράδειγμα Αναζήτηση για Σχόλια

/gepiti/ gepiti Ότι ζητήθηκε.

/gepiti/i Gepiti, gepiti, GEPITI, gePIti κ.λπ.

Το i σημαίνει case insensitive. Θα βρεθούν λοιπόν τόσο κεφαλαία όσο και πεζά.

/gepiti/g gepiti παντού Η αναζήτηση συνεχίζεται και μετά την εύρεση του πρώτου αποτελέσματος.

/\bδημο/ δημοκρατία, δημογέροντας κ.λπ.

Λόγω το \b θα αναζητηθούν μόνο strings που ξεκινούν μια λέξη.

/\bτρία\b/ Η λέξη τρία Δεν θα βρεθούν τα αλλοτρία, τρίαινα, πατρίας μια και βρίσκονται (ολόκληρα ή κατά ένα μέρος) μέσα σε λέξεις.

/\Bτρία\B/ Λέξεις όπως το πατρίας

Δεν πρέπει να υπάρχει λεκτικό σύνορο πριν ή μετά το τρία. Θα βρεθούν λοιπόν μόνο strings όπου το τρία δεν αποτελεί αρχή ή τέλος λέξης.

/^Αλ/ Αλλά, Αλλιώς κ.λπ. στην αρχή του προς

αναζήτηση περιεχομένου

Αν $something =~ /^Αλ/ τότε η αναζήτηση θα είναι επιτυχής μόνο αν το $something ξεκινάει από Αλ.

$something = Αλλιώς τα περιμέναμε (επιτυχής� � αναζήτηση) $something = Τίποτα. Αλλιώς πρέπει� να γίνει (αποτυχία αφού το $something ξεκινάει με� το «Τίποτα»).

/ος$/ Μαίρη. Κική κ.λπ. στο τέλος του προς

αναζήτηση περιεχομένου

Αν $something =~ /ος$/ τότε η αναζήτηση θα είναι επιτυχής μόνο αν το $something τελειώνει σε ος (ή αν αναζητούμε στο $_ τότε θα πρέπει να τελειώνει σε ος ακολουθούμενο αμέσως μετά από αλλαγή γραμμής).

$something = /Το όνομά μου είναι Μαίρη (� � επιτυχής αναζήτηση) $something = Το όνομά μου είναι Κική.� � (αποτυχία αφού το $something τελειώνει με τελεία).

/^/ Κάθε γραμμή που έχει αρχή

Όλες οι γραμμές έχουν αρχή, συνεπώς κάθε γραμμή (π.χ. αν διαβάσουμε γραμμή - γραμμή ένα αρχείο με τη while και την $_).

47 Εισαγωγή στην γλώσσα προγραμματισμού Perl, βλέπε 9.

27

/^5$/ 5 Μια γραμμή που περιέχει μόνο τον χαρακτήρα 5.

/^$/ άδεια γραμμή Μια γραμμή που περιέχει μόνο την αρχή και το τέλος της χωρίς τίποτε ενδιάμεσα.

/Μαίρη| Κική/ Μαίρη ή Κική Π.χ. $something =~ /Μαίρη|Κική/

/(Νίκ|Γιώργ)ος/ Νίκος ή Γιώργος Εδώ εναλλάσσεται το περιεχόμενο των παρενθέσεων αντί για ολόκληρες τις λέξεις.

/τ[οαη]/ το, τα, τη, τον, ταραμάς,

αυτοκίνητο κ.λπ.

Οτιδήποτε περιέχει τ ακολουθούμενο από ο ή α ή η.

/58[$?]/ 58$ ή 58? ή 58$$$ κ.λπ.

Μέσα στις character classes οι ειδικοί χαρακτήρες δεν χρειάζονται escaping (προσθήκη του \ για την αποφυγή «κακής κατανόησης» από την Perl) με εξαίρεση τα ], - και το ^ αν βρίσκεται πρώτο.

/[^78]/ Οτιδήποτε εκτός από 7 ή 8.

Η ^ στην αρχή της character class δηλώνει άρνηση. H $something =~ /[^78]/ είναι αληθής όταν δεν περιέχεται πουθενά το 7 ή το 8. (Πρέπει όμως να υπάρχει κάτι άλλο. Αν η $something είναι κενή δεν έχουμε ταίριασμα.)

/[a-z]1/ a1, b1, c12 κ.λπ. Η /[ - ] / δηλώνει εύρος τιμών. Εδώ από το a έως και το z.

/[0-9]a/ 0a, 5ab κ.λπ. Εδώ το εύρος τιμών είναι από 0 έως και 9.

/[0-9a-z]/ 0, 1, 2, c, d, κ.λπ. Εδώ το εύρος τιμών είναι από 0 έως και 9 και από a έως και z.

/25.00/ 25100, 25a00, 25*00, 25,00 κ.λπ.

Η τελεία αντιπροσωπεύει οποιονδήποτε χαρακτήρα. Αν θέλαμε να βρούμε το 25.00 θα έπρεπε να το γράψουμε /25\.00/

/^.$/ Οτιδήποτε αλλά μόνο ένα

Μια γραμμή που μπορεί να περιέχει οποιονδήποτε χαρακτήρα, αλλά μόνον έναν.

/σ?ταύρος/ σταύρος, ταύρος, παπασταύρος,

μικροταύρος κ.λπ.

Το σ μπορεί να υπάρχει μια φορά ή καθόλου. Αν είχαμε /στ?αύρος/ θα ταίριαζαν τα σαύρος, σταύρος, αλλά όχι το στταύρος γιατί πρέπει να έχουμε μόνο ένα ή κανένα τα μετά

28

το σ.

/ύαινα(κι)?/ ύαινα, υαινάκι κ.λπ. Το κείμενο στο οποίο αναφέρεται το ? μπορεί να μπει και μέσα σε παρένθεση.

/αβ*γ/ αγ, αβγ, αββγ, αβββγ, αββββββγ,

κ.λπ

Το β μπορεί να επαναληφθεί άπειρες φορές. Μπορεί επίσης να μην υπάρχει καθόλου.

/αβ+γ/ αβγ, αββγ, αβββγ, αββββββγ, κ.λπ

Το β μπορεί να επαναληφθεί άπειρες φορές. Θα πρέπει όμως να υπάρχει τουλάχιστον μια φορά (δεν γίνεται δεκτό το αγ).

/\d{1,5}\$/ 1$, 15$, 333$, 4896$, 15987$ κ.λπ.

Ένα έως πέντε ψηφία (δηλαδή 0,1,2,3,4,5,6,7,8,9) ακολουθούμενα από το $.

/\d{5}\$/ 12345$, 98765$, 01234$ κ.λπ.

Πέντε ψηφία (όχι περισσότερα ή λιγότερα) ακολουθούμενα από το $.

/μαμα{3,} μου/ μαμααα μου, μαμαααααα μου

κ.λπ.

Ο προηγούμενος χαρακτήρας μπορεί να επαναλαμβάνεται 3 ή περισσότερες (οσεσδήποτε) φορές. Το «μαμαα μου» όμως δεν θα ταιριάξει (έχει μόνο δύο α μετά το μαμ).

Οι Regular Expressions είναι πολύ χρήσιμες για έλεγχο δεδομένων που πληκτρολογεί ο χρήστης ή για επιθεώρηση των περιεχομένων ενός αρχείου κειμένου. Μπορούν επίσης να αντικαταστήσουν ακόμη και «παραδοσιακές» προγραμματιστικές ενέργειες, διευκολύνοντας το έργο του προγραμματισμού.

2.2.2 Οι συναρτήσεις split, join και substrΟι κανονικές εκφράσεις μπορούν να χρησιμοποιηθούν για να διαιρέσουν ένα αλφαριθμητικό σε πεδία. Η συνάρτηση split κάνει την διαίρεση, η συνάρτηση join ενώνει πάλι τα χωρισμένα τμήματα, ενώ η substr κάνει εξαγωγή ενός τμήματος αλφαριθμητικού. Ειδικότερα, η split παίρνει ως είσοδο μία κανονική έκφραση και ένα αλφαριθμητικό, και αναζητά όλες τις εμφανίσεις της κανονικής έκφρασης μέσα στο αλφαριθμητικό. Τα τμήματα του αλφαριθμητικού που δεν ταυτίζονται με την κανονική έκφραση επιστρέφονται διαδοχικά ως λίστα τιμών. Για παράδειγμα, το επόμενο κομμάτι κώδικα (σε Perl) κάνει

29

διαχωρισμό (διαίρεση) του αλφαριθμητικού βάση του ΄,΄ με τη βοήθεια της συνάρτησης split48:my $data = ‘ Becky Alcorn, 25, female, Melburne, Australlia’;

my @values=split (‘,’.$data);

foreach my $val (@values) {

print “$val\n”;

}

Η έξοδος από την εκτέλεση του παραπάνω κώδικα θα είναι:Becky Alcorn

25

Female

Melburne

Australlia

Η join παίρνει ως είσοδο μία λίστα τιμών και ενώνει τις τιμές τοποθετώντας ένα αλφαριθμητικό σύνδεσης ανάμεσα τους. Για παράδειγμα49: $string = join( "", "one", "two", "three" );print"Joined String is $string\n";

Η έξοδος από την εκτέλεση του παραπάνω κώδικα θα είναι:Joined String is onetwothreeΤέλος, η substr κάνει εξαγωγή ενός τμήματος αλφαριθμητικού υπό την προϋπόθεση ότι το τμήμα προς εξαγωγή είναι σε μία γνωστή θέση αλλιώς η συνάρτηση είναι αναποτελεσματική. Η συνάρτηση substr δέχεται τρία ορίσματα: μία αλφαριθμητική τιμή, μία αρχική θέση και ένα μήκος, ως εξής50:

$s = substr ($αλφαριθμητικό, $αρχή, $μήκος); (2.6)

Ακολουθεί ένα παράδειγμα της substr51:my $string = ΄Now is the time for all good people to come to the aid of their party΄;

my $fragment= substr $string, 4;

print " string: <$string>\n";

print " fragment: <$fragment>\n";

Η έξοδος από την εκτέλεση του παραπάνω κώδικα θα είναι:String: <Now is the time for all good people to come to the aid of their party>

Fragment: <is the time for all good people to come to the aid of their pary>

2.3 Σχεδίαση Εργαλείου

48Using the Perl split() function, http://perlmeme.org/howtos/perlfunc/split_function.html [access 15/6/2013].49 PERL join Function, http://www.tutorialspoint.com/perl/perl_join.htm [access 15/6/2013].50 σελ. 149, βλέπε 1.51

Using the Perl substr() function,http://perlmeme.org/howtos/perlfunc/substr.html [access 15/6/2013].

30

http://perlmeme.org/howtos/perlfunc/substr.html

http://www.tutorialspoint.com/perl/perl_join.htm

http://perlmeme.org/howtos/perlfunc/split_function.html

Η σχεδίαση & ανάπτυξη του εργαλείου επεξεργασίας ελληνικής γλώσσας βασίστηκε στο γραμμικό μοντέλο τύπου ΄καταρράκτη΄(waterfall model). Τα στάδια αυτού του μοντέλου παριστάνονται με τη μορφή μίας γραμμικής ακολουθίας, σαν καταρράκτης που οδηγεί από το ένα στο άλλο (Σχ.2.1)(Pfleeger, 2001).

Σχήμα 2.1 Το γραμμικό μοντέλο ‘καταρράκτης’52

Στο μοντέλο αυτό, για να ξεκινήσει κάθε στάδιο της ανάπτυξης θα πρέπει να έχει ολοκληρωθεί το προηγούμενο του. Έτσι, όταν εξαχθούν οι απαιτήσεις του υπό κατασκευή συστήματος, ακολουθεί η ανάλυσή τους για την αξιολόγηση της πληρότητας και της συνέπειας τους, και η τεκμηρίωση σε έγγραφο καθορισμού προδιαγραφών. Όταν ολοκληρωθούν αυτές οι ενέργειες, τότε μπορεί να προχωρήσει η σχεδίαση του λογισμικού. Το γραμμικό μοντέλο προσφέρει μία άποψη πολύ υψηλού επιπέδου όσων διαδραματίζονται κατά την διάρκεια της ανάπτυξης του λογισμικού και δείχνει στους δημιουργούς την ακολουθία των γεγονότων που θα πρέπει λογικά να συναντήσουν (Pfleeger, 2001). Τα πλεονεκτήματα και τα μειονεκτήματα του γραμμικού μοντέλου φαίνονται στον επόμενο πίνακα53:

Πίνακας 2.3 Τύποι Κανονικών Εκφράσεων (Regular Expression) στην PerlΠλεονεκτήματα (+) Μειονεκτήματα (-)

Η παλαιότερη και ωριμότερη μέθοδος ανάπτυξης λογισμικού.

Η γραμμικότητα που υποθέτει το μοντέλο σπανίως συναντάται σε πραγματικά έργα.

Εύκολα κατανοητή και αποδεκτή από όσους συμμετέχουν στη διαδικασία ανάπτυξης (πελάτες, χρήστες, ανάδοχοι).

Η ανάλυση του συστήματος και ο εντοπισμός των απαιτήσεων σπανίως μπορούν να ολοκληρωθούν στην αρχή ενός έργου.

Συχνά συμβατή με τις Μεσολαβεί μεγάλο χρονικό

52Το μοντέλο του καταρράκτη, http://www0.dmst.aueb.gr/louridas/lectures/dais/process/ar01s04.html [access 15/6/2013].53 Το μοντέλο του καταρράκτη, βλέπε 16.

31

http://www0.dmst.aueb.gr/louridas/lectures/dais/process/ar01s04.html

προδιαγραφές του πελάτη. διάστημα από την έναρξη του έργου μέχρι την πρώτη παραδοτέα έκδοση του συστήματος. Στο μεταξύ παραδίδεται μόνο τεκμηρίωση.

Τα βήματα του μοντέλου του καταρράκτη αποτελούν τους δομικούς λίθους των άλλων μεθόδων.

Οι πελάτες και οι χρήστες αργούν να πάρουν μια λειτουργική εικόνα του συστήματος. Είναι εύκολο να υποτιμηθεί η καταβαλλόμενη προσπάθεια.

Το μοντέλο βοηθά στον καταμερισμό της εργασίας μεταξύ προγραμματιστών, αναλυτών, πωλητών, και των επικεφαλής.

Η ομάδα ανάπτυξης αργεί να αποκτήσει μια απτή έκδοση του συστήματος. Είναι εύκολο να απογοητεύσει μια προσπάθεια που για μεγάλο διάστημα δε φαίνεται να αποδίδει.Το μοντέλο εύκολα οδηγεί σε πλήρη διαχωρισμό των ρόλων των προγραμματιστών, των αναλυτών, των πωλητών και των επικεφαλής, με πιθανές αρνητικές συνέπειες.

Στο εργαλείο επεξεργασίας ελληνικής γλώσσας τα στάδια ανάπτυξης βάση του γραμμικού μοντέλου είναι τα ακόλουθα:

Ανάλυση απαιτήσεων. Αφορούν τις λειτουργίες και προδιαγραφές που θα πρέπει να έχει το λογισμικό. Ειδικότερα, θα πρέπει (Σχ.2.2):

- Λειτουργία Συλλαβισμού – ΛΣ (ακολουθώντας ορθογραφικούς κανόνες, λεξικό βάσης).

- Υπολογισμός Γλωσσολογικών Παραμέτρων – ΥΓΠ (παράμετροι νόμου Menzerath – Altmann, αριθμός λέξεων, αρ. συλλαβών, χαρακτήρες).

Σχήμα 2.2 Διαγραμματική αναπαράσταση των απαιτήσεων του συστήματος

Σχεδίαση & υλοποίηση

συστήματος

Λειτουργίες Συλλαβισμού

Γλωσσολογικοί παράμετροι

Λογισμικό συστήματος

Ορθογραφικοί κανόνες

Λεξικό

Αρ. λέξεων

Αρ. συλλαβών

χαρακτήρες

Παράμετροι Νόμου

Menzerath – Altmann

32

Σχεδίαση συστήματος. Αφορά τα τμήματα που θα έχει το σύστημα βάση των προδιαγραφών (απαιτήσεων). Θα αποτελείται από (Σχ.2.3):

- Μονάδα Εισαγωγής Στοιχείων-ΜΕσΣ. Είναι το τμήμα του λογισμικού που αποτελεί την διεπαφή εισόδου του συστηματος (data entry).

- Μονάδα Συλλαβισμού-ΜΣ. Είναι το τμήμα διαχωρισμού των λέξεων και υπολογισμού των συλλαβών.

- Μονάδα Υπολογισμού Παραμέτρων-ΜΥΠ. Είναι το τμήμα υπολογισμού των παραμέτρων του νόμου Menzerath – Altmann.

- Μονάδα Εξόδου Στοιχείων-ΜΕξΣ. Είναι το τμήμα εκτύπωσης των αποτελεσμάτων του λογισμικού για περαιτέρω επεξεργασία.

Σχήμα 2.3 Διαγραμματική αναπαράσταση των τμημάτων του

Συστήματος (εργαλείου)

Σχεδίαση προγράμματος. Η σχεδίαση του προγράμματος έγινε τμηματικά (σειριακή κατασκευή) και αποτελείται από τα εξής συστατικά (components) (Σχ.2.4):

- τμήμα εισόδου-εξόδου αρχείου/αρχείων (open-close files),- κεντρικό module επεξεργασίας κειμένου (εισαγωγή γραμμών

κειμένου, διαχωρισμός & καθαρισμός ανά λέξη),- τμήμα κανόνων (ορθογραφικοί κανόνες συλλαβισμού),- τμήμα χρήσης λεξικού,- τμήμα υπολογισμών, και- τμήμα εξόδου αποτελεσμάτων.

Η σχεδίαση του προγράμματος ακολούθησε τις εξής αρχές: δομημένος προγραμματισμός (χρήση ρουτινών,

αποφυγή goto), χρήση εσοχών κατά τη συγγραφή του κώδικα

(καλύτερη ευκρίνεια),

ΜΕσΣ ΜΣ ΜΥΠ ΜΕξΣ

Σχεδίαση Λογισμικού Συστήματος

33

και τεκμηρίωση ανά συστατικό λογισμικού (component).

Σχήμα 2.4 Διαγραμματική αναπαράσταση των συστατικών του λογισμικού

Κωδικοποίηση. Το λογισμικό του συστήματος (περιλαμβάνει ~550 γραμμές) υλοποιήθηκε στη γλώσσα προγραμματισμού Perl (v.5.1) και η συγγραφή του κώδικα πραγματοποιήθηκε στον editor NotePad++ (Εικ.2.1).

Εικόνα 2.1 Εικόνα κώδικα του λογισμικού στο editor NotePad++

Δοκιμή μονάδων και ενοποίησης. Κάθε τμήμα του λογισμικού δοκιμάστηκε σε δύο επίπεδα (Σχ.2.5):

- θεωρητική δοκιμαστική λειτουργία (εκτέλεση του αλγόριθμου στο χαρτί για τυχόν λάθη) και

- πραγματική δοκιμαστική λειτουργία (εκτέλεση συστατικών λογισμικού για τυχόν λάθη).

Open-close files

Central module

Rules module

Lexicon module

Open-close files

Compute parameters

Module Output results

System software

34

τεκμηρίωσηχρήση εσοχών

Σχήμα 2.5 Διαδικασία δοκιμών συστατικών του λογισμικού Δοκιμή συστήματος. Με την ολοκλήρωση των δοκιμών των

επιμέρους συστατικών του λογισμικού ακολουθεί η τελική δοκιμή. Αυτή περιλαμβάνει ένα αριθμό αρχείων κειμένου που εισάγονται στο λογισμικό για έλεγχο της λειτουργίας του. Τυχόν προβλήματα οδηγούν σε διορθώσεις στον κώδικα.

Δοκιμή αποδοχής. Η δοκιμή αποδοχής περιλαμβάνει τον έλεγχο του λογισμικού με την εισαγωγή ενός corpus με ~250000 λέξεις.

Λειτουργία. Δίνεται το λογισμικό για χρήση στην ερευνητική κοινότητα.

Στο επόμενο σχήμα φαίνεται συνολικά η σχεδίαση – ανάπτυξη του λογισμικού επεξεργασίας της ελληνικής γλώσσας προσαρμοσμένη στο γραμμικό μοντέλο:

Σχήμα 2.6 Μοντέλο ανάπτυξης-σχεδίασης λογισμικού επεξεργασίας ελληνικής γλώσσας

Συστατικό λογισμικού

(component)

Θεωρητική δοκιμαστική λειτουργίαΔεδομένα ελέγχου (μικρός αριθμός)

Πραγματική δοκιμαστική λειτουργίαΑρχείο

δοκιμαστικών δεδομένων

Αποτελέσματα

Αποτελέσματα

Διορθώσεις

Διορθώσεις

Τελική δοκιμή

Ανάλυση Απαιτήσεων

Σχεδίαση Συστήματος

ΜΕσξΜΣΜΥΠΜΕξΣ

PERL (v.5.1)

Δοκιμή αποδοχής

Δοκιμή συστήματος

Κωδικοποίηση

Σχεδίαση προγράμματος

components

Δοκιμές μονάδων

ΔΟΚΙΜΕΣ

Λειτουργίες

συλλαβισμού

Γλωσσολογικοί παράμετροι

ΛΕΙΤΟΥΡΓΙΑ

35

2.4 Δομή ΕργαλείουΤο λογισμικό επεξεργασίας Ελληνικής Γλώσσας ονομάζεται TLMA (Tool Law Menzerath – Altmann). H δομή του είναι η εξής:

- Ar1, Περιοχή δηλώσεων (δήλωσης προγράμματος, γενικών-καθολικών μεταβλητών, μεταβλητών ελέγχου και αποθήκευσης string κεντρικού module, δήλωση μεταβλητών ελέγχου corpus).

- Ar2, Περιοχή διαχείρισης αρχείων (εισαγωγή directory, πληροφορίες χρήσης, άνοιγμα αρχείων, κλείσιμο αρχείων).

- Ar3, Περιοχή κεντρικού module επεξεργασίας κειμένων. (τεμαχισμός & καθαρισμός record, καθαρισμός τεμαχίου, κλήση ρουτινών ελέγχου λέξης).

- Ar4, Περιοχή ρουτίνας Lexicon (άνοιγμα-κλείσιμο Lexicon, έλεγχος λέξη-λέξη, καταγραφή συλλαβών, καταγραφή χαρακτήρων-λέξεων).

- Ar5, Περιοχή ρουτίνας Rules (μεταβλητές ελέγχου ρουτίνας, δημιουργία νέου string φωνηέντων).

- Ar6, Περιοχή ρουτίνας υπολογισμού συλλαβών (έλεγχος φωνηέντων, έλεγχος δίφθογγων 1 συλλαβής, έλεγχος δίφθογγων 2 συλλαβών, εκτύπωση αποτελεσμάτων, καταγραφή χαρακτήρων-λέξεων, καταγραφή συλλαβών).

- Ar7, Περιοχή Υπολογισμού-Εκτύπωσης τελικών αποτελεσμάτων σε

monitor & File (εκτύπωση συνολικού αριθμού λέξεων κειμένου,

υπολογισμός συνολικού αριθμού χαρακτήρων, υπολογισμός

συνολικού αριθμού συλλαβών, υπολογισμός παραμέτρων Νόμου

Menzerath-Altamnn, εγγραφή κύριων παραμέτρων Νόμου Menzerath-

Altamnn και βοηθητικών παραμέτρων στο αρχείο out, περιοχή

μηδενισμού παραμέτρων λογισμικού).

Στο επόμενο σχήμα, φαίνεται η συνολική δομή του εργαλείου επεξεργασίας της ελληνικής γλώσσας TLMA:

36

Σχήμα 2.7 Δομή εργαλείου TLMAΑκολουθεί η λογική σύνδεση των τμημάτων του συστήματος με τα μέρη του εργαλείου (λογισμικό):

Περιοχή δηλώσεων

Μεταβλητών ελέγχου-

αποθήκευσης string

Δήλωσης προγράμμα

τος

Γενικών-καθολικών

μεταβλητώνκεντρικού

module επεξεργασίας

κειμένων

Περιοχή διαχείρισης

αρχείων

Περιοχή ρουτίνας Lexicon

Μεταβλητές ελέγχου corpus

εισαγωγή directory

Πληροφορίες χρήσης

Άνοιγμα αρχείων

Κλείσιμο αρχείων

τεμαχισμός &

καθαρισμός

record

καθαρισμός

τεμαχίου

κλήση ρουτινών ελέγχου

λέξηςάνοιγμα-κλείσιμο Lexicon

έλεγχος λέξη-λέξη

καταγραφή συλλαβών

καταγραφή χαρακτήρων-

λέξεων

Περιοχή ρουτίνας

Rules

μεταβλητές

ελέγχου ρουτίνας

δημιουργία νέου string

φωνηέντων

Περιοχή ρουτίνας

υπολογισμού συλλαβών

φωνήεντα

Δίφθογγους 1 συλ.

Δίφθογγους 2 συλ.

Εκτύπωση αποτελεσμά

των

καταγραφή συλλαβών

καταγραφή χαρακτήρων-

λέξεων

Περιοχή Υπολογισμού-

Εκτύπωσης τελικών αποτελεσμάτων σε

monitor & Fileεκτύπωση συνολικού αριθμού λέξεων

κειμένου

Υπολ.χαρακτήρων

Υπολ. συλλαβών

Παράμετροι νόμου

Εγγραφή παραμέτρων στο out file

Μηδενισμός παραμέτρων

37

Σχήμα 2.8 Λογική σύνδεση περιοχών λογισμικού TLMA – τμημάτων Συστήματος

2.5 Περιγραφή ΕργαλείουΤο εργαλείο TLMA αποτελείται από περιοχές(Ari)-συστατικά. Ακολουθεί η περιγραφή των επιμέρους συστατικών του κώδικα:

Ar1. Στο μέρος αυτού του κώδικα περιλαμβάνονται οι επιμέρους δηλώσεις μεταβλητών, χαρακτηριστικών του προγράμματος κλπ. Ειδικότερα:

- περιοχή δήλωσης προγράμματοςuse strict; use warnings; use LWP::Simple qw(getstore);use LWP::UserAgent;use Encode;use utf8;Σε αυτό το κομμάτι του κώδικα γίνεται η δήλωση του προγράμματος όσο αφορά την επιλογή για ύπαρξη μηνυμάτων (warning) & κωδικοποίησης (ελληνικοί χαρακτήρες) για την γλωσσική επεξεργασία (utf8 standard).- περιοχή δήλωσης γενικών - καθολικών μεταβλητώνmy $val_syl;my $lexi;my $word;my @tem; my $metr=0;my $w=0;my $w1=0;my $w2=0;my $diax1=" = ";my $diax2="|";my $diax3="////// total words = ";my $diax4="////// from lexicon words = ";my $diax5="////// from Rules words = ";my $flag;my $keno=' ';my $filedir=' '; my $k=0;my $total=0;

my $d0="Total Characters";my $d1="Total Syllabus";

ΜΕσΣ

Ar1 Ar2

Ar3

Ar5

Ar7

Ar4

Ar6

ΜΣ ΜΥΠ ΜΕσΣ

Σύστημα (προέκυψε από απαιτήσεις)

TLMA

38

my $d2="Average Length of Syllabus = ";my $d3="Average Length of Words = "; my $xar1=0;my $xar2=0;my $xar=0;my $sum_syllab=0;my $sum_syllab2=0;my $myLength=0;my $MMSyl=0;my $MMWord=0;my $sum_s=0;

my $x=0;my $lez=" \n";my $fil=" File Name: ";my $namF="TotRes";Σε αυτό το κομμάτι κώδικα γίνεται η δήλωση μεταβλητών (καθολικής χρήσης – σε όλα τα μέρη του λογισμικού) που χρησιμοποιούνται για διάφορες λειτουργίες του εργαλείου (εκτύπωση αποτελεσμάτων, παράμετροι υπολογισμού κλπ.).- περιοχή δήλωση μεταβλητών ελέγχου και αποθήκευσης

string κεντρικού modulemy $i;my $var;my $ch;Σε αυτό το κομμάτι κώδικα γίνεται η δήλωση μεταβλητών που χρησιμοποιούνται για την επεξεργασία του τεμαχίου (string) στην κεντρική μονάδα του λογισμικού. - δήλωση μεταβλητών ελέγχου corpusmy $ind=0;Η μεταβλητή $ind χρησιμοποιείται για το άνοιγμα αρχείου (αύξηση δείκτη στο τίτλο του αρχείου) στην παρακάτω εντολή στο άνοιγμα αρχείων:open (OUT, ">", encode("UTF-8",$dhandl."/".$ind++."info".".txt"));

Ar2. Στο μέρος αυτού του κώδικα περιλαμβάνονται τα τμήματα εκείνα που αφορούν την διαχείριση των αρχείων. Ειδικότερα:

- Εισαγωγή ονόματος directory για επεξεργασίαprint "*******************************\n";print "insert a PATH: \n";my $path = <STDIN>;chomp $path;print "\n";print "*******************************\n";print "insert a directory name: \n";my $dir = <STDIN>;chomp $dir;my $dhandl = $path.$dir;

opendir(BIN, $dhandl) or die "Can't open $dir: $!";open (OUT2, ">", encode("UTF-8",$dhandl."/".$namF."dat".".txt"));Η διαδικασία εισαγωγής φακέλου αρχείων προς επεξεργασία (directory) περιλαμβάνει την εισαγωγή του μονοπατιού (path) προς τον φάκελο εισαγωγής σε δύο φάσεις: (α) βασικό μονοπάτι (→ c:\Users\dell\Desktop)

my $path = <STDIN>; chomp $path;

39

η χρήση της chomp αφορά τον καθαρισμό από τυχόν σκουπίδια (χαρακτήρες που μπορεί να εισαχθούν κατά λάθος. (β) φάκελο αρχείων προς επεξεργασία (→ \testdir) my $dir = <STDIN>; chomp $dir;Η χρήση της opendir ($dhandl) & open ($namF) αφορά το άνοιγμα του φακέλου (όπου θα εισαχθούν τα αποτελέσματα) και το άνοιγμα του αρχείου τελικών αποτελεσμάτων (προς εγγραφή). Η διαδρομή (σύνδεση μονοπατιού + φακέλου) για το άνοιγμα του φακέλου προκύπτει από την εντολή (χρήση συνδετικού ΄.΄):my $dhandl = $path.$dir;- Πληροφορίες χρήσηςprint "****************************************\n";print "* INFO *\n";print "* example:path- c:\users\dell\desktop *\n";print "* example:directory- \testdir *\n";print "* not forget: for directory- \xxxx *\n";print "* not forget: for path- c:\xxx\xxx *\n";print "****************************************\n";print " \n";Το κομμάτι αυτό του κώδικα εκτυπώνει στην οθόνη τις πληροφορίες εισαγωγής του μονοπατιού (path) και του φακέλου (directory) με τα αρχεία προς επεξεργασία. - περιοχή ανοίγματος αρχείωνif (($filedir eq ".")|| ($filedir eq ".."))

{ print "No processing : $filedir \n"; }

else {

open( my $fh, "<:encoding(UTF-8)",$dhandl."/".$filedir) or die("failed to open <$filedir> for reading: $!");

open (OUT, ">", encode("UTF-8",$dhandl."/".$ind++."info".".txt"));

my @line =<$fh>;Στο κομμάτι αυτό του κώδικα, ανοίγουν (open) 2 αρχεία: (α) αρχείο προς επεξεργασία (my $fh, "<:encoding(UTF-8)",$dhandl."/".$filedir) και (β) αρχείο αποτελεσμάτων (προς εγγραφή) του προηγούμενου αρχείου (OUT, ">", encode("UTF-8",$dhandl."/".$ind++."info".".txt"). H συνθήκη-if χρησιμοποιείται για αποφυγή επεξεργασίας των οντοτήτων . , .. από την κεντρική μονάδα module επεξεργασίας κειμένου:if (($filedir eq ".")|| ($filedir eq ".."))

{ print "No processing : $filedir \n"; }

- περιοχή κλεισίματος αρχείων

40

close $fh or die "$fh: $!"; close OUT or die "OUT: $!";

close OUT2 or die "OUT2: $!"; closedir(BIN);

Στο πρώτο κομμάτι (close $fh, close OUT) κλείνουν τα αρχεία εισόδου και αποτελεσμάτων ενώ στο δεύτερο κομμάτι κλείνουν τα αρχεία τελικών αποτελεσμάτων και του φακέλου (close OUT2, closedir(BIN)).

Συνολικά η διαχείριση αρχείων στο εργαλείο TLMA φαίνεται στο επόμενο σχήμα:

Σχήμα 2.9 Διαγραμματική αναπαράσταση λειτουργίας διαχείρισης αρχείων (& φακέλου) Ar3. Στο μέρος αυτού του κώδικα περιλαμβάνεται η επεξεργασία

του κειμένου:while(defined ($filedir = readdir BIN)) {

print "$filedir \n";chomp ($filedir);$k++;

# **************************# περιοχή ανοίγματος αρχείων# **************************

# print "file name: $filedir \n";

if (($filedir eq ".")|| ($filedir eq "..")) { print "No processing : $filedir \n";

Φάκελος(directory)

Αρχείο τελικών αποτελεσμάτων

(TotRes)

Αρχείοi κειμένου του

φακέλου

Αρχείο αποτελεσμά

των αρχείουi

Open

Κεντρικό module επεξεργασίας κειμένου

Κλείσιμο αρχείου τελικών

αποτελεσμάτων, φακέλου

Αρχείο αποτελεσμά

των αρχείουi

Αρχείοi κειμένου του

φακέλου

Close

41

}

else {

open( my $fh, "<:encoding(UTF-8)",$dhandl."/".$filedir) or die("failed to open <$filedir> for reading: $!");

open (OUT, ">", encode("UTF-8",$dhandl."/".$ind++."info".".txt"));

my @line =<$fh>;

# *************************************# κεντρικό module επεξεργασίας κειμένων# *************************************

foreach (@line) {

# τεμαχισμός & καθαρισμός record my @tmx= split(/\.+/,$_);my $phrase= join ("", @tmx);if ($phrase =~ m/-/) {

$phrase=~ s/-/" "/g;}

if ($phrase =~ m/'/) { $phrase=~ s/'/" "/g;}

my @temax= split(/\s+/,$phrase);# καθαρισμός κάθε τεμαχίου

$i=0;foreach (@temax) {

$ch=substr $temax[$i],0,1;$var = substr($temax[$i], 0);if (($ch eq "(") || ($ch eq "-") || ($ch eq "'")||($ch eq "/") || ($ch eq '"')|| ($ch eq '«') ||

($ch eq "΄")) {$temax[$i]=substr($var, 1);

$ch=substr $temax[$i],0,1;$var = substr($temax[$i], 0);

if (($ch eq "(") || ($ch eq "-") || ($ch eq "'")||($ch eq "/") || ($ch eq '"') || ($ch eq '«') || ($ch eq "΄")){

$temax[$i]=substr($var, 1); }

}

$temax[$i]=~s/\W.*//;$lexi=$temax[$i];

# κλήση ρουτίνων ελέγχου λέξης

$flag=0;

&sub_lexico();

if ($flag == 0 ) {&sub_rules();

}

$i++; }

}$x++;

# **********************************************************************# Περιοχή Υπολογισμού-Εκτύπωσης τελικών αποτελεσμάτων σε monitor & File# **********************************************************************

………..

42

# *****************************# περιοχή κλεισίματος αρχείων-1# *****************************

…………

}}Η κεντρική μονάδα λειτουργεί ως εξής:

- μέσα σε ένα βρόχο while (βρόχος-1) ανακυκλώνονται όλα τα αρχεία του φακέλου προς επεξεργασία.- μέσα σε ένθετο βρόχο foreach (βρόχος-2) όπου γίνεται ο τεμαχισμός και καθαρισμός κάθε record (γραμμής) με χρήση κανονικών εκφράσεων (regular expression) στην Perl (/\.+/,m/-/, s/'/" "/g).- μέσα σε ένθετο βρόχο foreach (βρόχος-3) όπου γίνεται ο καθαρισμός κάθε τεμαχίου με χρήση της συνάρτησης substr όπου καθαρίζονται 1, 2 χαρακτήρες πριν τη λέξη και με τέλος με την χρήση κανονικών εκφράσεων (regular expression) στην Perl καθαρίζονται όλοι οι χαρακτήρες μετά την λέξη (s/\W.*//).- με χρήση συνθήκης-if ένθετης μέσα στο τελευταίο βρόχο όπου (α) γίνεται υπολογισμός συλλαβών-χαρακτήρων μέσω του Λεξικού54 και αν δεν βρεθεί (σειριακή αναζήτηση) τότε καλείται η ρουτίνα κανόνων:$flag=0;

&sub_lexico();

if ($flag == 0 ) {&sub_rules();

}Η μεταβλητή $flag χρησιμεύει για τον έλεγχο κλήσης ή μη της ρουτίνας κανόνων (0 κλήση ρουτίνας κανόνων εφόσον δεν βρέθηκε η λέξη στο Λεξικό, 1 βρέθηκε η λέξη στο Λεξικό). Ακολουθεί το διάγραμμα ροής του κεντρικού module επεξεργασίας κειμένου:

54 Lexic.txt: ~21000 λέξεις.

43

Σχήμα 2.10 Διάγραμμα ροής κεντρικού module επεξεργασίας κειμένου

Ar4. Σε αυτό το κομμάτι κώδικα πραγματοποιείται η επεξεργασία της λέξης βάση του Λεξικού (Lexic.txt):

sub sub_lexico(){# Άνοιγμα αρχείου Λεξικούopen(FILE, "<:encoding(UTF-8)",$path."/".'lexic.txt') or die($!);

# Έλεγχος λέξη - λέξη & exit αν βρεθεί while(<FILE>) { chomp($_); # The delimiter here is a space my @rec_file = split(' ', $_); if ($rec_file[0] eq $lexi) {

$val_syl=$rec_file[1];

# καταγραφή συλλαβών (άθροισμα) από λεξικό $sum_syllab2=$sum_syllab2+$val_syl;

print "sum_syl = $sum_syllab2 \n";

# καταγραφή αριθμού χαρακτήρων-λέξεων$myLength = length($lexi); $xar1=$xar1+$myLength;

print OUT encode("UTF-8",$rec_file[0]);print OUT encode("UTF-8",$diax1);print OUT encode("UTF-8",$val_syl);print OUT encode("UTF-8",$diax2);

$w1++;$flag=1; $rec_file[0]="";$rec_file[1]=0;$val_syl=0;return;}

} close(FILE);

}Στη ρουτίνα αυτή γίνονται οι εξής λειτουργίες:

While (directory)

Foreach (record)

Foreach (word)

Call routines (Lexicon, Rules)

Περιοχή Υπολογισμού-Εκτύπωσης τελικών αποτελεσμάτων σε monitor &

File

44

- άνοιγμα αρχείου λεξικού (open(FILE, "<:encoding(UTF-8)",$path."/".'lexic.txt')).

- έλεγχος λέξη – λέξη (έξοδος από ρουτίνα αν δεν βρεθεί). Με χρήση συνθήκης while (βρόχος) γίνεται έλεγχος (συνθήκη-if) λέξη-λέξη και αν βρεθεί (TRUE) εκτελείται καταγραφή συλλαβών (άθροισμα συλλαβών από το λεξικό), καταγραφή αριθμού χαρακτήρων-λέξεων, και εκτύπωση στο αρχείο αποτελεσμάτων του αρχείουi κειμένου.

- Μετρητής λέξεων (w1+1), μηδενισμός μεταβλητών-πινάκων, $flag=1, κλείσιμο αρχείου Λεξικού (close(FILE)).

Το διάγραμμα ροής της ρουτίνας φαίνεται στο επόμενο σχήμα:

Σχήμα 2.11 Διάγραμμα ρουτίνας Λεξικού (Lexic.txt) Ar5. Σε αυτό το κομμάτι κώδικα πραγματοποιείται η εκτέλεση της

ρουτίνας Κανόνων (Rules):sub sub_rules () {

# ***************************# Μεταβλητές ελέγχου ρουτίνας# ***************************

my $n=0; my @tRExp; chomp ($lexi);

# εκτύπωση λέξης στο 1ο αρχειοprint OUT encode("UTF-8",$lexi);

# διαχωρισμός χαρακτήρων λέξηςmy @values = split(undef, $lexi);

# δημιουργία έκφρασης χ φωνήεν/ντα χforeach my $val (@values) {

$tRExp[$n]="χ";

Open(Lexicon)

While(EOF)

If (word)

Compute characters, syllab

Print file

variables←0$w+1

TRUE

Close file

FALSE

Routine Lexicon

45

if (($val eq "α") || ($val eq "Α")){

$tRExp[$n]="α";

}if ( ($val eq "ά") || ($val eq "Ά")){

$tRExp[$n]="ά";

}if (($val eq "ε" ) || ($val eq "Ε")){

$tRExp[$n]= "ε";

}if ( ($val eq "έ") || ($val eq "Έ")){

$tRExp[$n]= "έ";

}if (($val eq "ο") || ($val eq "Ο")){

$tRExp[$n]= "ο";

}if (($val eq "ό") ||($val eq "Ό")){

$tRExp[$n]= "ό";

}if (($val eq "ω") || ($val eq "Ω")){

$tRExp[$n]= "ω";

}if (($val eq "ώ") || ($val eq "Ώ")){

$tRExp[$n]= "ώ";

}if (($val eq "ι" )||($val eq "Ι")){

$tRExp[$n]= "ι";

}if (($val eq "ί") ||($val eq "Ί")){

$tRExp[$n]= "ί";

}if (($val eq "υ" ) || ($val eq "Υ")){

$tRExp[$n]= "υ";

}if (($val eq "ύ") || ($val eq "Ύ")){

$tRExp[$n]= "ύ";

}if (($val eq "η" ) || ($val eq "Η")){

$tRExp[$n]= "η";

}if (($val eq "ή") || ($val eq "Ή")){

$tRExp[$n]= "ή";

}if (($val eq "ϊ" ) || ($val eq "Ϊ") ){

$tRExp[$n]= "ϊ";

46

}if ($val eq "ΐ") {

$tRExp[$n]= "ΐ";

}

$n++;}

# περιοχή δημιουργίας νέου string φωνηέντων$word= join ("", @tRExp);@tem= split ("χ+", $word);

# κλήση ρουτίνας υπολογισμού συλλαβών λέξης &sub_syllabus();$n=0;

}H λειτουργία της ρουτίνας αυτής είναι η εξής:- αρχικοποίηση μεταβλητών ελέγχου,- εκτύπωση λέξης στο αρχείοi αποτελεσμάτων,- διαχωρισμός χαρακτήρων λέξης με χρήση της συνάρτησης split (my @values = split(undef, $lexi)),- δημιουργία έκφρασης (μάσκας) χ φωνήεν/ντα χ (χρήση βρόχου-foreach & συνθηκών-if για έλεγχο όλων των τύπων φωνηέντων της ελληνικής γλώσσας55) όπου σε κάθε χαρακτήρα της λέξης μετά από έλεγχο τοποθετούνται φωνήεντα ή ΄χ΄ στη θέση των συμφώνων σε ένα string της λέξης όπου σε αυτό θα γίνει η περαιτέρω επεξεργασία-υπολογισμός συλλαβών) (Σχ.2.12):

Σχήμα 2.12 Δημιουργίας μάσκας (με βοήθεια βρόχου foreach)

Η συνθήκη-if για έλεγχο φωνήεντος έχει την μορφή:if (($val eq "ϊ" ) || ($val eq "Ϊ") )

{$tRExp[$n]= "ϊ";

} - δημιουργία του string και καθαρισμός από τα ΄χ΄ (με τη βοήθεια συνάρτησης split): $word= join ("", @tRExp); @tem= split ("χ+", $word);

55 Α, α, ά, Ε, ε, έ, Η, η, ή, Ι, ι, ί, ϊ, ΐ, Υ, υ, ύ, Ο, ο, ό, Ω, ω, ώ

τ ρ ωχέ χ χ ωχε

λέξη

47

μάσκα

Σχήμα 2.13 Δημιουργία String

Ο μετασχηματισμός των φωνηέντων της λέξης στην αντίστοιχη μάσκα ακολουθεί την εξής σύμβαση που φαίνεται στον επόμενο πίνακα (Πιν.2.4). Ο φορμαλισμός μετασχηματισμού είναι ο εξής: charphonetic {πεζό | κεφαλαίο} → charphonetic {πεζό} (2.7)

Πίνακας 2.4 Μετασχηματισμός φωνηέντωνα/α φωνήεντα μετασχηματισμός

1 Α α

2 Ά ά

3 α α

4 ά ά

5 Η η

6 Ή ή

7 η η

8 ή ή

9 Ε ε

10 Έ έ

11 ε ε

12 έ έ

13 Ο ο

14 Ό ό

15 ο ο

16 ό ό

17 Υ υ

18 Ύ ύ

19 υ υ

20 ύ ύ

21 Ω ω

22 Ώ ώ

23 ω ω

24 ώ ώ

25 Ι ι

26 Ί ί

27 ι ι

String (@tem)

χ χ ωχε ε ω

μάσκα

48

28 ί ί

29 ϊ ϊ

30 Ϊ ϊ

31 ΐ ΐ

- κλήση ρουτίνας υπολογισμού συλλαβών λέξης (sub_syllabus()).Συνολικά, στην ρουτίνα αυτή έχουμε την ακόλουθη διαδικασία μετασχηματισμού κάθε λέξης που αποτελεί και τον πυρήνα του εργαλείου TLMA:

Σχήμα 2.14 Διαδικασία μετασχηματισμού της κάθε λέξης στο TLMA (πυρήνας εργαλείου) Ar6. Στο κομμάτι αυτό του λογισμικού εκτελείται η ρουτίνα

υπολογισμού συλλαβών:sub sub_syllabus () { # έλεγχος φωνηέντων, δίφθογγων για υπολογισμό συλλαβών

foreach my $val2 (@tem) {

# απλά φωνήεντα -- ΜΙΑ ΣΥΛΛΑΒΗif (($val2 eq "α" ) || ($val2 eq "ά" )){

$metr++;}if (($val2 eq "η" ) || ($val2 eq "ή" )){

$metr++;}if (($val2 eq "ι" ) || ($val2 eq "ί" )){

$metr++;}if (($val2 eq "ο" ) || ($val2 eq "ό" )){

$metr++;}if (($val2 eq "υ" ) || ($val2 eq "ύ" )){

$metr++;}if (($val2 eq "ε" ) || ($val2 eq "έ" )){

$metr++;}if (($val2 eq "ω" ) || ($val2 eq "ώ" )){

$metr++;}

# Δίφθογγοι ΜΙΑΣ συλλαβής# 1o IFif (($val2 eq "ιά" )|| ($val2 eq "ειά" ) || ($val2 eq "ειο" ) || ($val2 eq "οιο")){

$metr++;}# 2o IFif (($val2 eq "ειό") || ($val2 eq "ιε" )|| ($val2 eq "αί" )|| ($val2 eq "αυ" )){

$metr++;

Λέξη(καθαρισμένη) Μάσκα String

49

}# 3o IFif (($val2 eq "αύ" ) || ($val2 eq "ευ" ) || ($val2 eq "εύ" ) || ($val2 eq "ευαί" )) {

$metr++;}# 4o IFif (($val2 eq "αι" ) || ($val2 eq "ει" )|| ($val2 eq "εί" )|| ($val2 eq "ου" ) || ($val2 eq "οι" )){

$metr++;}# 5o IFif (($val2 eq "ού" )|| ($val2 eq "ιώ" ) || ($val2 eq "οα" )|| ($val2 eq "ια" ) || ($val2 eq "οί" ) ){

$metr++;}

# Δίφθογγοι ΔΥΟ συλλαβών# Oo IFif (($val2 eq "εο" ) || ($val2 eq "εω" ) || ($val2 eq "οιη" )|| ($val2 eq "έα" )|| ($val2 eq "εα" )){ $metr=$metr+2;}# 1o IFif (($val2 eq "ιό" ) || ($val2 eq "εια" ) || ($val2 eq "ύο" ) || ($val2 eq "είο" )) {

$metr=$metr+2;}# 2o IFif (($val2 eq "ούει" ) || ($val2 eq "ουέ" ) || ($val2 eq "αέ" ) || ($val2 eq "εό" ) ) {

$metr=$metr+2;}# 3o IFif (($val2 eq "αή" ) || ($val2 eq "ούου" ) || ($val2 eq "αίε" ) || ($val2 eq "αΐ" )) {

$metr=$metr+2;}# 4o IFif (($val2 eq "εύω" ) || ($val2 eq "έει" ) || ($val2 eq "εύει" ) || ($val2 eq "αίο" )) {

$metr=$metr+2;}# 5o IFif (($val2 eq "οίη" ) || ($val2 eq "ευου" ) || ($val2 eq "ειώ" ) || ($val2 eq "εία" )){

$metr=$metr+2;}# 6o IFif (($val2 eq "ευή" ) || ($val2 eq "οϊ" ) || ($val2 eq "οια" ) || ($val2 eq "αη" )){

$metr=$metr+2;}# 7o IFif (($val2 eq "ιου" ) || ($val2 eq "αϊ" ) || ($val2 eq "ϊα" ) || ($val2 eq "ιο" )){

$metr=$metr+2;}# 8o IFif (($val2 eq "ία" ) || ($val2 eq "αού" ) || ($val2 eq "είω" ) || ($val2 eq "εύο" ) || ($val2 eq "εύου" ) ){

$metr=$metr+2;}# 9o IFif (($val2 eq "ιεύ" ) || ($val2 eq "ίω" ) || ($val2 eq "οε" ) || ($val2 eq "αία" )){

$metr=$metr+2;}# 10o IFif (($val2 eq "ώη" ) || ($val2 eq "ούα" ) || ($val2 eq "ίου" )|| ($val2 eq "αιο" )|| ($val2 eq "αια" )){

$metr=$metr+2;}

}

50

# εκτύπωση αριθμό συλλαβών στο 2ο αρχείο & άλλων παραμέτρων στο 1ο αρχείο -επαλήθευσηprint "-- syl = $metr \n"; if ($metr > 0) {

$w2++;

# καταγραφη αριθμου χαρακτήρων-λέξεων $myLength = length($word); $xar2=$xar2+$myLength;

print "xar2= $xar2 --- length = $myLength \n";

# καταγραφή συλλαβών (αθροισμα) από κανόνες $sum_syllab=$sum_syllab+$metr; print "sum_syl = $sum_syllab \n";

print OUT encode("UTF-8",$diax1);foreach my $valx (@tem) {

print OUT encode("UTF-8",$valx);}print OUT encode("UTF-8",$metr);print OUT encode("UTF-8",$diax2);

}

$metr=0; }Η ρουτίνα αυτή λειτουργεί ως εξής:- πραγματοποιεί σειριακά τους εξής ελέγχους (χρήση συνθηκών-if):

1. έλεγχο απλών φωνηέντων2. έλεγχος δίφθογγων-συμπλεγμάτων (1 συλλαβής)3. έλεγχος δίφθογγων-συμπλεγμάτων (2 συλλαβών)

O έλεγχος γίνεται με την ακόλουθη μορφή συνθήκης-if:if (($val2 eq "α" ) || ($val2 eq "ά" ))

{$metr++;

}όπου η μεταβλητή $metr εκτελεί χρέη μετρητή συλλαβών. Στον πίνακα που ακολουθεί (Πιν.2.5) φαίνονται οι συμβάσεις που έχουν γίνει για τον έλεγχο των συλλαβών. Δηλαδή, ο αριθμός των φωνηέντων μας δίνει τον αριθμό των συλλαβών ανά λέξη. Επειδή ακολουθούμε ορθογραφικούς κανόνες, σε κάποιους δίφθογγους (συμπλέγματα φωνηέντων) που λειτουργούν σαν 1 ή δύο συλλαβές, έχουμε επιλέξει (αυθαίρετα, βασιζόμενοι στην στατιστική συχνότητα με εμπειρικό τρόπο) την μία τιμή. Ο υπολογισμός των συλλαβών (Tot_Syll_word) αφορά τον αριθμό των φωνηέντων ή δίφθογγων (συμπλεγμάτων) σε κάθε λέξη: Tot_Syll_word = ∑ {charphonetic | dipthong (num_syll) }string (2.8)

Πίνακας 2.5 Ορθογραφικοί κανόνεςα/α Κανόνας

(char |

diphthong)

Αριθμός

συλλαβών

(num_syll)

φωνήεντα

1 α, ά 1

2 η, ή 1

51

3 ε, έ 1

4 ι, ί 1

5 ο, ό 1

6 υ, ύ 1

7 ω, ώ 1

Δίφθογγοι ή

συμπλέγματα

1 συλλαβής

(σύμβαση)

1 ιά 1

2 ειά 1

3 ειο 1

4 οιο 1

5 είο 1

6 εω 1

7 ιε 1

8 αί 1

9 αυ 1

10 αύ 1

11 εύ 1

12 ευαί 1

13 αι 1

14 ει 1

15 ου 1

16 ού 1

17 ιώ 1

18 οα 1

19 ια 1

Δίφθογγοι ή

συμπλέγματα

2 συλλαβές

(σύμβαση)

1 ιό 2

2 εια 2

3 ύο 2

4 είο 2

5 ούει 2

6 ούε 2

7 αέ 2

52

8 εό 2

9 αή 2

10 ούου 2

11 αίε 2

12 αΐ 2

13 εύω 2

14 έει 2

15 εύει 2

16 αίο 2

17 οίη 2

18 ευου 2

19 ειώ 2

20 εία 2

21 ευή 2

22 οϊ 2

23 οια 2

24 αη 2

25 ιου 2

26 αϊ 2

27 ϊα 2

28 ιο 2

29 ία 2

30 αού 2

31 είω 2

32 εύο 2

33 εύου 2

- Εκτύπωση αριθμού συλλαβών & άλλων παραμέτρων στο αρχείο i

αποτελεσμάτων. Περιλαμβάνει την καταγραφή χαρακτήρων & αριθμού συλλαβών(από χρήση ρουτίνας κανόνων) και εγγραφή στο αρχείο υπό την προϋπόθεση ότι έχει συλλαβές (if ($metr > 0)). Μετά μηδενίζεται ο μετρητής συλλαβών ($metr = 0). Ar7. Στο κομμάτι αυτό του λογισμικού εκτελείται ο υπολογισμός

των παραμέτρων του νόμου Menzerath-Altamnn και η εκτύπωση των τελικών αποτελεσμάτων:

# **********************************************************************

# Περιοχή Υπολογισμού-Εκτύπωσης τελικών αποτελεσμάτων σε monitor & File

# **********************************************************************

print "*********************************** \n";

print "** TOTAL RESULTS ** \n";

print "** file No: $x **\n";

53

print "*********************************** \n";

print" \n";

# εκτύπωση συνολικού αριθμού λέξεων κειμένου

$w=$w1+$w2;

print " 1. Words: \n";

print "number of word in file= $w \n";

print OUT encode("UTF-8",$diax4);

print OUT encode("UTF-8",$w1);


print OUT encode("UTF-8",$w2);


print OUT encode("UTF-8",$w);

# υπολογισμός συνολικού αριθμού χαρακτήρων

$xar=$xar1+$xar2;

print" \n";

print " 2. Characters : \n";

print "total characters (lexicon) = $xar1 \n";

print "total characters (Rules) = $xar2 \n";

print "total characters = $xar \n";

# υπολογισμός συνολικού αριθμού συλλαβών

$sum_s= $sum_syllab+$sum_syllab2;

print" \n";

print " 3. Syllabus : \n";

print "total syllabus (lexicon) = $sum_syllab \n";

print "total syllabus (Rules) = $sum_syllab2 \n";

print "total syllabus = $sum_s \n";

# υπολογισμός παραμέτρων Νόμου Menzerath-Altamnn

$MMSyl = $xar / $sum_s;

$MMWord = $sum_s / $w;

print" \n";

print " 4. Menzerath-Altmann Law (parameters) : \n";

print " Average length of Syllabus = ";

printf("%.3f", $MMSyl);

print " \n Average length of Words = ";

printf("%.3f", $MMWord);

print "\n *********************************** \n";

# εγγραφή κύριων παραμέτρων Νόμου Menzerath-Altamnn (και βοηθητικών παραμέτρων) στο αρχείο out

print OUT2 encode("UTF-8",$fil);

print OUT2 encode("UTF-8",$filedir);

print OUT2 encode("UTF-8",$diax2);

print OUT2 encode("UTF-8",$x);

print OUT2 encode("UTF-8",$keno);

print OUT2 encode("UTF-8",$diax3);

print OUT2 encode("UTF-8",$w);

54


print OUT2 encode("UTF-8",$d2);

print OUT2 encode("UTF-8",$MMSyl);


print OUT2 encode("UTF-8",$d3);

print OUT2 encode("UTF-8",$MMWord);

print OUT2 encode("UTF-8",$lez);

# περιοχή μηδενισμού παραμέτρων λογισμικού

$xar1=0;

$xar2=0;

$xar=0;

$sum_syllab=0;

$sum_syllab2=0;

$myLength=0;

$MMSyl=0;

$MMWord=0;

$sum_s=0;

$w=0;

$w1=0;

Η λειτουργία αυτού του τμήματος του λογισμικού περιλαμβάνει σε διαδοχική σειρά τις εξής δραστηριότητες:- υπολογισμό και εκτύπωση στην οθόνη & αρχείοi αποτελεσμάτων συνολικού αριθμού λέξεων (λέξεις από Λεξικό & λέξεις από Κανόνες):$w=$w1+$w2;

- υπολογισμός συνολικού αριθμού χαρακτήρων και εκτύπωση στην οθόνη (λέξεις από Λεξικό & λέξεις από Κανόνες):$xar=$xar1+$xar2;

- υπολογισμός συνολικού αριθμού συλλαβών και εκτύπωση στην οθόνη (λέξεις από Λεξικό & λέξεις από Κανόνες):$sum_s= $sum_syllab+$sum_syllab2;

- υπολογισμός παραμέτρων Νόμου Menzerath-Altamnn και εκτύπωση στην οθόνη: Μέσο μήκος συλλαβής = { ∑χαρακτήρωνtext / ∑συλλαβέςtext } (2.9)

Μέσο μήκος λέξης = { ∑χαρακτήρωνtext / ∑λέξειςtext } (2.10)

$MMSyl = $xar / $sum_s;

$MMWord = $sum_s / $w;

- εγγραφή κύριων παραμέτρων Νόμου Menzerath-Altamnn (και βοηθητικών παραμέτρων: όνομα αρχείου, αριθμός σειράς, σύνολο λέξεων) στο αρχείο τελικών αποτελεσμάτων:print OUT2 encode("UTF-8",$fil);print OUT2 encode("UTF-8",$filedir);print OUT2 encode("UTF-8",$diax2);print OUT2 encode("UTF-8",$x);print OUT2 encode("UTF-8",$keno);print OUT2 encode("UTF-8",$diax3);print OUT2 encode("UTF-8",$w);

55

print OUT2 encode("UTF-8",$keno);print OUT2 encode("UTF-8",$d2);print OUT2 encode("UTF-8",$MMSyl);print OUT2 encode("UTF-8",$keno);print OUT2 encode("UTF-8",$d3);print OUT2 encode("UTF-8",$MMWord);print OUT2 encode("UTF-8",$lez);Η μορφή που έχει, είναι η ακόλουθη στο αρχείο εξόδου (τελικά αποτελέσματα):

Εικόνα 2.2 Εικόνα του περιεχόμενου στο αρχείο τελικών αποτελεσμάτων

Αντίστοιχα, η μορφή που έχει ένα αρχείοi αποτελεσμάτων φαίνεται παρακάτω:

Εικόνα 2.3 Εικόνα του περιεχομένου στο αρχείοi αποτελεσμάτων

56

- περιοχή μηδενισμού (αρχικοποίηση) παραμέτρων λογισμικού (για να μπορεί το εργαλείο να ξεκινήσει την επεξεργασία από την αρχή για το επόμενο αρχείο κειμένου):$xar1=0;$xar2=0; $xar=0; $sum_syllab=0;$sum_syllab2=0;$myLength=0;$MMSyl=0;$MMWord=0; $sum_s=0;$w=0; $w1=0;$w2=0;Αφορά ειδικότερα τις παραμέτρους:

συλλαβών (σύνολο, λεξικό, κανόνες) {$sum_s,$sum_syllab, $sum_syllab2},

λέξεων (σύνολο, λεξικό, κανόνες) {$w, $w1, $w2}, χαρακτήρων (σύνολο, λεξικό, κανόνες) {$xar, $xar1, $xar2}, μέσο μήκος συλλαβής & λέξης {$MMSyl, $MMWord}.

2.6 Έλεγχος ΕργαλείουΣτην ενότητα αυτή παρουσιάζονται οι τελικές δοκιμές του εργαλείου. Αυτές διακρίνονται σε δύο κατηγορίες:

σε μικρής έκτασης κείμενα όπου παρατηρούνται τυχόν αστοχίες, και

σε μεγάλης έκτασης κείμενα όπου συγκρίνονται οι επιδόσεις του εργαλείου με κάποιο εργαλείο αναφοράς.

Στην πρώτη κατηγορία ο έλεγχος έδειξε τα εξής: οτιδήποτε μετά από κάθε λέξη κόβεται απόλυτα (Σχ.2.15):

Σχήμα 2.15 Διαδικασία καθαρισμού όπισθεν της λέξης κόβεται μέχρι 2 χαρακτήρες (από ένα σετ χαρακτήρων που ελέγχει

το εργαλείο, Πιν.2.6) που βρίσκονται πριν τη λέξη (Σχ.2.16):

Σχήμα 2.16 Διαδικασία καθαρισμού έμπροσθεν της λέξης (μέχρι 2 χαρακτήρες από το σετ)

ρ έ χ ω >7 ρ χ ω

επεξεργασία

τ τ έ

πριν μετά

57

/ τ ρ έ( ωχ ρ έ χ ωτ

πριν μετάεπεξεργασία

Πίνακας 2.6 Σετ χαρακτήρων ελέγχου του εργαλείου (έμπροσθεν της λέξης)

α/α Χαρακτήρας1 (2 -3 /4 '5 "6 «7 ΄

αν υπάρχουν αριθμοί πριν από τη λέξη κόβονται (Σχ.2.17):

Σχήμα 2.17 Διαδικασία καθαρισμού έμπροσθεν της λέξης (αριθμοί)

αν υπάρχουν χαρακτήρες από το λατινικό αλφάβητο πριν από τη λέξη κόβονται (σχ.2.18):

Σχήμα 2.18 Διαδικασία καθαρισμού έμπροσθεν της λέξης (λατινικοί χαρακτήρες)

Ακολουθεί ένα συνολικό παράδειγμα:Ο «κράχτης» ΄εχει (για )για -καλημερα' /βγαίνω

//πρέπει ((τώρα (να 777έχω qναι fbdλοιπόνκαι μετά την επεξεργασία από το εργαλείο TLMA:

Ο = ο1|κράχτης = άη2|εχει = 2|για = 1|καλημερα = αηεα4|βγαίνω = αίω2|πρέπει = 2|τώρα = 2|να = 1|777έχω = έω2|qναι = αι1|fbdλοιπόν = οιό2|////// from lexicon words = 5////// from Rules words = 7////// total words = 12

χάνει μία λέξη «)για» επειδή δεν ελέγχεται ο συγκεκριμένος χαρακτήρας ‘)’, ο οποίος σπανίζει αφού η συγκεκριμένη θέση του είναι από λάθος δακτυλογράφηση και γενικά απέχει από τα κείμενα. Όσο, αφορά τον υπολογισμό συλλαβών έχει σημαντική επιτυχία (100%):

Ο = 1 συλλαβή (από κανόνες) Κράχτης = 2 συλλαβές (από κανόνες) Έχει = 2 συλλαβές (από Λεξικό) Για = 1 συλλαβή (από Λεξικό) Καλημέρα = 4 συλλαβές (από κανόνες) Βγαίνω = 2 συλλαβές (από κανόνες)

5 τ ρ έ ωχ ρ χ ω


4 τ έ

πριν μετά

8

g τ ρ έ ωχ ρ χ ω


b τ έ

πριν μετά

f

58

Πρέπει = 2 συλλαβές (από Λεξικό) Τώρα = 2 συλλαβές (από Λεξικό) Να = 1 συλλαβή (από Λεξικό) Έχω = 2 συλλαβές (από κανόνες) Ναι = 1 συλλαβή (από κανόνες) Λοιπόν = 2 συλλαβές (από κανόνες)

Το ποσοστό υπολογισμού συλλαβών από το λεξικό και από κανόνες συγκριτικά φαίνεται στο επόμενο γράφημα:

Σύγκριση Κανόνων - Λεξικού

Rules

Lexicon

Γράφημα 2.1 Γραφική απεικόνιση αποτελεσμάτων της σύγκρισης κανόνων - λεξικού

Στην δεύτερη κατηγορία ο έλεγχος έδειξε τα εξής56: σε δοκιμασία φακέλου (directory:testMINFiles) 5 αρχείων μικρού

μεγέθους λέξεων (Πιν.2.7)Πίνακας 2.7 Πίνακας αποτελεσμάτων φακέλου μικρού αριθμού λέξεων

α/α File name

Size (Word Speller)

Size (TLMA)

MMSyl MMWord Λεξικό Κανόνες

1 a4.txt 5006 4976 2,3 2,1 3810 11662 a5.txt 4618 4598 2,3 2,1 3544 10543 atest.txt 227 212 2,3 2,5 179 334 atest1.txt 13 12 2,7 1,8 5 75 Milliex.txt 9810 9750 2,3 2,1 7602 2148

ΣΥΝΟΛΟ 19674 19548 15140 4408H σύγκριση από το εργαλείο αναφοράς έδειξε πολύ καλή ακρίβεια όπως φαίνεται και στο επόμενο γράφημα:

56 Εργαλείο αναφοράς για τον συλλαβισμό ο Speller του Word του MSOffice.

59

a4 a5 atest atest1Milliex

Word Speller

TLMA0100020003000400050006000700080009000

10000

Σύγκριση Word Speller-TLMA

Word Speller

TLMA

Γράφημα 2.2 Γραφική απεικόνιση των αποτελεσμάτων του TLMA σε σχέση με το εργαλείο βάσης Word Speller όσο αφορά τις εντοπισμένες λέξεις

Συνολικά σε όλο το δοκιμαστικό corpus φαίνεται ο εντοπισμός των λέξεων βάση του εργαλείου αναφοράς στο επόμενο γράφημα (με επιτυχία από το TLMA):

Word Speller

TLMA

S11948019500195201954019560195801960019620196401966019680

Σύγκριση στο σύνολο των λέξων του Corpus

Γράφημα 2.3 Γραφική απεικόνιση των αποτελεσμάτων επί του συνόλου των λέξεων του Corpus

Το μέσο ποσοστό υπολογισμού συλλαβών από το λεξικό και από κανόνες συγκριτικά φαίνεται στο επόμενο γράφημα:

60

LEXICON

RULES

Γράφημα 2.4 Γραφική απεικόνιση αποτελεσμάτων της σύγκρισης κανόνων - λεξικού σε δοκιμασία φακέλου (directory:TestMAXfiles) 5 αρχείων μεγάλου

αριθμού λέξεωνΠίνακας 2.8 Πίνακας αποτελεσμάτων φακέλου αρχείων μεγάλου αριθμού

λέξεωνα/α File

nameSize (Word Speller)

Size (TLMA)

MMSyl MMWord Λεξικό Κανόνες

1 XFON 73086 72547 2,3 2,03 54712 178352 XLIQ 28828 28469 2,3 2,1 20699 77703 XMAT 48126 47891 2,3 2,1 35247 126444 XMILG 78100 77739 2,3 2,1 60056 176835 XMIL 9810 9765 2,3 2,1 7606 2159

ΣΥΝΟΛΟ 237950 236411 178320 58091H σύγκριση από το εργαλείο αναφοράς έδειξε πολύ καλή ακρίβεια όπως φαίνεται και στο επόμενο γράφημα:

xfon xliq xmat xmilgxmil

Word Speller

TLMA0

10000

20000

30000

40000

50000

60000

70000

80000

Σύγκριση Word Speller - TLMA

Word Speller

TLMA

Γράφημα 2.5 Γραφική απεικόνιση των αποτελεσμάτων του TLMA σε σχέση με το εργαλείο βάσης Word Speller όσο αφορά τις εντοπισμένες λέξεις

Συνολικά σε όλο το δοκιμαστικό corpus φαίνεται ο εντοπισμός των λέξεων βάση του εργαλείου αναφοράς στο επόμενο γράφημα (με επιτυχία από το TLMA):

61

Word Speller

TLMA

S1235500

236000

236500

237000

237500

238000

Σ'υγκριση στο σύνολο των λέξεων του corpus

Γράφημα 2.6 Γραφική απεικόνιση των αποτελεσμάτων επί του συνόλου των λέξεων του CorpusΤο μέσο ποσοστό υπολογισμού συλλαβών από το λεξικό και από κανόνες συγκριτικά φαίνεται στο επόμενο γράφημα:

Lexicon

Rules

Γράφημα 2.7 Γραφική απεικόνιση αποτελεσμάτων της σύγκρισης κανόνων - λεξικού

Από όλους τους παραπάνω ελέγχους συμπεραίνουμε τα εξής: το εργαλείο έχει σημαντική ακρίβεια στον εντοπισμό λέξεων είναι πολύ ικανοποιητικό στον υπολογισμό συλλαβών στον υπολογισμό συλλαβών συμμετέχει σε μεγαλύτερο ποσοστό το

Λεξικό.

2.7 ΕπισκόπησηΣτο κεφάλαιο αυτό παρουσιάστηκε το εργαλείο TLMA. Αφορά την μέτρηση των

συλλαβών (συλλαβιστής-speller) από ένα κείμενο και τον υπολογισμό των

παραμέτρων του Νόμου Menzerath-Altamnn. Σχεδιάστηκε σύμφωνα με τις αρχές

του Δομημένου προγραμματισμού και κατασκευάστηκε σε γλώσσα προγραμματισμού

Perl. Οι δοκιμές έδειξαν ένα αξιόπιστο εργαλείο όσο αφορά τον εντοπισμό των

62

λέξεων και τον υπολογισμό των συλλαβών και επιπλέον διαθέτει καλή τεκμηρίωση

και άρα μπορεί να συντηρηθεί στο μέλλον εύκολα.


ΕΦΑΡΜΟΓΗ ΕΡΓΑΛΕΙΟΥ TLMA ΣΕ CORPUS57

3.1 ΕισαγωγήΣτο κεφάλαιο αυτό παρουσιάζεται η εφαρμογή του εργαλείου TLMA στην ελληνική γλώσσα. Ειδικότερα εφαρμόζεται σε δύο corpus. Στο πρώτο γίνεται γενική καταγραφή των παραμέτρων του νόμου Menzerath-Altamnn, ενώ στο δεύτερο γίνεται καταγραφή παραμέτρων στο σύνολο αλλά και ανά θεματικά πεδία του (sport, πολιτισμός κλπ.). Από την επεξεργασία των αποτελεσμάτων προκύπτουν ενδιαφέροντα ευρήματα σχετικά με την ισχύ ή όχι του νόμου στην σύγχρονη ελληνική γλώσσα.

3.2 Μεθοδολογία ΕφαρμογήςΗ διαδικασία εφαρμογής του εργαλείου στην ελληνική γλώσσα ακολουθεί την εξής διαδικασία (Σχ.3.1):

προετοιμασία αρχείων κειμένων corpus (καθαρισμός από εικόνες, σχήματα, ειδικούς χαρακτήρες)

προσαρμογή των αρχείων στο πρότυπο utf8. ένταξη των αρχείων σε φάκελο (directory) έναρξη εκτέλεσης του φακέλου από το εργαλείο ολοκλήρωση επεξεργασίας και δημιουργία αρχείο τελικών

αποτελεσμάτων (TotResDat.txt) μετατροπή txt → csv (excel format) για εισαγωγή στο SPSS για

στατιστική επεξεργασία εισαγωγή των παραμέτρων MMSyl & MMWord στο SPSS εφαρμογή Γραμμική Παλινδρόμηση (Linear Regression) στα

δεδομένα εισόδου (παράμετροι νόμου Menzerath-Altamnn) αφού αφορά 2 ποσοτικές παραμέτρους (MMSyl & MMWord),

ερμηνεία αποτελεσμάτων και εξαγωγή συμπερασμάτωνΗ παραπάνω διαδικασία επαναλαμβάνεται για κάθε corpus που θα χρησιμοποιηθεί για επεξεργασία & ανάλυση αποτελεσμάτων από το 57 Γράφτηκε από τον XXXXXXXXX και XXXXXXXXX από κοινού.

63

εργαλείο TLMA. Μπορεί να χρειασθούν κάποιες επιμέρους προσαρμογές που κυρίως αφορούν την κατάταξη των αποτελεσμάτων του εργαλείου στο Excel και ειδικότερα δημιουργία υποσύνολων δεδομένων για περαιτέρω επεξεργασία (π.χ. θεματικά πεδία).

Σχήμα 3.1 Διαδικασία εφαρμογής εργαλείου TLMA

3.3 Στατιστικό ΥπόβαθροΣτην στατιστική, γραμμική παλινδρόμηση58 είναι μια προσέγγιση μοντελοποίησης της σχέσης μιας απλής εξαρτημένης (dependent) μεταβλητής με μια ή περισσότερες ανεξάρτητες (independent) /

ερμηνευτικές (explanatory) μεταβλητές . Η μεταβλητή/ες δεν θεωρείται/ούνται τυχαία/ες ενώ η θεωρείται τυχαία μεταβλητή. Στην περίπτωση που έχουμε μια μόνο ανεξάρτητη / ερμηνευτική μεταβλητή τότε η μοντελοποίηση ονομάζεται απλή γραμμική παλινδρόμηση (simple linear regression). Στην απλή γραμμική παλινδρόμηση έχουμε ένα σύνολο δεδομένων

. Σκοπός είναι να βρούμε ένα απλό μαθηματικό μοντέλο, το οποίο να περιγράφει την σχέση αυτών των δύο μεταβλητών της και της . Το

58Wikipedia, Γραμμική παλινδρόμηση, https://el.wikipedia.org/wiki/%CE%91%CF%80%CE%BB%CE%AE_%CE%B3%CF%81%CE%B1%CE%BC%CE%BC%CE%B9%CE%BA%CE%AE_%CF%80%CE%B1%CE%BB%CE%B9%CE%BD%CE%B4%CF%81%CF%8C%CE%BC%CE%B7%CF%83%CE%B7, [access 15/6/2013].

corpus

Προετοιμασία αρχείων corpus

(cleaning)

ΠροσαρμογήUtf8 standard

Ένταξη σε φάκελο

(directory)

directory

TLMA tool Total Results

Μετατροπή txt → csv

Linear Regression

EXCEL

Ερμηνεία Συμπεράσματα

Menzerath-Altamnn

law

?

64

http://el.wikipedia.org/wiki/%CE%A3%CF%84%CE%B1%CF%84%CE%B9%CF%83%CF%84%CE%B9%CE%BA%CE%AE

https://el.wikipedia.org/wiki/%CE%91%CF%80%CE%BB%CE%AE_%CE%B3%CF%81%CE%B1%CE%BC%CE%BC%CE%B9%CE%BA%CE%AE_%CF%80%CE%B1%CE%BB%CE%B9%CE%BD%CE%B4%CF%81%CF%8C%CE%BC%CE%B7%CF%83%CE%B7



απλό μαθηματικό μοντέλο που αναζητούμε είναι μια ευθεία γραμμή της μορφής:

(3.1)η οποία "ταιριάζει" καλύτερα στο σύνολο των δεδομένων ή σημείων. Έχοντας αυτό το μοντέλο μπορούμε να "προβλέψουμε" τις τιμές του για νέες τιμές του . Η μεθοδολογία αυτή χρησιμοποιείται ευρέως στην μηχανική μάθηση (machine learning) αλλά και στην ποσοτική γλωσσολογία.

Σχήμα 3.2 Παράδειγμα απλής γραμμικής παλινδρόμησης59

3.4 Ανάλυση Δεδομένων3.4.1 Corpus A1To CorpusΑ1 έχει μέγεθος ~230000 λέξεις και η προέλευση του είναι λογοτεχνικά κείμενα της Νεοελληνικής λογοτεχνίας. Αποτελείται από 51 αρχεία κειμένου μεγέθους 4000-5000 λέξεων τύπου utf8 (μέσο μέγεθος: 4573 λέξεις). Στον πίνακα που ακολουθεί φαίνεται η εσωτερική διάρθρωση του Corpus Α1:

Πίνακας 3.1 Πίνακας χωρητικότητας σε λέξεις αρχείων Corpus Α1Α/Α

FILE NAME

SIZE (WORDS

)1 a1.txt 45742 a2.txt 47563 a3.txt 48574 a4.txt 50065 a5.txt 46186 a6.txt 45327 a7.txt 46068 a8.txt 39229 a9.txt 4684

10 a10.txt 4703

59 Έχουμε ένα διάγραμμα διασποράς τιμών με ανεξάρτητη μεταβλητή την x. Σκοπός είναι να βρεθεί μια ευθεία γραμμή (κόκκινη ευθεία) η οποία θα "ταιριάζει" καλύτερα στο πλήθος των σημείων.

65

http://el.wikipedia.org/wiki/%CE%9C%CE%B7%CF%87%CE%B1%CE%BD%CE%B9%CE%BA%CE%AE_%CE%9C%CE%AC%CE%B8%CE%B7%CF%83%CE%B7

http://upload.wikimedia.org/wikipedia/commons/3/3a/Linear_regression.svg

11 a11.txt 483312 a12.txt 476813 a13.txt 466514 a14.txt 457315 a15.txt 453316 a16.txt 459617 a17.txt 446718 a18.txt 437019 a19.txt 432720 a20.txt 448721 a21.txt 462222 a22.txt 453423 a23.txt 438624 a24.txt 440525 a25.txt 432526 a26.txt 447527 a27.txt 452128 a28.txt 450429 a29.txt 438030 a30.txt 432931 a31.txt 408232 a32.txt 449133 a33.txt 415934 a34.txt 446535 a35.txt 432036 a36.txt 464237 a37.txt 511838 a38.txt 506339 a39.txt 496540 a40.txt 492741 a41.txt 470142 a42.txt 451843 a43.txt 428844 a44.txt 467545 a45.txt 451746 a46.txt 447047 a47.txt 485848 a48.txt 444749 a49.txt 466050 a50.txt 452351 a51.txt 5420

Μετά την εκτέλεση του εργαλείου TLMA (εισαγωγή των αρχείων του corpusA1) έχουμε τα εξής αποτελέσματα στον επόμενο πίνακα:

Πίνακας 3.2 Πίνακας αποτελεσμάτων Corpus Α1File

NameMMSyl MMWor

da1 2.33 2.162a2 2.297 2.112a3 2.332 2.113a4 2.324 2.118a5 2.316 2.078a6 2.314 2.145

66

a7 2.323 2.113a8 2.338 2.118a9 2.324 2.072

a10 2.3 2.059a11 2.32 2.078a12 2.325 2.072a13 2.351 2.063a14 2.337 2.123a15 2.352 2.106a16 2.353 2.126a17 2.334 2.111a18 2.341 2.174a19 2.368 2.156a20 2.282 2.088a21 2.289 2,.097a22 2.299 2.056a23 2.232 2.126a24 2.295 2.121a25 2.306 2.149a26 2.308 2.142a27 2.303 2.105a28 2.299 2.084a29 2.289 2.073a30 2.343 2.077a31 2.352 2.122a32 2.362 2.068a33 2.326 2.118a34 2.359 2.064a35 2.321 2.045a36 2.314 2.005a37 2.324 2.014a38 2.307 1.982a39 2.32 1.965a40 2.318 1.955a41 2.281 1,98a42 2.302 2.064a43 2.297 2.106a44 2.307 2.036a45 2.312 2.078a46 2.315 2.019a47 2.313 2.038a48 2.322 2.007a49 2.299 2.098

67

a50 2.297 2.102a51 2.292 2.092

Οι παράμετροι των αποτελεσμάτων της επεξεργασίας του εργαλείου εισήχθησαν στο SPSS για στατιστική ανάλυση. Επειδή έχουμε 2 ποσοτικές μεταβλητές (MMSyl & MMWord), θα χρησιμοποιήσουμε την στατιστική μέθοδο της απλής γραμμικής παλινδρόμησης (linear regression) για να διερευνηθεί η σχέση μεταξύ των δύο (continious) μεταβλητών:

MMWord (Υ): μέσο μήκος λέξης {εξαρτημένη μεταβλητή}, MMSyl (Χ):μέσο μήκος συλλαβών {ανεξάρτητη μεταβλητή},

στο απλό γραμμικό μοντέλο όπου Yi = b0 + b1 X + εi i:1,2,3…,n (για δείγμα αρχείων corpus, n=51) (3.2)για b0 (σταθερά), b1 (κλίση) είναι άγνωστες σταθερές και ε1, ε2, …, εn

ανεξάρτητες τυχαίες μεταβλητές που ακολουθούν κανονική κατανομή Ν(0,σ2) (σ2άγνωστο) και καλούνται σφάλματα μετρήσεων. Θεωρείται ότι τα σφάλματα ε1, ε2, …, εn μπορεί να εμπεριέχουν όλους τους άλλους παράγοντες που μπορεί να επιδρούν στην Υ (εκτός της Χ). Από την επιλογή διαδρομής επεξεργασίας στο SPSS60 λαμβάνουμε το επόμενο γράφημα απεικόνισης της εκτιμούμενης ευθείας γραμμικής παλινδρόμησης:

Γράφημα 3.1Εκτίμηση ευθείας γραμμικής παλινδρόμησης με εξαρτημένη μεταβλητή (corpusA1)

60 Analyze→ regression→ curve estimation→ dependent /independent variable→ Linear

68

Στο παραπάνω γράφημα φαίνονται τα σημεία των δεδομένων να είναι

απομακρυσμένα από την ευθεία. Αυτό σημαίνει ότι υπάρχει πολύ ασθενή γραμμική

συσχέτιση μεταξύ των δύο παραμέτρων MMSyl & MMWord. Ακολουθούμε μία νέα διαδρομή στατιστικής επεξεργασίας όπου παρατηρούμε61:Πίνακας 3.3 Πίνακας σύνοψης μοντέλου & παραμέτρων εκτίμησης (corpusA1)

Model Summary and Parameter Estimates

Dependent Variable: Mean Words

Equation Model Summary Parameter Estimates

R Square F df1 df2 Sig. Constant b1

Linear ,018 ,884 1 49 ,352 1,443 ,276

The independent variable is Mean Syllables.

Στον παραπάνω πίνακα τα αποτελέσματα ενισχύουν την διαπίστωση από το

προηγούμενο γράφημα. Δηλ. ο συντελεστής συσχέτισης R square είναι ιδιαίτερα

χαμηλός (.018) που σημαίνει ότι η ανεξάρτητη μεταβλητή (MMSyl) μπορεί να

ερμηνεύσει σε ποσοστό μόλις 1.8% την διακύμανση της εξαρτημένης μεταβλητής

(MMWord). Από την άλλη, δεν υπάρχει στατιστική σημαντικότητα (.352>0.05) του μοντέλου. Τέλος, στον επόμενο πίνακα φαίνεται η περιγραφή της

δομής του μοντέλου (μεταβλητές MMSyl & MMWord):

Πίνακας 3.4 Πίνακας περιγραφής μοντέλου Model Description

Model Name MOD_1

Dependent Variable 1 Mean Words

Equation 1 Linear

Independent Variable Mean Syllables

Constant Included

Variable Whose Values Label Observations in Plots Unspecified

Πίνακας 3.5 Πίνακας ANOVAANOVAa

Model Sum of Squares df Mean Square F Sig.

1

Regression ,002 1 ,002 ,884 ,352b

Residual ,128 49 ,003

Total ,130 50

a. Dependent Variable: Mean Words

b. Predictors: (Constant), Mean Syllables

O πίνακας με την ανάλυση διακύμανσης (ANOVA) δείχνει ότι ο λόγος F=.884 δεν είναι στατιστικά σημαντικός (Sig. .352b).61 Analyze→ regression→ Linear→ dependent /independent variable→ Statistics→Estimates→Model Fit→R squared change→Plots→ZRESID→ZPRED

69

Πίνακας 3.6 Πίνακας Συντελεστών (corpusA1)Coefficientsa

Model Unstandardized Coefficients Standardized

Coefficients

t Sig.

B Std. Error Beta

1(Constant) 1,443 ,680 2,121 ,039

Mean Syllables ,276 ,293 ,133 ,940 ,352


Στο Πιν.3.6 μας δίνει το συντελεστή παλινδρόμησης b και τη σταθερά εξίσωσης παλινδρόμησης. Επίσης, οι εκτιμώμενοι παράμετροι ο b0 – constant, είναι σταθερά (1.443) και όσο αφορά την b1 (κλίση ευθείας) είναι τιμή κοντά

στο Ø και η ευθεία πλησιάζει την οριζόντια θέση (απλά επειδή έχει μια θετική τιμή

ελάχιστα > Ø) και δείχνει μία πολύ ασθενή θετική συσχέτιση (στατιστικά μη

σημαντική). Στον επόμενο πίνακα απεικονίζονται τα υπόλοιπα (Residuals), δηλαδή οι διαφορές μεταξύ προβλεπόμενων και πραγματικών τιμών και επίσης εμφανίζονται ακολούθως το ιστόγραμμα ελέγχου κατανομής και το αντίστοιχο διάγραμμα διασποράς (Γραφ. 3.2, 3.3). Εξετάζοντας τα υπόλοιπα (Residuals), βλέπουμε ότι δεν παραβιάζονται ιδιαίτερα οι προϋποθέσεις εφαρμογής του μοντέλου γραμμικής παλινδρόμησης.

Πίνακας 3.7 Πίνακας Υπολοίπων (Residuals) (CorpusA1) Residuals Statisticsa

Minimum Maximum Mean Std. Deviation N

Predicted Value 2,05842 2,09595 2,08186 ,006784 51

Residual -,127155 ,085499 ,000000 ,050513 51

Std. Predicted Value -3,455 2,077 ,000 1,000 51

Std. Residual -2,492 1,676 ,000 ,990 51


70

Γράφημα 3.2 Ιστόγραμμα ελέγχου κανονικής κατανομής (CorpusA1)

Γράφημα 3.3Διάγραμμα Διασποράς (CorpusA1)

Στο παραπάνω διάγραμμα διασποράς απεικονίζεται η διασπορά των υπολοίπων (residuals). H ομοιογενής κατανομή δείχνει ότι δεν υπάρχει σημαντικό πρόβλημα συγγραμικότητας στα δεδομένα μας.

3.4.2 Corpus A2

71

To CorpusΑ2 αποτελεί ένα σώμα κειμένου πιο ευρύ από το προηγούμενο (σε μέγεθος αλλά και ποικιλία προέλευσης). Έχει μέγεθος ~736000 λέξεις και η προέλευση του είναι κείμενα της σύγχρονης ελληνικής γλώσσας διαφόρων κατηγοριών. Αποτελείται από 2436 αρχεία κειμένου μέσου μεγέθους 301.8 λέξεων τύπου utf8. Οι κατηγορίες κειμένου που περιλαμβάνονται σε αυτό το σώμα κειμένων είναι:

Πολιτικο-κοινωνικές ειδήσεις (Social Politics), Αθλητικά (Sports), και Πολιτισμού (Culture).

Στον επόμενο πίνακα (Πιν.3.8) και στα γραφήματα που ακολουθούν απεικονίζεται η εσωτερική διάρθρωση του CorpusΑ2:

Πίνακας 3.8 Παράμετροι εσωτερικής διάρθρωσης Corpus Α2Κατηγορ

ίες Άθροισ

μα λέξεων

Μέσος

όρος λέξεω

ν

Αριθμός

αρχείων

Social Politics

273886 321.8 851

Sports 264427 264.9 998Culture 197015 335.6 587Σύνολο 735328 301.8 2436

Κατανομή δείγματος

Social Politics

Sports

Culture

Γράφημα 3.4Κατανομή δείγματος σε λέξεις ανά κατηγορία (CorpusA2)

0

50

100

150

200

250

300

350

Social Politics Sports Culture Total

Γράφημα 3.5Κατανομή μέσου όρου λέξεων ανά κατηγορία (CorpusA2)

72

0 500 1000 1500 2000 2500 3000

Social Politics

Sports

Culture

Total

Γράφημα 3.6Κατανομή αριθμού αρχείων ανά κατηγορία (CorpusA2)

Μετά την εκτέλεση του εργαλείου TLMA (εισαγωγή των αρχείων του corpusA2) έχουμε τα εξής αποτελέσματα στον επόμενο πίνακα:Πίνακας 3.9 Μέτρα κεντρικής τάσης μεταβλητών (MMSyl & MMWord) Corpus

Α2Κατηγορ

ίες Κατηγορ

ίες Μέσος όρος

(mean)

Μέγιστη

τιμή (max)

Ελάχιστη τιμή (min)

Επικρατούσα τιμή (mode)

Διάμεσος (median)

Social Politics

ΜΜSyl

MMWord

2.3

2.4

2.6

3.2

2.2

1.9

2.3

2.5

2.3

2.4Sports ΜΜSyl

MMWord

2.4

2.3

2.8

3.2

2.1

1.8

2.3

2.4

2.3

2.3Culture ΜΜSyl

MMWord

2.4

2.3

2.7

2.8

2.2

1.8

2.3

2.0

2.4

2.3Σύνολο (Whole corpus)

ΜΜSyl

MMWord

2.3

2.3

2.8

3.2

2.1

1.8

2.3

2.5

2.3

2.3Στα γραφήματα που ακολουθούν φαίνεται η κατανομή της διαμέσου στο δείγμα ανά μεταβλητή:

MMSyl (median)

2,24

2,26

2,28

2,3

2,32

2,34

2,36

2,38

2,4

2,42

Social Politics Sports Culture whole corpus

MMSyl

MMWord (median)

2,24

2,26

2,28

2,3

2,32

2,34

2,36

2,38

2,4

2,42

Social Politics Sports Cul ture whole corpus

MMWord

(α) (β)

73

Γράφημα 3.7Κατανομή τιμών των δύο παραμέτρων (μεταβλητών) στο CorpusA2 ανά κατηγορία

Οι παράμετροι των αποτελεσμάτων της επεξεργασίας του εργαλείου εισήχθησαν στο SPSS για στατιστική ανάλυση (ακολουθώντας την σχέση 3.2). Από την επιλογή διαδρομής επεξεργασίας στο SPSS62 λαμβάνουμε το επόμενο γράφημα απεικόνισης της εκτιμούμενης ευθείας γραμμικής παλινδρόμησης (dependent varable-MMWord, independent variable-MMSyl):

κατηγορία: Social Politics

Γράφημα 3.8Εκτίμηση ευθείας γραμμικής παλινδρόμησης με εξαρτημένη μεταβλητή (corpusA2-Social Politics)

Πίνακας 3.10 Πίνακας σύνοψης μοντέλου & παραμέτρων εκτίμησης (corpusA2-Social Politics)


Dependent Variable: WOL



Linear ,063 56,961 1 849 ,000 4,132 -,747

The independent variable is SYL.

Στο Πιν.3.10 (Social Politics) μας δίνει το συντελεστή παλινδρόμησης b (b1

- κλίση ευθείας) και τη σταθερά εξίσωσης παλινδρόμησης (b0 – constant). To R square δείχνει το ποσοστό διακύμανσης της εξαρτημένης μεταβλητής (WOL) που εξηγείται από την ανεξάρτητη μεταβλητή (SYL). Εδώ ο συντελεστής είναι πολύ χαμηλός και δείχνει ότι η ανεξάρτητη μεταβλητή

62 Analyze→ regression→ curve estimation→ dependent /independent variable→ Linear

74

(SYL) ερμηνεύει ποσοστό μόλις 6.3% της διακύμανσης της εξαρτημένης μεταβλητής (WOL). Το b είναι αρνητικό (<Ø) και δείχνει μία αρνητική

συσχέτιση μεταξύ των WOL & SYL (WOL↓, SYL↑) και είναι στατιστικά σημαντική (Sig. 0.000< 0.05).

κατηγορία : Sports

Γράφημα 3.9Εκτίμηση ευθείας γραμμικής παλινδρόμησης με εξαρτημένη μεταβλητή (corpusA2-Sports)

Πίνακας 3.11 Πίνακας σύνοψης μοντέλου & παραμέτρων εκτίμησης (corpusA2-Sports)





Linear ,025 25,709 1 996 ,000 3,033 -,317


Στο Πιν.3.11 (Sports) μας δίνει το συντελεστή παλινδρόμησης b (b1 - κλίση

ευθείας) και τη σταθερά εξίσωσης παλινδρόμησης (b0 – constant). To R

square δείχνει το ποσοστό διακύμανσης της εξαρτημένης μεταβλητής (WOL) που εξηγείται από την ανεξάρτητη μεταβλητή (SYL). Εδώ ο συντελεστής είναι πολύ χαμηλός και δείχνει ότι η ανεξάρτητη μεταβλητή (SYL) ερμηνεύει ποσοστό μόλις 2.5% της διακύμανσης της εξαρτημένης μεταβλητής (WOL). Το b είναι αρνητικό (<Ø) και δείχνει μία αρνητική


κατηγορία: Culture

75

Γράφημα 3.10 Εκτίμηση ευθείας γραμμικής παλινδρόμησης με εξαρτημένη μεταβλητή (corpusA2-Culture)

Πίνακας 3.12 Πίνακας σύνοψης μοντέλου & παραμέτρων εκτίμησης (corpusA2-Culture)





Linear ,088 56,203 1 585 ,000 3,979 -,709


Στο Πιν.3.12 (Culture) μας δίνει το συντελεστή παλινδρόμησης b (b1 -

κλίση ευθείας) και τη σταθερά εξίσωσης παλινδρόμησης (b0 – constant). To R square δείχνει το ποσοστό διακύμανσης της εξαρτημένης μεταβλητής (WOL) που εξηγείται από την ανεξάρτητη μεταβλητή (SYL). Εδώ ο συντελεστής είναι πολύ χαμηλός και δείχνει ότι η ανεξάρτητη μεταβλητή (SYL) ερμηνεύει ποσοστό μόλις 8.8% της διακύμανσης της εξαρτημένης μεταβλητής (WOL). Το b είναι αρνητικό (<Ø) και δείχνει μία αρνητική


κατηγορία: whole corpus

76

Γράφημα 3.11 Εκτίμηση ευθείας γραμμικής παλινδρόμησης με εξαρτημένη μεταβλητή (corpusA2-whole corpus)Πίνακας 3.13 Πίνακας σύνοψης μοντέλου & παραμέτρων εκτίμησης (whole corpusA2)





Linear ,067 173,776 1 2437 ,000 3,775 -,616


Στο Πιν.3.13 μας δίνει το συντελεστή παλινδρόμησης b (b1 - κλίση ευθείας) και τη σταθερά εξίσωσης παλινδρόμησης (b0 – constant). To R square

δείχνει το ποσοστό διακύμανσης της εξαρτημένης μεταβλητής (WOL) που εξηγείται από την ανεξάρτητη μεταβλητή (SYL). Εδώ ο συντελεστής είναι πολύ χαμηλός και δείχνει ότι η ανεξάρτητη μεταβλητή (SYL) ερμηνεύει ποσοστό μόλις 6.7% της διακύμανσης της εξαρτημένης μεταβλητής (WOL). Το b είναι αρνητικό (<Ø) και δείχνει μία αρνητική συσχέτιση

μεταξύ των WOL & SYL (WOL↓, SYL↑) αφού είναι στατιστικά σημαντική (Sig. 0.000< 0.05). Ακολουθούμε μία νέα διαδρομή στατιστικής επεξεργασίας για όλο το σώμα κειμένων όπου παρατηρούμε τα ίδια αποτελέσματα (αρνητική συσχέτιση στατιστικά σημαντική μεταξύ WOL, SYL)63:

Πίνακας 3.14 Πίνακας Συντελεστών (corpusA2)Coefficientsa

Model Unstandardized Coefficients Standardized

Coefficients

t Sig.

B Std. Error Beta

1 (Constant) 3,775 ,110 34,377 ,000

63 Analyze→ regression→ Linear→ dependent /independent variable→ Statistics→Estimates→Model Fit→R squared change→Plots→ZRESID→ZPRED

77

SYL -,616 ,047 -,258 -13,182 ,000

a. Dependent Variable: WOL

Στον επόμενο πίνακα απεικονίζονται τα υπόλοιπα (Residuals), δηλαδή οι διαφορές μεταξύ προβλεπόμενων και πραγματικών τιμών και επίσης εμφανίζονται ακολούθως το ιστόγραμμα ελέγχου κατανομής και το αντίστοιχο διάγραμμα διασποράς (Γραφ. 3.12, 3.13). Εξετάζοντας τα υπόλοιπα (Residuals), βλέπουμε ότι δεν παραβιάζονται οι προϋποθέσεις εφαρμογής του μοντέλου γραμμικής παλινδρόμησης.

Πίνακας 3.15 Πίνακας Υπολοίπων (Residuals) (CorpusA2) Residuals Statisticsa

Minimum Maximum Mean Std. Deviation N

Predicted Value 2,04221 2,46258 2,32793 ,042943 2439

Residual -,482445 ,952822 ,000000 ,160815 2439

Std. Predicted Value -6,653 3,135 ,000 1,000 2439

Std. Residual -2,999 5,924 ,000 1,000 2439

a. Dependent Variable: WOL

Γράφημα 3.12 Ιστόγραμμα ελέγχου κανονικής κατανομής (CorpusA1)

78

Γράφημα 3.13 Διάγραμμα Διασποράς (CorpusA1) Στο παραπάνω διάγραμμα διασποράς απεικονίζεται η διασπορά των υπολοίπων (residuals). H ομοιογενής κατανομή δείχνει ότι δεν υπάρχει σημαντικό πρόβλημα συγγραμικότητας στα δεδομένα μας.

3.5 ΕπισκόπησηΣτο κεφάλαιο αυτό έγινε η εφαρμογή του εργαλείου TLMA για έλεγχο ισχύος του Ν Μ-Α στην ελληνική γλώσσα. Δοκιμάστηκε σε διάφορα corpus με επιτυχία από το εργαλείο. Τα αποτελέσματα έδειξαν αρνητική συσχέτιση μεταξύ των δύο μεταβλητών στο διευρυμένο δείγμα (corpusA2) δείχνοντας μια επιβεβαίωση του νόμου στην σύγχρονη ελληνική γλώσσα.

79


ΣΥΜΠΕΡΑΣΜΑΤΑ64

4.1 ΣυμπεράσματαΗ έρευνα που πραγματοποιήθηκε στο πλαίσιο αυτής της διπλωματικής εργασίας ανέδειξε τα εξής σημεία:

Ελέγχθηκε η γραμμική εκδοχή του νόμου Μenzerath-Altmann. Ο νόμος Μenzerath-Altmann φαίνεται ότι πιθανόν να ισχύει και

στην ελληνική γλώσσα. Ενώ στο αρχικό σώμα κειμένου (μικρότερο δείγμα και μέγεθος αριθμού λέξεων, λογοτεχνικής προέλευσης) τα αποτελέσματα ήταν αρνητικά (μη στατιστικά σημαντικά και θετική συσχέτιση), στο δεύτερο σώμα κειμένων, που είχε προέλευση πιο σύγχρονα κείμενα τριών (3) κατηγοριών (Social Politics, Sports, Culture) τα αποτελέσματα έδειξαν ότι πιθανώς να ισχύει ο Ν Μ-Α (το κειμενικό γένος φαίνεται να επιδρά στην ισχύ ή όχι του νόμου).

Οι παράμετροι του νόμου συσχετίζονται αρνητικά μεταξύ τους στο διευρυμένο σώμα κειμένων (corpusΑ2).

Θα πρέπει να συνεχιστεί η έρευνα αυξάνοντας το δείγμα σε μέγεθος αριθμού λέξεων αλλά και ποικιλίας κειμένου (χρόνος

64 Γράφτηκε από τον XXXXXXXXXXXX και XXXXXXXXXXXXX από κοινού.

80

παραγωγής και θεματικές κατηγορίες, π.χ. λογοτεχνία, ποίηση, τεχνικά κείμενα κλπ.) για να εξαχθούν πιο ακριβή αποτελέσματα.

Η επιλογή της γλώσσας προγραμματισμού Perl έδωσε σημαντικά πλεονεκτήματα στην σχεδίαση και κατασκευή του εργαλείου (υψηλές δυνατότητες σε επεξεργασία κανονικών εκφράσεων, ανοικτός κώδικας και ανοικτό περιβάλλον προγραμματιστών για υποστήριξη).

Το εργαλείο σχεδιάστηκε με τις αρχές του δομημένου προγραμματισμού και διαθέτει καλή τεκμηρίωση, γεγονός που διευκολύνει την μελλοντική επέκταση ή βελτίωση του.

Η απόδοση του εργαλείου είναι ικανοποιητική. Η έρευνα αυτή προσφέρει άλλη μία ψήφο υπέρ της όλο και πιο

αυξανόμενης χρήσης των υπολογιστών στην μελέτη της ελληνικής γλώσσας.

4.2 Μελλοντική ΈρευναΤο αντικείμενο της διπλωματικής εργασίας μπορεί μελλοντικά να επεκταθεί στους εξής άξονες:

Στην βελτίωση του εργαλείου όσο αφορά:- τον έλεγχο των συμπλεγμάτων στις περιπτώσεις που δεν

υπάρχει σταθερός αριθμός συλλαβής (χρήση μεθόδων τεχνητής νοημοσύνης για την κατάλληλη απόφαση – επιλογή αριθμού συλλαβών),

- στην προσθήκη υπολογισμού και άλλων γλωσσικών παραμέτρων (π.χ. σε επίπεδο πρότασης),

- «μεταφορά» του εργαλείου σε Windows & Αντικειμενοστραφή (ΟΟΡ) περιβάλλον (π.χ. σε C#,VBasic, Python κλπ.).

Αύξηση του μεγέθους και της ποικιλίας του δείγματος για έλεγχο του Ν Μ-Α.

Διερεύνηση και άλλων γλωσσικών κατασκευών στην ελληνική γλώσσα σχετικά με τον Ν Μ-Α (πλήρη διατύπωση του νόμου) ή σε κάποιο άλλο συναφή νόμο της ποσοτικής γλωσσολογίας.

81

ΒιβλιογραφίαAltmann, G. (1980). Prolegomena to Menzerath’s law. Glottometrika 2. p. 1–10.

Altmann, G. Schwibbe, M.H. (1989). Das Menzerathsche Gesetz in informationsverarbeitenden Systemen. Hildesheim/Zürich/New York: Olms.

Buk, S. Rovennchak, A. (2007). Menzerath-Altamann Law for Syntactic Structures in Ukrainian, retrieved from arxiv.org/pdf/cs/0701194, [access 19/2/2013].

Γναρδέλης, Χ. (2006). Ανάλυση Δεδομένων με το SPSS 14.0 for Windows, Εκδόσεις Παπαζήση, Αθήνα..Diamond, J. Jefferies, J. (2006). Αρχίζοντας τη Στατιστική. Μία εισαγωγή για τους κοινωνικούς επιστήμονες, Εκδ. Παπαζήση, Αθήνα.

Fenk, A. Fenk-Oczlon, G. Fenk, L. Syllable Complexity as a Function of Word Complexity in V. Solovyev & V. Polyakov (eds.) (2005) Text Processing and Cognitive Technologies, No 11, Moscow: MISA, pp. 337-346.

Ferre-I-Canche, R. Forns, N. Hernandez-Fernandez, A. Bel-Enguix, G. Baixeries, J. (2012). The Challenges of Statistical Patterns of Language: The Case of Menzerath’s Law in Genome, Complexity, Vol.18, No3, pp.11-17.

Kelih, E. (2010). Parameter interpretation of the Menzerath law: evidence from Serbian, Text and Language Structures, Karl-Franzens Univerität

Köhler, R. (2002). Power Law Models in Linguistics: Hungarian. Glottometrics 5, 2002 , pp. 51-61.

Μικρός, Γ. Η ποσοτική ανάλυση της κοινωνιογλωσσικής ποικιλίας. Θεωρητικές και μεθοδολογικές προσεγγίσεις, Εκδ. ΜΕΤΑΙΧΜΙΟ, Αθήνα, 2009.

82

Νόβα-Καλτσούνη, Χρ. (2006). Μεθοδολογία εμπειρικής έρευνας στις Κοινωνικές Επιστήμες. Ανάλυση Δεδομένων με τη χρήση SPSS, Εκδ. GUTENBERG.

Pfleeger, S. (2001). Software Engineering: Theory and Practice, 2nd edition, Prentice Hall.

Schwartz, R. L., Christiansen, T. (1999). Μάθετε την Perl, Δεύτερη Αμερικανική Έκδοση, Εκδόσεις Κλειδάριθμος, σελ. 35.

83

2ο Κεφάλαιο -...

Documents