עיבוד שפות טבעיות - שעור שני מורפולוגיה
DESCRIPTION
עיבוד שפות טבעיות - שעור שני מורפולוגיה. יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון. מילים מילים. מהי מילה? יחידת המידע העצמאית הקטנה ביותר בשפה למשל: ספר, שולחן אבל לא: ה ( ספר ), ( walk ) -ed מילה? She'd בשפה כתובה, לא כל "מחרוזת" או "יחידה" המוקפת ברווחים היא מילה - למשל: - PowerPoint PPT PresentationTRANSCRIPT
עיבוד שפות טבעיות - שעור שנימורפולוגיה
יעל נצר
המחלקה למדעי המחשב
אוניברסיטת בן גוריון
מילים מילים
מהי מילה?
יחידת המידע העצמאית הקטנה ביותר בשפה
ספר, שולחןלמשל:
ed-(walk)(, ספר)האבל לא: She'dמילה?
בשפה כתובה, לא כל "מחרוזת" או "יחידה" המוקפת ברווחים היא מילה - למשל:
ואני אכלתי אותוואכלתיהו -
הברות
שהן morphemesמילים מורכבות מהברות - "יחידות המידע הקטנות ביותר הנושאות משמעות"
יש מילים שהן הברות:car, fish
מילה יכולה להיות מורכבת מכמה מורפימות:סוסיהם - סוס + י)ם( + הם
"לקסמה"לכן שימוש מדויק יותר הוא במונח lexeme שהיא המילה או הצורה הבסיסית ביותר
בעלת משמעות מילונית.
: תחילית, תוכית, ( affixes)מוספיותוסופית
affixes ול-stemמילים מחולקות ל- - הן המוספות בתחילת המילה prefixesתחיליות -
Un-believable, re-direction - מוספות בסוף המילה suffixesסופיות -
ing : having, eatingלמשל: - מורפמה המוכנסת לגזע או שורש - - infixes תוכיות
למשל אותיות הקובעות בניין בעברית -
התלכלך, התרחץ- פעל תתה
תהליכים מורפולוגיים נוספים
צורות נוספות של שינוי מילים או 'תהליך מורפולוגי' שעובר על מילים הן
derivationגזירה inflectionהטייה
מורפולוגיה היא מסובכת בגלל שיש הרבה יוצאי דופן, למשל:
goose/geese, mouse/miceשמות עצם: go/went eat/ate פעלים:
regularההתייחסות תהייה עם הביטוי: רגולריים irregularואי-רגולרי
inflectionהטיה
שינוי בצורת המילה מתוך צרכים תחביריים - למשל number כשמסמנים מספר )יחיד/רבים( -
נערה - נערות
genderמין נער - נערה
personגוף אני רצתי - אנחנו רצנו
בעברית מערכת ההטיות מורכבת
הטיות באנגלית
באנגלית מערכת ההטיות פשוטה יחסית. כולה concatenative מורפולוגיה משורשרת
morphology.
עבור שמות עצם: ריבוי ושייכותpossessives .
למשל שמלים spelling rulesיש חוקי כתיב .s- ולא es- סימון לרבים יהיה xשמסתיימות ב-
עבור פעלים: ההטיות מגוונות יותר
הטיית פעלים באנגלית
שלושה סוגי פעלים:Main verbs: eat, sleep, run
Modal verbs: can, will, shouldPrimary verbs: be, have, do
אם כל regularפעלים נקראים רגולריים הסיומות מסמנות אותה פונקציה עבור כולם.
ארבע צורות עקריות:
Morphological Form
Classes
Regulary Inflected verbs
Stem"שורש"
walkmergetrymap
-s formwalksmergestriesmaps
-ing particle
walking
merging
tryingmapping
derivationגזירה
גזירה היא יצירת לקסמות ממבנים בסיסיים או לשינוי חלק הדיבר של המילה.
__�_מ וצורן הגזירה ט.ב.חבעברית: השורש
מטבח
sweet - adjectiveבאנגלית:
sweetness - nounבאנגלית מעט הטיות ומערכת גזירה ענפה.
מורפולוגיה, חיפושים באינטרנט וכולי
למשל, חיפושים באיטנרנט
foxאם מילת החיפוש היא האם אנחנו רוצים למצוא גם מסמכים בהם
foxesצורת הריבוי? למשל ?goose-geeseומה במקרה של
ניתוח מורפולוגי של מילה
Morphological parsingניתוח: קבלת קלט כלשהו ויצירת מבנה ממנו.
stemming נקרא: IRבתחום איחזור המידע stemming הוא התהליך ש"מפשיט" מילים
foxes -> foxמורכבות לצורתן הבסיסית: goingניתוח מורפולוגי יקבל כקלט מילה כ-
ויחזיר כפלט את הניתוח VERB-GO + GERUND-ing
למה צריך ניתוח מורפולוגי
איחזור מידע
תרגום אוטומטי
תיקון שגיאות כתיב אוטומטי
ומצד שני - חוקי הניתוח יכולים להיות ממומשים ליצירת מילים מוטות.
מורפולוגיה היא פרודוקטיבית
לא יעיל לשים בלקסיקון את כל המילים על צורת ההטיה שלהן.
, למשל היא פרודוקטיבית כי היא ingהסיומת, ניתנת לצירוף לכל פועל באנגלית.
.s-גם צורת הריבוי
<- fax)יש גם יצירה של מילים חדשות faxing)
.מצד שני, יש הרבה יוצאי דופן
Finite-State morphological Parsing
דוגמא פשוטה: ניתוח ריבוי פשוט של שמות עצם .verbal progressive (-ing)ו-
המטרה: cat + N + SGפלט: cats קלט: goose + N+ PLפלט: geese קלט: -merge + V + PRESפלט: merging קלט:
PART( catch + V + PAST-PART)פלט: caught קלט:
or (catch + V + PAST)
בניית מנתח מורפולוגי
כדי לבנות מנתח מורפולוגי יש צורך ב:, עם affixes ו-stems - רשימת שורשים לקסיקון
הוא שם עצם, פועל stemמידע כללי כגון האם ה-וכו'.
Morphotactics המודל לסידור המורפמות )איזו - מורפמה היא תחילית ואיזו סופית(
חוקי orthographic rulesחוקים אורתוגרפיים הכתיב - שינויים החלים במילה למשל -
y-> ie כמו במקרה של city + -s -> cities
finite stateניתוח מורפולוגי בעזרת transducers (FSTs) - Two level morphology (Koskenniemi 1983)
הפרדת הרמה הלקסיקלית מהרמה שעל פני השטח
FSAנקודת המוצא היא פשוט
לאוטומטtapeהוספת סרט
הוספת סמלים למעברים באוטומט
לדוגמא - אם על סרט אחד על הסרט השני catsכתוב
cat+N+PLיהיה בהתאם
FSTשימוש אופייני ב-
קריאת הסמל השני שעל המעבר על פי הקלט בסרט (surfaceהתחתון )ה-
כתיבה בסרט העליון על פי הסמל הראשון במעבר (.lexical level)ה-
a:b פירושו b בסרט התחתון מועתק לסמל a.בסרט העליון a:-פירושו ש a בסרט העליון מתייחס ל"שום דבר" בסרט
התחתון..a הן זוגות 'ברירות מחדל' ושקולים ל-a:aזוגות FST-להבדיל מ FSA לא רק מגדיר שפה אלא מגדיר יחס
בין מחרוזות.
FSTנקודות מבט על
- מקבל זוג מחרוזות כקלט recognizerמזהה - אותן 'מקבל' אם זוג המחרוזות שייך לשפת ה'זוגות'
- מייצר זוגות מחרוזות generatorמייצר - השייכים לשפה, ו'כן' או 'לא'
FST מכונה שמקבלת מחרוזת אחת ומחזירה - פלט מחרוזת אחרת.
FST.כמכונה המחשבת יחס בין קבוצות Mealy Machineדומה ל-
- Iמנתח מורפולוגי - גרסא מורפוטקטיקה
הטמעת המילון באוטומט
מודל לחוקי גזירה
רב משמעות בניתוח מורפולוגי
יש משמעות למעבר
unionizeable:un-ion-ize-ableunion-ize-able
שניהם מעברים תקפים באוטומט שתוצאתם ניתוח שונה.
רב משמעות בניתוח מורפולוגי - פתרונות אפשריים
קבל את הניתוח הראשון המוצלח
הרץ את המנתח עם כל המעברים האפשריים, כתיבת כל התוצאות בסרט הפלט.
FSTהוספת חוקי איות ל-
ישנם חוקי איות שהם תלויי הקשר
למשל -cat + N + PL -> cats
fox + N + PL -> foxes
Multi-level multi-tape machines
אחת לשנייה, כך FSTניתן לצרף מכונות שהפלט של האחת היא הקלט של השנייה.
טיפול בחוקי האיות מוסיף למעשה סרט נוסף ויוצר שלוש שכבות:FSTב-
LexicalIntermediate
Surface
Lexical to Intermediate Transducer
Intermediate to Surface Transducer
שבמעברים FSTצריך למילים eשלו יוסיפו
x, s, zהמסתיימות ב- לריבוי. sלפני הוספת ה-
Lexicon-Free FSTs: Porter Stemmer
, ללא שימוש IRשיטה המשמשת בעיקר ב-בלקסיקון.
בהנחה שסיומות כגון אלה המציינות מספר אינן נושאות משמעות ביחס לרלוונטיות של מסמכים.
Stemmning algorithms - Porter 1980לאלגוריתם חוקים בצורה:
ATIONAL -> ATE relational -> relate למשל
ING -> if stem contains vowel
stemmersביצועים של
Krovetz מדגים סוגי טעויות
Omission -Matrices - matrix
Comission-Organization - organ
משפר במידה stemmingכמו כן הוא הראה ש-מסויימת ביצועים בעיקר עבור מסמכים קטנים