עיבוד שפות טבעיות - שעור שני מורפולוגיה

30
- תתתתת תתתת תתתתתת תתתת תתת תתתתתתתתתת תתת תתת תתתתתת תתתתת תתתתת תתתתתתתתתת תת תתתתתת

Upload: susan

Post on 15-Jan-2016

55 views

Category:

Documents


1 download

DESCRIPTION

עיבוד שפות טבעיות - שעור שני מורפולוגיה. יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון. מילים מילים. מהי מילה? יחידת המידע העצמאית הקטנה ביותר בשפה למשל: ספר, שולחן אבל לא: ה ( ספר ), ( walk ) -ed מילה? She'd בשפה כתובה, לא כל "מחרוזת" או "יחידה" המוקפת ברווחים היא מילה - למשל: - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: עיבוד שפות טבעיות - שעור שני מורפולוגיה

עיבוד שפות טבעיות - שעור שנימורפולוגיה

יעל נצר

המחלקה למדעי המחשב

אוניברסיטת בן גוריון

Page 2: עיבוד שפות טבעיות - שעור שני מורפולוגיה

מילים מילים

מהי מילה?

יחידת המידע העצמאית הקטנה ביותר בשפה

ספר, שולחןלמשל:

ed-(walk)(, ספר)האבל לא: She'dמילה?

בשפה כתובה, לא כל "מחרוזת" או "יחידה" המוקפת ברווחים היא מילה - למשל:

ואני אכלתי אותוואכלתיהו -

Page 3: עיבוד שפות טבעיות - שעור שני מורפולוגיה

הברות

שהן morphemesמילים מורכבות מהברות - "יחידות המידע הקטנות ביותר הנושאות משמעות"

יש מילים שהן הברות:car, fish

מילה יכולה להיות מורכבת מכמה מורפימות:סוסיהם - סוס + י)ם( + הם

"לקסמה"לכן שימוש מדויק יותר הוא במונח lexeme שהיא המילה או הצורה הבסיסית ביותר

בעלת משמעות מילונית.

Page 4: עיבוד שפות טבעיות - שעור שני מורפולוגיה

: תחילית, תוכית, ( affixes)מוספיותוסופית

affixes ול-stemמילים מחולקות ל- - הן המוספות בתחילת המילה prefixesתחיליות -

Un-believable, re-direction - מוספות בסוף המילה suffixesסופיות -

ing : having, eatingלמשל: - מורפמה המוכנסת לגזע או שורש - - infixes תוכיות

למשל אותיות הקובעות בניין בעברית -

התלכלך, התרחץ- פעל תתה

Page 5: עיבוד שפות טבעיות - שעור שני מורפולוגיה

תהליכים מורפולוגיים נוספים

צורות נוספות של שינוי מילים או 'תהליך מורפולוגי' שעובר על מילים הן

derivationגזירה inflectionהטייה

מורפולוגיה היא מסובכת בגלל שיש הרבה יוצאי דופן, למשל:

goose/geese, mouse/miceשמות עצם: go/went eat/ate פעלים:

regularההתייחסות תהייה עם הביטוי: רגולריים irregularואי-רגולרי

Page 6: עיבוד שפות טבעיות - שעור שני מורפולוגיה

inflectionהטיה

שינוי בצורת המילה מתוך צרכים תחביריים - למשל number כשמסמנים מספר )יחיד/רבים( -

נערה - נערות

genderמין נער - נערה

personגוף אני רצתי - אנחנו רצנו

בעברית מערכת ההטיות מורכבת

Page 7: עיבוד שפות טבעיות - שעור שני מורפולוגיה

הטיות באנגלית

באנגלית מערכת ההטיות פשוטה יחסית. כולה concatenative מורפולוגיה משורשרת

morphology.

עבור שמות עצם: ריבוי ושייכותpossessives .

למשל שמלים spelling rulesיש חוקי כתיב .s- ולא es- סימון לרבים יהיה xשמסתיימות ב-

עבור פעלים: ההטיות מגוונות יותר

Page 8: עיבוד שפות טבעיות - שעור שני מורפולוגיה

הטיית פעלים באנגלית

שלושה סוגי פעלים:Main verbs: eat, sleep, run

Modal verbs: can, will, shouldPrimary verbs: be, have, do

אם כל regularפעלים נקראים רגולריים הסיומות מסמנות אותה פונקציה עבור כולם.

ארבע צורות עקריות:

Page 9: עיבוד שפות טבעיות - שעור שני מורפולוגיה

Morphological Form

Classes

Regulary Inflected verbs

Stem"שורש"

walkmergetrymap

-s formwalksmergestriesmaps

-ing particle

walking

merging

tryingmapping

Page 10: עיבוד שפות טבעיות - שעור שני מורפולוגיה

derivationגזירה

גזירה היא יצירת לקסמות ממבנים בסיסיים או לשינוי חלק הדיבר של המילה.

__�_מ וצורן הגזירה ט.ב.חבעברית: השורש

מטבח

sweet - adjectiveבאנגלית:

sweetness - nounבאנגלית מעט הטיות ומערכת גזירה ענפה.

Page 11: עיבוד שפות טבעיות - שעור שני מורפולוגיה

מורפולוגיה, חיפושים באינטרנט וכולי

למשל, חיפושים באיטנרנט

foxאם מילת החיפוש היא האם אנחנו רוצים למצוא גם מסמכים בהם

foxesצורת הריבוי? למשל ?goose-geeseומה במקרה של

Page 12: עיבוד שפות טבעיות - שעור שני מורפולוגיה

ניתוח מורפולוגי של מילה

Morphological parsingניתוח: קבלת קלט כלשהו ויצירת מבנה ממנו.

stemming נקרא: IRבתחום איחזור המידע stemming הוא התהליך ש"מפשיט" מילים

foxes -> foxמורכבות לצורתן הבסיסית: goingניתוח מורפולוגי יקבל כקלט מילה כ-

ויחזיר כפלט את הניתוח VERB-GO + GERUND-ing

Page 13: עיבוד שפות טבעיות - שעור שני מורפולוגיה

למה צריך ניתוח מורפולוגי

איחזור מידע

תרגום אוטומטי

תיקון שגיאות כתיב אוטומטי

ומצד שני - חוקי הניתוח יכולים להיות ממומשים ליצירת מילים מוטות.

Page 14: עיבוד שפות טבעיות - שעור שני מורפולוגיה

מורפולוגיה היא פרודוקטיבית

לא יעיל לשים בלקסיקון את כל המילים על צורת ההטיה שלהן.

, למשל היא פרודוקטיבית כי היא ingהסיומת, ניתנת לצירוף לכל פועל באנגלית.

.s-גם צורת הריבוי

<- fax)יש גם יצירה של מילים חדשות faxing)

.מצד שני, יש הרבה יוצאי דופן

Page 15: עיבוד שפות טבעיות - שעור שני מורפולוגיה

Finite-State morphological Parsing

דוגמא פשוטה: ניתוח ריבוי פשוט של שמות עצם .verbal progressive (-ing)ו-

המטרה: cat + N + SGפלט: cats קלט: goose + N+ PLפלט: geese קלט: -merge + V + PRESפלט: merging קלט:

PART( catch + V + PAST-PART)פלט: caught קלט:

or (catch + V + PAST)

Page 16: עיבוד שפות טבעיות - שעור שני מורפולוגיה

בניית מנתח מורפולוגי

כדי לבנות מנתח מורפולוגי יש צורך ב:, עם affixes ו-stems - רשימת שורשים לקסיקון

הוא שם עצם, פועל stemמידע כללי כגון האם ה-וכו'.

Morphotactics המודל לסידור המורפמות )איזו - מורפמה היא תחילית ואיזו סופית(

חוקי orthographic rulesחוקים אורתוגרפיים הכתיב - שינויים החלים במילה למשל -

y-> ie כמו במקרה של city + -s -> cities

Page 17: עיבוד שפות טבעיות - שעור שני מורפולוגיה

finite stateניתוח מורפולוגי בעזרת transducers (FSTs) - Two level morphology (Koskenniemi 1983)

הפרדת הרמה הלקסיקלית מהרמה שעל פני השטח

FSAנקודת המוצא היא פשוט

לאוטומטtapeהוספת סרט

הוספת סמלים למעברים באוטומט

לדוגמא - אם על סרט אחד על הסרט השני catsכתוב

cat+N+PLיהיה בהתאם

Page 18: עיבוד שפות טבעיות - שעור שני מורפולוגיה

FSTשימוש אופייני ב-

קריאת הסמל השני שעל המעבר על פי הקלט בסרט (surfaceהתחתון )ה-

כתיבה בסרט העליון על פי הסמל הראשון במעבר (.lexical level)ה-

a:b פירושו b בסרט התחתון מועתק לסמל a.בסרט העליון a:-פירושו ש a בסרט העליון מתייחס ל"שום דבר" בסרט

התחתון..a הן זוגות 'ברירות מחדל' ושקולים ל-a:aזוגות FST-להבדיל מ FSA לא רק מגדיר שפה אלא מגדיר יחס

בין מחרוזות.

Page 19: עיבוד שפות טבעיות - שעור שני מורפולוגיה

FSTנקודות מבט על

- מקבל זוג מחרוזות כקלט recognizerמזהה - אותן 'מקבל' אם זוג המחרוזות שייך לשפת ה'זוגות'

- מייצר זוגות מחרוזות generatorמייצר - השייכים לשפה, ו'כן' או 'לא'

FST מכונה שמקבלת מחרוזת אחת ומחזירה - פלט מחרוזת אחרת.

FST.כמכונה המחשבת יחס בין קבוצות Mealy Machineדומה ל-

Page 20: עיבוד שפות טבעיות - שעור שני מורפולוגיה

- Iמנתח מורפולוגי - גרסא מורפוטקטיקה

Page 21: עיבוד שפות טבעיות - שעור שני מורפולוגיה

הטמעת המילון באוטומט

Page 22: עיבוד שפות טבעיות - שעור שני מורפולוגיה

מודל לחוקי גזירה

Page 23: עיבוד שפות טבעיות - שעור שני מורפולוגיה

רב משמעות בניתוח מורפולוגי

יש משמעות למעבר

unionizeable:un-ion-ize-ableunion-ize-able

שניהם מעברים תקפים באוטומט שתוצאתם ניתוח שונה.

Page 24: עיבוד שפות טבעיות - שעור שני מורפולוגיה

רב משמעות בניתוח מורפולוגי - פתרונות אפשריים

קבל את הניתוח הראשון המוצלח

הרץ את המנתח עם כל המעברים האפשריים, כתיבת כל התוצאות בסרט הפלט.

Page 25: עיבוד שפות טבעיות - שעור שני מורפולוגיה

FSTהוספת חוקי איות ל-

ישנם חוקי איות שהם תלויי הקשר

למשל -cat + N + PL -> cats

fox + N + PL -> foxes

Page 26: עיבוד שפות טבעיות - שעור שני מורפולוגיה

Multi-level multi-tape machines

אחת לשנייה, כך FSTניתן לצרף מכונות שהפלט של האחת היא הקלט של השנייה.

טיפול בחוקי האיות מוסיף למעשה סרט נוסף ויוצר שלוש שכבות:FSTב-

LexicalIntermediate

Surface

Page 27: עיבוד שפות טבעיות - שעור שני מורפולוגיה

Lexical to Intermediate Transducer

Page 28: עיבוד שפות טבעיות - שעור שני מורפולוגיה

Intermediate to Surface Transducer

שבמעברים FSTצריך למילים eשלו יוסיפו

x, s, zהמסתיימות ב- לריבוי. sלפני הוספת ה-

Page 29: עיבוד שפות טבעיות - שעור שני מורפולוגיה

Lexicon-Free FSTs: Porter Stemmer

, ללא שימוש IRשיטה המשמשת בעיקר ב-בלקסיקון.

בהנחה שסיומות כגון אלה המציינות מספר אינן נושאות משמעות ביחס לרלוונטיות של מסמכים.

Stemmning algorithms - Porter 1980לאלגוריתם חוקים בצורה:

ATIONAL -> ATE relational -> relate למשל

ING -> if stem contains vowel

Page 30: עיבוד שפות טבעיות - שעור שני מורפולוגיה

stemmersביצועים של

Krovetz מדגים סוגי טעויות

Omission -Matrices - matrix

Comission-Organization - organ

משפר במידה stemmingכמו כן הוא הראה ש-מסויימת ביצועים בעיקר עבור מסמכים קטנים