עיבוד שפות טבעיות מבוא

45
1 תתתתת תתתת תתתתתת תתתת תתתת' תתתת תתתתתתתת( תתתת תתתתתתת: תתתת) תתתתתת תתתתתת תתתתת תתתתת תתתתתתתתתת תת תתתת תתתתתתת תתת תתת תתתתתתת

Upload: zeno

Post on 20-Mar-2016

65 views

Category:

Documents


1 download

DESCRIPTION

עיבוד שפות טבעיות מבוא. פרופ' עידו דגן (קרדיט לחלק מהשקפים : אורן גליקמן) המחלקה למדעי המחשב אוניברסיטת בר אילן שינויים מאת אבי רוזנפלד. מה זה בכלל עיבוד שפות טבעיות. נקרא גם "בלשנות חישובית“ Natural Language Processing/ Computational Linguistics - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: עיבוד שפות טבעיות  מבוא

1

טבעיות שפות עיבודמבוא

דגן פרופ' עידו( :לחלק מהשקפיםקרדיט) גליקמן אורן

המחשב למדעי המחלקהאילן בר אוניברסיטת

רוזנפלד אבי מאת שינויים

Page 2: עיבוד שפות טבעיות  מבוא

2

טבעיות שפות עיבוד בכלל זה מה•“ חישובית " בלשנות גם נקרא

• Natural Language Processing/Computational Linguistics

• , , של ועיבוד יצירה ניתוח בהבנה שקשור מה כל) , למשל ) מחשב משפות להבדיל טבעיות שפות

מתיימרים – • איננו משמעות של ייצוג מהווה שפה , " לבצע " אלא משמעות של אמיתית להבנה להגיע

בהבנה החוסר למרות מועילות , או להגיע פעולותלמודלים מקורבים

Page 3: עיבוד שפות טבעיות  מבוא

3

לאפליקציות יישומים/דוגמאותממוחשב • תרגוםמידע • ואחזור חיפושלשאלות – • Question Answeringמענהמידע – • Information Extractionשליפת•: במונחים , טיפול , שמות סיווג דמיון שליפהאוטומטי • תמצות•: הדיבור בתחום אפליקציות

דיאלוג – מערכותשגיאות • ( eg. Microsoft Word)תחביר כתיב ותיקון•) ' , ט ) צ קול חדשים ממשקים

Page 4: עיבוד שפות טבעיות  מבוא

4

Page 5: עיבוד שפות טבעיות  מבוא

5

Page 6: עיבוד שפות טבעיות  מבוא

6

Towards text understanding: Question Answering

Page 7: עיבוד שפות טבעיות  מבוא

7

Page 8: עיבוד שפות טבעיות  מבוא

8

Search may benefit understanding • Query: AIDS treatment

• Irrelevant document:

Hemophiliacs lack a protein, called factor VIII, that is essential for making blood clots. As a result, they frequently suffer internal bleeding and must receive infusions of clotting protein derived from human blood.During the early 1980s, these treatments were often tainted withthe AIDS virus. In 1984, after that was discovered, manufacturersbegan heating factor VIII to kill the virus. The strategy greatlyreduced the problem but was not foolproof. However, many expertsbelieve that adding detergents and other refinements to thepurification process has made natural factor VIII virtually free ofAIDS.

(AP890118-0146, TIPSTER Vol. 1)

• Many irrelevant documents mention AIDS and treatments for other diseases

Page 9: עיבוד שפות טבעיות  מבוא

9

Relevant Document

• Query: AIDS treatment

Federal health officials are recommending aggressive use of a newly approved drug that protects people infected with the AIDS virus against a form of pneumonia that is the No.1 killer of AIDS victims.The Food and Drug Administration approved the drug, aerosol pentamidine, on Thursday. The announcement came as the Centers for Disease Control issued greatly expanded treatment guidelines recommending wider use of the drug in people infected with the AIDS virus but who may show no symptoms.

(AP890616-0048, TIPSTER VOL. 1)

• Relevant documents may mention specific types of treatments for AIDS

Page 10: עיבוד שפות טבעיות  מבוא

10

קשורים מדעיםבלשנות•למידת מכונה והסקה סטטיסטית•פסיכולינגויסטיקה•המחשב )• ( AIמדעי

חיפוש )– ( למשלאלגוריתמיםהמוח )• Cognitive Science)מדעי

Page 11: עיבוד שפות טבעיות  מבוא

11

מחשב שפת לעומת טבעית שפה•) כללי ) באופן מחשב - שפות משמעיות חד הנן

. יכול קומפילר היטב י" )ומוגדרות לתרגם (Parserע: . לדוגמא מכונה שפת לפקודות קוד

שווה – בין הבחנה של יש )=( assignmentבמשמעות. )==(equalityלעומת

פרדיקטים –– על מוגדר סדר יש• a מ dאו cולא bגדול• a > b && !c || d•a > b && )!c || d(•a > b && !)c || d(

Page 12: עיבוד שפות טבעיות  מבוא

12

או ו ו(:orאו )• ואנגלית( ) בעברית משמעי דו היינו

– . תה או קפה לקבל יכול (Exclusive )אתהעוגה – או קפה רוצה (Inclusive )?אתה

• – ( : כמתים טווח דוגמא (quantifier scopeעוד–)" בתחרות" המתחרים שאר כל את ניצחתי כמעט–"? באמת"– , : את" ניצחתי כמעט ירון את ניצחתי כמעט כן

"..., אלון, את ניצחתי כמעט איריס

Page 13: עיבוד שפות טבעיות  מבוא

13

שפה קשה עבריתעברית !• רק לאמלאת • הטבעית משמעויות השפה , רב

: שונות ברמות: כותרת• השבוע בעיתון תמונה

בבאלי" – חולים בית ליד בפיגוע הרוגים גופותהיום."

חולים ?– בית ליד היה הפיגוע האם–? הפיגוע ארע מתי

Page 14: עיבוד שפות טבעיות  מבוא

14

242• "Withdrawal of Israel armed forces

from territories occupied in the recent conflict"

•. הפרוש על מתווכים היום עד

Page 15: עיבוד שפות טבעיות  מבוא

15

משמעות תחביריתרב

הבא • ולפחות 15במשפט )!( 455מיליםאפשריים: תחביריים ניתוחים

List the sales of the products produced in 1973 with the products produced in 1972.

Page 16: עיבוד שפות טבעיות  מבוא

16

Variability of Semantic Expression

Dow ends up

Dow climbs 255

The Dow Jones Industrial Average closed up 255

Stock market hits a record high

Dow gains 255 pointsAll major stock markets surged

Page 17: עיבוד שפות טבעיות  מבוא

17

AI & Turing Test

•NLP- כ ’ AI complete’נחשב

• Turing Test: is a computer program intelligent? )1954(Would a human find out that he speaks with a computer?

Page 18: עיבוד שפות טבעיות  מבוא

18

לשוניידע רמות

ופונולוגיה • פונטיקהמורפולוגיה•(Syntaxתחביר )•סמנטיקה•(Discourseשיח ), פרגמטיקה•כללי )• (World Knowledgeידע

Page 19: עיבוד שפות טבעיות  מבוא

19

ומשפטים למילים הפרדהTokenization & Sentence splitting

Page 20: עיבוד שפות טבעיות  מבוא

20

Tokenization

• ' הקלט ' שבירת היא הראשונית הבעיה. ולמילים למשפטים

•' וכד למספרים גם הכוונה במילים•: הנאיבית הגישה

–‘!','?','.'- ב מסתיים משפט– - ב מופרדת whitespaceמילה

•...: המציאות אך

Page 21: עיבוד שפות טבעיות  מבוא

21

Tokenization Issues

• East Asian Languages• Some punctuation marks are part of

words: .-” etc.

Page 22: עיבוד שפות טבעיות  מבוא

22

Sentence breaks vs. words

גם'.','?','!' ':',';','-','• 'n\ולפעמים• ~ 90% of periods are sentence breaks• State of the art: 99% accuracy )learning

methods( • English capitalization can help• The Problem: period .

– can denote a decimal point )5.6(, an abbreviation )Mr.(, the end of a sentence, thousand segment separator: 3.200 )three-thousand-two-hundred, in Europe(, initials: A. B. Smith, ellipsis …

Page 23: עיבוד שפות טבעיות  מבוא

23

?" מילה " זה מהמילוני )• העצמאית(: למהערך המידע יחידת

בשפה ביותר הקטנהשולחן, למשל: ספר

: לא ed-(walk)(, ספר)האבלShe'dמילה? •• " " " " , יחידה או מחרוזת כל לא כתובה בשפה

: למשל - למה היא ברווחים המוקפתאותו ואכלתיהו - אכלתי ואני

הלקסיקאלית • ליחידה להתייחס מקובל- כ בטקסט tokenהמינימאלית

Page 24: עיבוד שפות טבעיות  מבוא

24

מורפולוגיהמ • מורכבות שהן morphemes - מורפמותמילים

" משמעות" הנושאות ביותר הקטנות המידע יחידותמילים • :הבנויות ממורפמה אחתיש•car, fish•: מורפימות מכמה מורכבת להיות יכולה מילה• + ) ( הם - + ם י סוס סוסיהםמעוניינים במודל למורפולוגיה של השפה•

ניתוח–יצירה–חשיבות: איות, אחזור מידע, תנאי מקדים לניתוח תחבירי –

)ליישומים דקדוקיים וסמנטיים(

Page 25: עיבוד שפות טבעיות  מבוא

25

הרכבת

עצם שםהידיעה . והא . ב כ ר פועל

הפעיל בנייןיחיד זכר עבר

. . ב כ ר פועלהפעיל בניין

יחיד נקבה עבר

השאלה הא. . ב כ ר פועל

פעל בנייןיחיד זכר עבר

עצם שםנסמך

– רב משמעותמורפולוגיה

Page 26: עיבוד שפות טבעיות  מבוא

26

מנגנונים מורפולוגיים - :( affixes)מוספיות

, , וסופית תוכית תחילית•- ל מחולקות affixesול-)אינו בהכרח מילה( stemמיליםהמילה - prefixesתחיליות - • בתחילת המוספות הן•Un-believable, re-directionהמילה - suffixesסופיות - • בסוף מוספות

ing : having, eatingלמשל: שורש- - - infixes תוכיות • או לגזע המוכנסת מורפמה

בעברית בניין הקובעות אותיות למשלעלתרחץ, השהתהתפעל - –

•Circumfix)שילוב של תחילית וסופית )למשל בגרמנית – ( למנגנון concatenativeמבחינים בין מנגנון שרשורי )•

מבוסס תבניות )כגון שורש-בנין בשפות שמיות(

Page 27: עיבוד שפות טבעיות  מבוא

27

inflectionהטיה צרכים שיכול לחול תמידשינוי• מתוך המילה בצורת

.(חלק הדיבר )ואת הלמה את שאינו משנה, תחביריים:למשל

–- ) / רבים ) יחיד number מספרנערות - • נערה

genderמין –נערה - • נער

person גוף–רצנו - • אנחנו רצתי אני

tenseזמן –מערכת ההטיה תלויה בחלק הדיבר )ש"ע, פועל, שם תואר, ...(•מורכבת • ההטיות מערכת בעברית

Page 28: עיבוד שפות טבעיות  מבוא

28

באנגלית הטיות• . יחסית פשוטה ההטיות מערכת באנגלית

משורשרת - מבוססת על מורפולוגיהconcatenative morphology

• : ריבוי עצם שמות עבורכתיב • חוקי מלים orthographic rulesיש למשל

- ב יהיה xשמסתיימות לרבים .s-ולא es-סימון• : יותר מגוונות ההטיות פעלים :עבור

stem, 3rd person, -ing participle, past, past participle 11בטורקית למשל – מערכת שרשורים ענפה )דוגמא עם •

מרכיבים(

Page 29: עיבוד שפות טבעיות  מבוא

29

Morphologi-cal Form Classes

Stem" שורש"

walkmergetrymap

-s formwalksmergestriesmaps

-ingwalkingmergingtryingmapping

Regulary Inflected verbs )by rules(

Page 30: עיבוד שפות טבעיות  מבוא

30

ה )הטיות(מורפולוגיל מידול חישוביניתוח ויצירה

•Morphological analysisמבנה: • ויצירת כלשהו קלט קבלת ניתוח

ממנו.•- כ מילה כקלט יקבל מורפולוגי goingניתוח

הניתוח את כפלט ויחזירהלמה והמאפיינים המורפולוגיים של המילה–

VERB-GO + PARTICIPLE-ing

Page 31: עיבוד שפות טבעיות  מבוא

31

דוגמאות • : ניתוח פשוטה ו נטיות דוגמא עצם פעליםשמותהמטרה: •

: cat + N + PLפלט: catsקלט : goose + N+ PLפלט: geeseקלט : merge + V + PRES-PARTפלט: mergingקלט : catch + V + PAST-PARTפלט: caughtקלט

Page 32: עיבוד שפות טבעיות  מבוא

32

מורפולוגי מטרות מודלניתוח:•

–Recognizer :לא או תקנית היא מילה האם–Stemmer:ה מזהה את צורת( בסיסstem )מילה של–Analyzer :למלים מורפולוגי ניתוח נותן

•Generator :מורפולוגי מניתוח מילים מייצרמסוים

Page 33: עיבוד שפות טבעיות  מבוא

33

Porter Stemmer• Example Rules:• Step 1a

– SSES -> SS (passes pass)– IES -> I (ponies poni, ties ti)– SS -> SS (caress caress)– S (cats cat)

• Step 1b (m – counts “syllables”)– (m>0) EED EE (feed feed, agreed agree)– (*v*) ED (plastered plaster, bled

bled) (*v*) ING (motoring motor, sing sing)

Page 34: עיבוד שפות טבעיות  מבוא

34

Porter Algorithm• Step 2

– (m>0) ATIONAL -> ATE relational -> relate – (m>0) TIONAL -> TION conditional -> condition – (m>0) ENCI -> ENCE valenci -> valence – (m>0) ANCI -> ANCE hesitanci -> hesitance – (m>0) IZER -> IZE digitizer -> digitize – (m>0) ABLI -> ABLE conformabli -> conformable

(m>0) ALLI -> AL radicalli -> radical – (m>0) ENTLI -> ENT differentli -> different

• Etc…

Page 35: עיבוד שפות טבעיות  מבוא

35

הדיבר- חלקי- ניתן• חלקי " המכונות מילים קבוצות למנות

דיבור":עצם )• תואר(, )nounשם (,adjectiveשם

מספר(, )pronounכינוי ) (,verbפועל(, )numeralשםהפועל ) יחס(, )adverbתואר (,prepositionמלת

חיבור ) ...(, conjunctionמלתאחת • חלוקה רק )הקטגוריות העיקריות זו

סטנדרטיות(

Page 36: עיבוד שפות טבעיות  מבוא

36

דוגמאThe yinkish dripner blorked

quastofically into the nindin with the pidibs.

• yinkish -adj quastofically -adverb• dripner -noun pidibs -noun• blorked -verb nindin -noun

• We determine the P.O.S of a word by the affixes that are attached to it and by the syntactic context (where in the sentence) it appears in.

Page 37: עיבוד שפות טבעיות  מבוא

37

עצם שמות• Nouns

– Affixes: -s, 's, -ness, -ment, -er, …– Occur with determiners (a,the,this,some…)– can be a subject of a sentence.

• Semantically: can be concrete – chair, train, or abstract – relationship.

: גם• , למשל פעולה לאכול, שמות eating, אכילה

Page 38: עיבוד שפות טבעיות  מבוא

38

Types of Nouns• Important to distinguish noun types – have

different morphological and syntactic properties• Proper Nouns:

– David, Israel, Microsoft– Aren’t preceded by articles– Capitalized )In English(

• Common Nouns:– Count Nouns:

• allow grammatical enumeration )book, books(• can be counted )one apple, 50 thoughts(

– Mass Nouns: snow, salt, communism, … )no plural(

Page 39: עיבוד שפות טבעיות  מבוא

39

Verbs

תהליכים • או לפעולות המתייחסות מילים–Main verbs – draw, provide, differ–Auxiliaries )closed-class( – have )also main(,

been… ,מורפולוגית • הטיה של פעלים: זמן, מערכת

גוף, מין )לא באנגלית(, מספר–eat, eats, eating, eaten

Page 40: עיבוד שפות טבעיות  מבוא

40

Adjectives

עצם • בשם משהו מתארכוללות • רבות :שפות

(yellow, greenצבעים )–(young, oldגילאים )––. (good, bad ) וערכים

Page 41: עיבוד שפות טבעיות  מבוא

41

Adverbs

פועל • על משהו מתאר• Unfortunately, John walked home extremely slowly yesterday

• Directional: sideways, downhill• Locative: home, here• Degree: extremely, somewhat• Manner: slowly, delicately• Temporal: yesterday, Monday

Page 42: עיבוד שפות טבעיות  מבוא

42

Part-Of-Speech Taggingדיבר • חלקי השמת של התהליך הוא סימון )תיוג או

אחר בקורפוס. ( token)מילה מופע לכל (לקסיקליפיסוק • סימני על גם כלל בדרך מתבצע תיוג•- ו מילים רצף הוא .tagsetהקלט•. המילים מן אחת כל עבור ביותר הטוב התיוג הוא הפלט• – , היא המרכזית :ambiguityוהבעייה

–Time flies like an arrow/ Fruit flies like an apple –I can can my can /נעלה נעלה נעלה ...ואישה הדלת את נעלה

תואר פועל ש"ע פועל

Page 43: עיבוד שפות טבעיות  מבוא

43

State of the Art

• A dumb English tagger that simply assigns the most common tag to each word achieves ~90%

• Best approaches give ~96/97% • This still means that there will be on average one

tagging error per sentence• Tagging is much more difficult if we do not have a

lexicon and/or training corpus or if we use a tagger across domains and genres.

Page 44: עיבוד שפות טבעיות  מבוא

44

מתייגיםחוקים- • מבוססי

ידני – של חוקיםקידוד ביטויים רגולריים, מערכת לבדיקת התאמת חוקים - בדר"כ מבוסס•

והפעלה שלהם

–Transformation-based tagging )learning( • Stochastic Tagging - הסתברותיים

–HMM–Maximum entropy–Classifier based )e.g. SVM(

Page 45: עיבוד שפות טבעיות  מבוא

45

Supervised Learning Scheme

ClassificationModel

“Labeled”Examples

NewExamples Classifications

Training Algorithm

ClassificationAlgorithm