stat- xfer

104
Stat-Xfer םםםםם םםםםם םםםםם םםםםם םם םםםםםםם םםםםםםםםםStat-XFER: A General Search-based Syntax-driven Framework for Machine Translation Alon Lavie, CICLing 2008 םםםםםם: םםםם םםםםם םםםםם םםם,05/01/2012 םםםם: םםםםםםם םםםם םםםםם םםםםם םםםםםםם םםםםםםם,236817 , םםםםםםם םםםםם םםםםם, םםםםםםם.1

Upload: melissa-greer

Post on 02-Jan-2016

57 views

Category:

Documents


0 download

DESCRIPTION

Stat- Xfer. תרגום מכונה מבוסס העברה עם אלמנטים סטטיסטיים Stat-XFER: A General Search-based Syntax-driven Framework for Machine Translation Alon Lavie, CICLing 2008. מציגים: יוגב וקנין ועומר טבח,05/01/2012 מנחה:פרופסור עוזי אורנן סמינר בבלשנות חישובית, 236817, - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Stat- Xfer

Stat-Xferסטטיסטיים אלמנטים עם העברה מבוסס מכונה תרגום

Stat-XFER: A General Search-based Syntax-driven Framework for Machine TranslationAlon Lavie, CICLing 2008

05/01/2012יוגב וקנין ועומר טבח, מציגים:

פרופסור עוזי אורנןמנחה:,236817סמינר בבלשנות חישובית,

1הפקולטה למדעי המחשב, הטכניון.

Page 2: Stat- Xfer

מכונות תרגום מסורתיות:•מכילות פורמליזם עשיר שמעביר מבעים בין שתי השפות.–בדרך כלל בנויות באופן ידני ע"י מומחים.–אתגר מרכזי: להגיע ולתחזק כיסוי רחב.–

כיסוי של תחום ספציפי אינו מתמודד עם דו משמעותיות –רבה.

תרגום מכונה סטטיסטי•למידה אוטומטית של מילים וביטויים תואמים מקורפוסים –

מקבילים נרחבים.פענוח מבוסס חיפוש במרחב התרגומים האפשריים.–האתגר העיקרי: להגיע ולתחזק דיוק גבוה.–

תרגום מבוסס חוקים אל מול תרגום סטטיסטי

2

Page 3: Stat- Xfer

בניית מערכת לפיתוח מכונות תרגום מבוססות העברהעם אלמנטים סטטיסטים. כפי שיוסבר בהמשך.

.בניית אפשרות אוטומטית ללמידת כללי העברה מתן פתרון הן לשפות בעלות קורפוסים מקבילים

נרחבים והן לשפות דלות קורפוסים. יכולת להתמודד עם שפות עשירות מורפולוגית )לדוגמה

עברית(.

מטרות המחקר

3

Page 4: Stat- Xfer

הצגת המערכתStat XFer.חלקי המערכת.◦האתגרים בבניית מכונת תרגום לשפה העברית.◦

.הצגת אלגוריתם לייצור אוטומטי של כללי העברה הצגת אלגוריתם ליישור אוטומטי של קורפוסים

דו-לשוניים..דוגמת הרצה.מצב המערכת כיום

תוכן ההרצאה

4

Page 5: Stat- Xfer

:קלט בעבריתעיבוד מקדים שמבצע העברה לצורה פונמית.◦עבור כל מילה בונים שריג המכיל את המשמעויות האפשריות ◦

שלה.ניתוח מורפולוגי של כל אפשרות המוסיף תכונות דקדוקיות, ◦

למשל מספר.

מרכיבי המערכת

5

Page 6: Stat- Xfer

מרכיבי המערכת

:" בשורה – " עבור השריג לדוגמה

ה ׂשֹור/ ְּב2ה ׁשּור/ )בלתי מיודע(ְּב2

ה ׁשּור/ )מיודע(ְּב6

)שייכות( ׁשֹורּה

6

Page 7: Stat- Xfer

מרכיבי המערכת- לקסיקון התרגום

7

Page 8: Stat- Xfer

מרכיבי המערכת – לקסיקון התרגום

PRO::PRO |: ["ANI"] -> ["I"]((X1::Y1)((X0 per) = 1)((X0 num) = s)((X0 case) = nom))

PRO::PRO |: ["ATH"] -> ["you"]((X1::Y1)((X0 per) = 2)((X0 num) = s)((X0 gen) = m)((X0 case) = nom))

N::N |: ["$WR"] -> [“bull"]((X1::Y1)((X0 NUM) = s)((Y0 NUM) = s)((Y0 lex) = “BULL"))

N::N |: ["$WRH"] -> [“line"]((X1::Y1)((X0 NUM) = s)((Y0 NUM) = p)((Y0 lex) = “LINE"))

.)דוגמא לכללים בלקסיקון. )פירוט בהמשך

8

Page 9: Stat- Xfer

לקסיקון התרגום- מרכיבי הכללים:תפקידה מרכיב ראשון

הדקדוקי של המילה המתורגמת בשתי השפות.

PRO::PRO |: ["ANI"] -> ["I"]((X1::Y1)((X0 per) = 1)((X0 num) = s)((X0 case) = nom))

PRO::PRO |: ["ATH"] -> ["you"]((X1::Y1)((X0 per) = 2)((X0 num) = s)((X0 gen) = m)((X0 case) = nom))

9

Page 10: Stat- Xfer

לקסיקון התרגום- מרכיבי הכללים מרכיב שני: המילה

המתורגמת עצמה בשתי השפות.

PRO::PRO |: ["ANI"] -> ["I"]((X1::Y1)((X0 per) = 1)((X0 num) = s)((X0 case) = nom))

PRO::PRO |: ["ATH"] -> ["you"]((X1::Y1)((X0 per) = 2)((X0 num) = s)((X0 gen) = m)((X0 case) = nom))

10

Page 11: Stat- Xfer

לקסיקון התרגום- מרכיבי הכללים מרכיב שלישי: תכונות

הנוספות לכלל.בדוגמא:◦

per.גוף, ראשון – Num.מספר, יחיד - Gen.מין, זכר – Case יחסה, יחסת נושא/נשוא –

(Nominative)

PRO::PRO |: ["ANI"] -> ["I"]((X1::Y1)((X0 per) = 1)((X0 num) = s)((X0 case) = nom))

PRO::PRO |: ["ATH"] -> ["you"]((X1::Y1)((X0 per) = 2)((X0 num) = s)((X0 gen) = m)((X0 case) = nom))

11

Page 12: Stat- Xfer

מרכיבי המערכת- חוקי העברה

12

Page 13: Stat- Xfer

כללי ההעברה קובעים את הדרך שבה צריכים להיּתרגםקטעי משפטים.

)לדוגמא: )פירוט בהמשך

מרכיבי המערכת – כללי העברה

{NP1,2};;SL: $MLH ADWMH;;TL: A RED DRESS

NP1::NP1 [NP1 ADJ] -> [ADJ NP1]((X2::Y1)(X1::Y2)((X1 def) = -)((X1 status) =c absolute)((X1 num) = (X2 num))((X1 gen) = (X2 gen))(X0 = X1))

13

Page 14: Stat- Xfer

טיפוס הכלל: ראש כלל הגזירה. כלומר האם הכלל הזהמייצג משפט או צירוף פעלי או צירוף שמני וכו'.

מרכיבי המערכת – כללי העברה

{NP1,1};;SL: $MLH ADWMH;;TL: A RED DRESS;;Score:2;NP1::NP1 [NP1 ADJ1] -> [ADJ1 NP1]((X2::Y1)(X1::Y2)((X1 def) = (X2 def))((X1 num) = (X2 num))((X1 gen) = (X2 gen))((X1 status) =c absolute)) 14

Page 15: Stat- Xfer

:דוגמה לתרגום בין השפות המיישם כלל זה >- שמלה אדומהa red dress.צריך להביא אותן[ההערות מוזנות ע"י מחבר הכלל[

מרכיבי המערכת – כללי העברה

{NP1,1};;SL: $MLH ADWMH;;TL: A RED DRESS;;Score:2;NP1::NP1 [NP1 ADJ1] -> [ADJ1 NP1]((X2::Y1)(X1::Y2)((X1 def) = (X2 def))((X1 num) = (X2 num))((X1 gen) = (X2 gen))((X1 status) =c absolute)) 15

Page 16: Stat- Xfer

.ציון לכלל, מרכיב אופציונלי הניתן ע"י מחבר הכלל]?? [

מרכיבי המערכת – כללי העברה

{NP1,1};;SL: $MLH ADWMH;;TL: A RED DRESS;;Score:2;NP1::NP1 [NP1 ADJ1] -> [ADJ1 NP1]((X2::Y1)(X1::Y2)((X1 def) = (X2 def))((X1 num) = (X2 num))((X1 gen) = (X2 gen))((X1 status) =c absolute)) 16

Page 17: Stat- Xfer

מרכיבי הכלל: צד ימין ושמאל של כלל הגזירה, מה סוגחלק הדיבר של הביטוי המתורגם והנגזר בשפת המקור

ובשפת היעד..בדוגמה, הן המקור והן היעד הם צרוף שמני

מרכיבי המערכת – כללי העברה

{NP1,1};;SL: $MLH ADWMH;;TL: A RED DRESS;;Score:2;NP1::NP1 [NP1 ADJ1] -> [ADJ1 NP1]((X2::Y1)(X1::Y2)((X1 def) = (X2 def))((X1 num) = (X2 num))((X1 gen) = (X2 gen))((X1 status) =c absolute)) 17

Page 18: Stat- Xfer

סימנים מפורשים יקבעו אילו מרכיבי כלל בשפת המקורמקבילים לאילו מרכיבי כלל בשפת היעד, ומה יהיה

השינוי בסדר חלקי הדיבר. :הסברים כאלה צריכים להיות גם קודם[ לדוגמה[

◦[NP1 ADJ1[ >- ]ADJ1 NP1קובע את ] סדר חלקי המשפט במקור וביעד.

◦(X2::Y1 מציין שהמילה השניה בצד – )המקור מתאימה למילה הראשונה ביעד

מרכיבי המערכת – כללי העברה

{NP1,1};;SL: $MLH ADWMH;;TL: A RED DRESS;;Score:2;NP1::NP1 [NP1 ADJ1] -> [ADJ1 NP1]((X2::Y1)(X1::Y2)((X1 def) = (X2 def))((X1 num) = (X2 num))((X1 gen) = (X2 gen))((X1 status) =c absolute)) 18

Page 19: Stat- Xfer

, מגבלות צד שמאלX מתייחס לשפת המקור , SL.בדוגמא:◦

Def אם המילה הראשונה מיודעת הרי שגם על השנייה להיות :מיודעת.

Num.על המספר של שתי מילות המקור להיות זהה :Gen.המין של שתי המילים זהה :Status)נפרד )שאינו נסמך :

= אופרטורc.מוגדר כבר

מרכיבי המערכת – כללי העברה

{NP1,1};;SL: $MLH ADWMH;;TL: A RED DRESS;;Score:2;NP1::NP1 [NP1 ADJ1] -> [ADJ1 NP1]((X2::Y1)(X1::Y2)((X1 def) = (X2 def))((X1 num) = (X2 num))((X1 gen) = (X2 gen))((X1 status) =c absolute)) 19

Page 20: Stat- Xfer

,מגבלות צד ימיןY מתייחס לשפת היעד , TL.בדוגמה ניתן לראות כי המגבלה היא שהמילה הראשונה בשפת ◦

היעד תהיה בזמן הווה.

מרכיבי המערכת – כללי העברה

;;SL: AWKL;;TL: EATS;;Score:34VB::VB [V] -> [V]((X1::Y1)((Y1 tense) = present)((Y1 per) = (X1 per))((Y1 num) = (X1 num))(X0 = X1)((X0 tense) <= present)(Y0 = Y1)) 20

Page 21: Stat- Xfer

מגבלות צדXY משותפות לשניהם. מגבלות ,המשותפות לשני הצדדים, כאן למשל נדרש שהמספר של המילה השלישית בשפת המקור יהיה זהה למספר

של המילה הראשונה בשפת היעד.

מרכיבי המערכת – כללי העברה

;;{NP,4};;SL: H SPR H ZH;;TL: this BOOK;;Score:9NP::NP [NP2 "H" PRO] -> [PRO NP2]((X1::Y2)(X3::Y1)((X1 def) =c true)((Y1 num) = (X3 num))(X0 = X1)(Y0 = Y2)) 21

Page 22: Stat- Xfer

סיכום קצר על כללי תרגום ועל כללי לקסיקון

.מדובר באוסף של מגבלות על כללי הגזירהתכונות שנוספות לכללים הנגזרים- כפי שידוע מקורס קומפילציה.◦

כלליX.מתייחסים לשפת המקור מהווים מגבלות על הדרכים בהן ניתן לגזור את הקלט.◦

כלליY.מתייחסים לשפת היעד מהווים מגבלות על המילים שניתן לגזור בפלט.◦

כלליXY.מתייחסים הן לשפת המקור והן לשפת היעד מהווים מגבלות על כללי ההעברה שניתן להפעיל.◦

22

Page 23: Stat- Xfer

מרכיבי המערכת

23

Page 24: Stat- Xfer

במהלך ריצת מנוע ההעברה מתוחזק מבנהנתונים שמחזיק את התרגומים החלקיים.

אתחול מנוע ההעברה: תרגום ישיר של כל מילהאו צרוף משפת המקור לשפת היעד ושמירת

התרגומים, כולל מצביעים למקור שלהם.לכל מילה מוחזקים כל התרגומים של כל המשמעויות ◦

שלה.בנוסף נשמר ציון לכל תרגום.◦משתמש בלקסיקון התרגום.◦

מרכיבי המערכת – מנוע ההעברה

24

Page 25: Stat- Xfer

:עד שהמקור מנותח במלואועוברים על הקלט מצד המקור.◦בכל פעם שנתקלים בצירוף המתאים לכלל הגזירה ◦

בשפת המקור, מתרגמים אותו ע"פ כלל זה ושומרים את התוצאה.

לכל תרגום ניתן ציון.◦:צמצום כמות התרגומים האפשריים

בכל צעד מוחקים את התרגומים עם הציון הנמוך ◦ממבנה הנתונים של התרגומים.

ריצת מנוע ההעברה

25

Page 26: Stat- Xfer

פלט מנוע ההעברה בסיום ריצת מנוע ההעברה קיימות במבנה הנתונים

מס' יחידות תרגום- כל אחת עם המידע לאיזה קטע מהמקור היא מתייחסת ומה סבירות ההתאמה שלה.

בדוגמא, בכל יחידת תרגום:◦ המס' הראשון מתייחס למילה הראשונה בקטע המקור המתאים

ליחידה. המס' השני מתייחס למילה האחרונה בקטע המקור המתאים

ליחידה..במרכאות מופיע התרגום עצמו.לאחר מכן מופיע חלק הדיבר של התרגום

בדוגמאLINE$'מתייחס ל WRH,'.והוא ש"ע

26

Page 27: Stat- Xfer

ציון של פיסת תרגום נועד לשקף את הסתברות הדיוקשל אותו תרגום.

:ציון של פיסת תרגום מתקבל ממספר גורמיםשימוש במודל השפה האנגלית: ההסתברות שתופיע מילה ◦

מסוימת בהינתן שקדמו לה מילים מסוימות אחרות. למשל ההסתברות לקבלתMilk בהינתן Drinks גבוהה

.Drinks בהינתן Tallowמהסתברות התאמת אורך בין התרגומים.◦

.כלומר, סביר שמעט מילים יּתרגמו למעט מיליםהסתברות להופעה דו-לשונית. הסתברות להקבלה בין שפות ◦

של ביטויים או מילים. תלוי בהינתנו של מילון עם סבירויות, למשל, ניתוח, סביר

”.Operation” יותר מאשר “Analysisשיתורגם ל-“

איך נותנים ציון

27

Page 28: Stat- Xfer

חלקי המערכת – מפענח שפת היעד

28

Page 29: Stat- Xfer

חלקי המערכת – מפענח שפת היעד

בסיום ריצת מנוע ההעברה קיימות במבנה הנתוניםמס' יחידות תרגום- כל אחת עם המידע לאיזה קטע

מהמקור היא מתייחסת ומה סבירות ההתאמה שלה. מפענח שפת היעד מחפש רצף של תרגומים מתחילת

הטקסט ועד סופו הנותן ציון מקסימאלי.התרגומים ברצף אינם חופפים.◦

המפענח מחפש את הרצף בעל הציון הגבוה ביותרהמתחיל בדיוק בתחילת היחידה ומסתיים בדיוק בסופּה

ולא מכיל חפיפות.

29

Page 30: Stat- Xfer

.רב משמעותיות.ניקוד - חלק מהקורפוסים מנוקדים וחלקם לא.חוסר בקורפוסים.אי קיומו של מודל הסתברותי לשפה

בעיות תרגום בשפה העברית

30

Page 31: Stat- Xfer

רב משמעותיותהתייחסות לכל המשמעויות האפשריות במהלך הניתוח.◦

ניקודפיתוח סקריפט שמתרגם מילה מנוקדת למילה לא מנוקדת ◦

והעברה לכתב פונמי בא"ב לטיני. חוסר בקורפוסים

הכנסה ידנית של כללי העברה.◦יצירת לקסיקון תרגום באמצעות מילון.◦

אי קיומו של מודל הסתברותי לשפהמתן ציון שווה לכל המופעים של המילים.◦

התמודדות עם הבעיות

31

Page 32: Stat- Xfer

: אלגוריתם PFAאלגוריתם אוטומטי ליצירת כללי

העברהSyntax-driven Learning of Sub-sentential Translation Equivalents and Translation Rules from Parsed Parallel CorporaAlon Lavie et al., 2008

32

Page 33: Stat- Xfer

לעיתים קיים קורפוס דו לשוני רחב ומיושר מילים, ונרצהלקבל ממנו כללי העברה באופן אוטומטי.

יישור מילים: קשר של התאמת מילים בשני טקסטים שורה מול ◦שורה או מילה מול מילה.

בהינתן זוג משפטים מיושרי מילה והעצים הסינטקטייםשלהם האלגוריתם ייצור כללי העברה.

הצורך באלגוריתם אוטומטי ליצירת כללי העברה

33

Page 34: Stat- Xfer

דוגמא לטקסט מיושר מילים ועץ הגזירה שלו.

34

Page 35: Stat- Xfer

כידוע – המשפט היסודי של האריתמטיקה – "לכלמספר, קיים פרוק יחיד למכפלה של ראשוניים עד כדי

סדר"..אנו נשתמש בעובדה זו

המשפט היסודי

35

Page 36: Stat- Xfer

לכל עלה בעץ ולעלה שמקושר אליו בעץ השני נקצהמספר ראשוני.לעלים שאינם מיושרים נקצה את

.1המספר

הקצאת מספרים לצמתים

36

Page 37: Stat- Xfer

נבצע מעבר על הגרףbottom-up כל צומת אב יכיל ,את הערך המספרי שהוא מכפלה של בניו.

הקצאת מספרים לצמתים

37

Page 38: Stat- Xfer

יחס אחד-לרבים הוא מקרה מיוחד, אם מילה יחידהמיושרת למספר מילים מקצים לאותן מילים את אותו

המספר הראשוני כמו המילה היחידה.

מקרים מיוחדים

38

Page 39: Stat- Xfer

על ידי שימוש בנתונים הדקדוקיים של הצמתיםהפנימיים בתתי העצים המיושרים נוכל להסיק חוקים

כללים יותר. בדוגמה שלנו ניתן למשל להסיק את הכלל בעל המבנה הבא:

חילוץ חוקים

“Have diplomatic relations with North Korea”

“ 北韓 有 邦交”39

Page 40: Stat- Xfer

על מנת ליצור מילון ביטויים נצמיד זוגות של צמתים בעלימספר זהה, חלק המשפט הנגזר מכל אחד מהצמתים מתאים

לחלק המשפט השני הנגזר מאותם צמתים.בדוגמה: הביטויים שחולצו מהעץ שהראינו.◦

מונים כל הופעה של תרגום ביטוי ע"מ לאמוד סטטיסטית אתהסבירות שתרגום זה מתאים לביטוי.

חילוץ ביטויים

40

Page 41: Stat- Xfer

סיכום אלגוריתם אוטומטי ליצירת כללי העברה

.אלגוריתם מהיר ומדוייק ליצירת כללי העברה

מהווה שלב מקדים לתרגום מכונה שראינו בחלקהקודם.

41

Page 42: Stat- Xfer

אלגוריתם אוטומטי ליישור קורפוסים

Fast and Accurate Sentence Alignment of Bilingual CorporaRobert C. Moore, 2002

42

Page 43: Stat- Xfer

קלט לתת ע"מ אוטומטים קורפוסים ביישור צורך קיים ה- דוגמת כללי PFAלאלגוריתמים להסיק שמטרתם ,

גזירה מתוך טקסטים מתורגמים מקבילים.אלגוריתמים מסוג זה תלויים בכך שהקורפוסים מיושרים.◦

.לא כל קורפוס מתורגם הוא מיושר באופן מיידי.המטרה היא ללמוד מקורפוסים שתורגמו באופן ידני

הצורך ביישור קורפוסים אוטומטי

43

Page 44: Stat- Xfer

The Michigan School Moderator, 1885

“The quick brown fox jumps over the lazy dog.”

" השועל החום הזריז קופץמעל הכלב העצל"

1:1דוגמת יישור של

44

Page 45: Stat- Xfer

.2011 לדצמ' 8גדעון לוי,

“It happens a lot. A figure once

significant in our lives fades away gradually.”

זה קורה לא אחת: דמות"שהייתה משמעותית בחיינו

נעלמת מהם בהדרגה."

1:2דוגמאות יישור

45

Page 46: Stat- Xfer

~Richard Stallman

‘Free software is a matter of liberty, not price.

Free as in speech, not as in free beer.’

תוכנה חופשית זה עניין שלחירות, לא של מחיר.

0:1דוגמאות יישור

46

Page 47: Stat- Xfer

-ישראל גוטר.

The girl visited yesterday in Tel-Aviv.

The father of this beatiful girl, that works in the Technion, came also.

.הילדה יפה היא ביקרה אתמול עם אביה

בתל אביב..אביה עובד בטכניון

דוגמת יישור מסובכת

47

Page 48: Stat- Xfer

1:1לו כל המתרגמים דבקים היו בעקרון של,העבודה שלנו הייתה קלה יותר.◦רמת הטקסטים המתורגמים הייתה נמוכה יותר.◦

.במציאות תרגומים רבים מכילים יחסים שונים(* (.N(:*)M) ועוד ) 1:0, 2:1◦

האתגר ביישור קורפוסים אוטומטי

48

Page 49: Stat- Xfer

כן קיימים מקרים של הזזה, בהם למרות שהיחס הוא- סדר המשפטים שונה, או אפילו סדר הפסקאות 1:1

שונות. משפטים 90,000 מהרווארד דיווח על Chenחוקר בשם ◦

שהיו חסרים בתרגום דיוני הפרלמנט הקנדי. צריך להתבצע בתנאים בהם לא תמיד יודעים הרבה

על השפה.

האתגר ביישור קורפוסים אוטומטי

49

Page 50: Stat- Xfer

.ניתן לבצע יישור ידניאיטי, יקר ומועד לטעויות.◦

קיימים מנתחים אוטומטים ליישור קורפוסים וייצור עציגזירה.

מקורות קודמים לקורפוסים מיושרים

50

Page 51: Stat- Xfer

.מתבצע בשלושה שלביםיישור גס◦IBM של 1אימון מודל ◦יישור עדין המסתמך על הקשרים שבין מילים.◦

יישור קורפוסים מהיר ומדויק בקווים כלליים

51

Page 52: Stat- Xfer

ההנחה שאם שני משפטים הם מאורך דומה- כך סבירשהם תואמים זה לזה.

:אלגוריתם תכנות דינאמינחשב אורך לכל משפט.◦הענקת ציון לסיכוי ששני משפטים תואמים.◦הנחה שאורכי המשפטים מתפלגים נורמאלית.◦

ישור גס לפי אורכי משפטיםשלב ראשון:

52

Page 53: Stat- Xfer

בטבלה, העמודות מתייחסות למשפטים בשפת המקורוהשורות למשפטים בשפת היעד.

האלגוריתם יתן ציון לכל התאמה של זוג משפטים ויבחראת ההתאמה שנותנת ציון מקסימלי.

דוגמה

11 10 9 8 7 6 5 4 3 2 1 יעד\ מקור

0.5 0.3 0.7 0.3 0.2 0.2 0.2 0.3 0.1 0.1 0.6 1

0.7 0.4 0.6 0.9 0.1 0.6 0.8 0.8 0.0 0.5 0.9 2

0.5 0.6 1.0 0.5 0.1 0.7 0.3 0.8 0.9 0.4 0.4 3

0.1 0.4 0.6 0.6 0.8 0.4 0.2 0.9 0.8 0.6 0.5 4

0.2 0.1 0.5 0.1 0.8 0.6 0.8 0.5 0.7 0.4 1.0 5

0.8 0.4 0.4 0.8 0.3 0.7 0.5 0.8 0.2 0.2 0.2 6

0.3 0.8 0.7 0.7 0.4 0.9 1.0 0.9 0.6 0.7 0.2 7

0.4 0.8 0.1 0.2 0.0 0.1 0.2 0.1 0.7 0.4 0.9 8

1.0 0.6 0.8 0.9 0.2 0.1 0.7 0.3 0.7 0.5 0.9 9

1.0 0.9 0.1 0.8 0.7 0.7 0.6 0.8 0.3 0.7 0.6 10

0.3 0.6 0.7 0.4 0.1 0.3 0.7 0.8 0.5 0.5 0.3 11

53

Page 54: Stat- Xfer

:בעיות.1:1לא מתמודד עם יחסים מסובכים יותר מ-◦כאשר מדובר בטקסטים גדולים סיבוכיות ריבועית הינה ◦

משמעותית. במאמר המקורי הציעו לצמצם את הקלט ע"י חלוקה מלאכותית

של הטקסט, למשל לפי פסקאות.צורך לכייל קבועים במודל התפלגות נורמאלית.◦

ישור גס לפי אורכי משפטיםשלב ראשון:

54

Page 55: Stat- Xfer

שימוש באבחנה לפיה רוב הסיכויים שסדר המשפטיםלא השתנה יותר מדי.

,שימוש באלגוריתם ויוריסטיקה לחיפוש באיזור מצומצםוהרחבתו באיטרציות עד לקבלת ציון מספק )פירוט

בשקפים הבאים(. מתאימה יותר ]הסבר?[הבחנה שהתפלגות פואסונית

מנורמאלית- ובכך מייתר את כיול הקבועים )תוחלת ושונות(.

ישור המתבסס על אורכי משפטים: שיפורים

55

Page 56: Stat- Xfer

בתחילה האלגוריתם מחפש התאמה באיזור צר מסביבלאלכסון הראשי של המטריצה. זאת בהתבסס על

ההנחה שהמשפטים אינם רחוקים זה מזה בשני הטקסטים.

אופן פעולת האלגוריתם:

24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 יעד\ מקור

                                        0.6 0.5 0.5 0.7 1

                                      0.7 0.9 0.5 0.9 0.7 2

                                    0.4 0.6 0.0 0.0 0.9 0.6 3

                                  0.8 0.5 0.3 0.1 0.9 0.5 0.5 4

                                0.1 0.3 0.3 0.6 0.4 0.3 0.3   5

                              0.3 0.8 0.7 0.8 0.4 0.1 0.6     6

                            0.3 0.4 0.8 0.1 0.9 0.0 0.6       7

                          0.3 0.0 0.9 1.0 0.5 0.9 0.8         8

                        0.5 0.8 0.4 0.2 0.6 0.7 0.3           9

                      0.7 0.1 0.3 0.7 0.4 0.7 0.8             10

                    0.8 0.9 0.4 0.1 0.2 0.7 0.8               11

                  0.8 0.9 0.1 0.7 0.5 0.9 0.6                 12

                0.6 0.7 0.3 0.3 1.0 0.7 0.2                   13

              0.5 0.4 1.0 0.6 0.4 0.8 0.4                     14

            0.4 0.7 0.8 0.2 0.6 0.0 0.2                       15

          0.8 0.8 0.9 0.6 0.2 0.1 1.0                         16

        0.5 0.1 0.4 0.4 0.4 0.1 0.4                           17

      1.0 0.5 0.2 0.5 0.7 0.0 0.1                             18

    0.4 0.9 0.8 1.0 0.4 0.6 0.1                               19

  0.9 0.1 0.9 0.5 0.2 0.9 0.0                                 20

0.7 0.6 0.7 0.8 0.6 0.7 0.7                                   21

0.2 0.8 0.7 0.5 0.4 0.3                                     22

0.2 0.4 0.4 0.8 0.6                                       23

0.9 0.8 0.1 0.8                                         24

56

Page 57: Stat- Xfer

באם אחת ההתאמות קרובה לשולי איזור החיפוש)האלכסון( נרחיב את איזור החיפוש ונחפש בשנית.

אופן פעולת האלגוריתם:

24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 יעד\ מקור

                                        0.6 0.5 0.5 0.7 1

                                      0.7 0.9 0.5 0.9 0.7 2

                                    0.4 0.6 0.0 0.0 0.9 0.6 3

                                  0.8 0.5 0.3 0.1 0.9 0.5 0.5 4

                                0.1 0.3 0.3 0.6 0.4 0.3 0.3   5

                              0.3 0.8 0.7 0.8 0.4 0.1 0.6     6

                            0.3 0.4 0.8 0.1 0.9 0.0 0.6       7

                          0.3 0.0 0.9 1.0 0.5 0.9 0.8         8

                        0.5 0.8 0.4 0.2 0.6 0.7 0.3           9

                      0.7 0.1 0.3 0.7 0.4 0.7 0.8             10

                    0.8 0.9 0.4 0.1 0.2 0.7 0.8               11

                  0.8 0.9 0.1 0.7 0.5 0.9 0.6                 12

                0.6 0.7 0.3 0.3 1.0 0.7 0.2                   13

              0.5 0.4 1.0 0.6 0.4 0.8 0.4                     14

            0.4 0.7 0.8 0.2 0.6 0.0 0.2                       15

          0.8 0.8 0.9 0.6 0.2 0.1 1.0                         16

        0.5 0.1 0.4 0.4 0.4 0.1 0.4                           17

      1.0 0.5 0.2 0.5 0.7 0.0 0.1                             18

    0.4 0.9 0.8 1.0 0.4 0.6 0.1                               19

  0.9 0.1 0.9 0.5 0.2 0.9 0.0                                 20

0.7 0.6 0.7 0.8 0.6 0.7 0.7                                   21

0.2 0.8 0.7 0.5 0.4 0.3                                     22

0.2 0.4 0.4 0.8 0.6                                       23

0.9 0.8 0.1 0.8                                         24

57

Page 58: Stat- Xfer

.נחפש מחדש באיזור המורחב.באם אף אחת מההתאמות לא קרובה לשוליים נעצור

אופן פעולת האלגוריתם:

24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 יעד\ מקור

                                    0.6 0.3 0.6 0.5 0.6 0.4 1

                                  0.4 0.5 0.9 0.3 0.0 0.7 0.1 2

                                0.3 0.9 0.9 0.9 1.0 0.9 0.8 0.3 3

                              1.0 0.7 0.7 0.7 0.0 0.2 0.7 0.9 1.0 4

                            0.6 0.6 0.4 0.3 0.4 0.4 0.8 0.3 0.3 0.4 5

                          0.6 0.7 0.6 0.7 0.6 0.9 0.0 0.9 0.7 0.0 0.6 6

                        0.4 1.0 0.9 0.9 0.1 0.8 0.4 0.4 0.8 0.2 0.0   7

                      0.7 0.6 0.8 0.6 1.0 0.8 1.0 0.6 0.7 0.0 0.0     8

                    0.9 0.8 0.6 0.1 0.8 0.7 0.1 0.8 0.5 0.3 0.6       9

                  0.0 0.3 1.0 0.4 0.6 1.0 0.1 0.0 0.3 0.1 0.4         10

                1.0 0.6 0.8 0.8 0.7 0.0 1.0 0.1 0.5 0.9 0.2           11

              0.9 0.3 0.3 0.9 0.6 0.4 0.6 0.6 0.1 0.5 0.9             12

            1.0 0.6 0.6 0.5 0.2 0.1 0.9 0.8 0.6 0.6 0.2               13

          0.8 0.3 0.7 0.3 0.1 0.5 0.1 0.2 0.0 0.4 0.7                 14

        0.2 0.1 0.3 0.1 0.2 0.7 0.0 0.9 0.1 0.8 0.1                   15

      1.0 0.9 0.1 0.9 0.4 0.7 0.2 0.1 0.8 0.7 0.8                     16

    0.6 0.6 0.8 0.9 0.8 0.5 0.0 0.1 0.2 0.8 1.0                       17

  0.5 0.2 0.1 0.0 0.3 0.0 0.6 0.0 0.7 0.3 0.5                         18

0.9 0.8 0.5 0.3 0.6 0.8 0.5 0.3 0.4 0.3 0.3                           19

0.0 0.6 0.1 0.4 0.9 0.7 1.0 0.2 0.5 0.1                             20

0.8 0.0 0.2 0.9 0.5 0.5 0.8 0.5 0.0                               21

0.2 0.1 0.5 0.9 0.7 0.4 0.6 0.3                                 22

0.2 0.3 0.4 0.5 0.9 0.1 0.1                                   23

0.0 0.0 0.9 0.0 0.5 0.5                                     2458

Page 59: Stat- Xfer

.מתבצע בשלושה שלביםיישור גס◦IBM של 1אימון מודל ◦יישור עדין המסתמך על הקשרים שבין מילים.◦

יישור קורפוסים מהיר ומדויק בקווים כלליים

59

Page 60: Stat- Xfer

בשלב זה ניקח את המשפטים לגביהם אנו בטוחים.1:1בהסתברות גבוהה בהתאמה של

של 1נשתמש במשפטים אלה ע"מ לאמן מודל IBM.

IBM Model 1שלב שני: אימון

60

Page 61: Stat- Xfer

.קלט: אוסף של משפטים מתואמים:אוסף של שלשות: מילת מקור, מילת יעד פלט

והסתברות שזו מּתרגמת לזו..אלגוריתם איטרטיבי, רץ עד להתכנסות

בקליפת אגוזIBM של 1מודל

61

Page 62: Stat- Xfer

IBM Model Iדוגמת ריצה- של 1נציג דוגמת ריצה של מודל IBM שתתבסס על

שני משפטים תואמים: “ -המתאים ל( "בית כחול"Blue House)”“-המתאים ל( "ו-"ביתHouse.)”

63

Page 63: Stat- Xfer

אתחול לפי משפטים: מוסיפים כל אפשרות להתאמהבין המילים בשני המשפטים. נותנים לכל אפשרות סיכוי

1.

IBM Model Iדוגמת ריצה-

בית.

House.

1 )House,בית(

64

Page 64: Stat- Xfer

אתחול לפי משפטים: מוסיפים כל אפשרות להתאמהבין המילים בשני המשפטים. נותנים לכל אפשרות סיכוי

1.

IBM Model Iדוגמת ריצה-

בית כחול.

Blue House.

65

1 )House,בית(

1 )House,כחול(

1 )Blue,בית(

1 )Blue,כחול(

Page 65: Stat- Xfer

:סכימה לפי משפטים.צעד ראשון

IBM Model Iדוגמת ריצה-

בית כחול.

Blue House.

1 )House,בית(

1 )House,כחול(

1 )Blue,בית(

1 )Blue,כחול(

1 1

Houseבית-

Blueכחול- 1*1=1

66

Page 66: Stat- Xfer

IBM Model Iדוגמת ריצה-

בית כחול.

Blue House.

:סכימה לפי משפטים.צעד ראשון

1 1

Houseבית-

Blueכחול- 1*1=1

Blueבית-

Houseכחול- 1*1=1

67

1 )House,בית(

1 )House,כחול(

1 )Blue,בית(

1 )Blue,כחול(

Page 67: Stat- Xfer

IBM Model Iדוגמת ריצה-

בית כחול.

Blue House.

:סכימה לפי משפטים.צעד ראשון

Houseבית-

Blueכחול- 1*1=1

Blueבית-

Houseכחול- 1*1=1

1+1=2

+

68

1 )House,בית(

1 )House,כחול(

1 )Blue,בית(

1 )Blue,כחול(

Page 68: Stat- Xfer

IBM Model Iדוגמת ריצה-

בית כחול.

Blue House.

:נרמול סכימה לפי משפטים וצעד ראשון.

Houseבית-

Blueכחול- ½ = 0.5

Blueבית-

Houseכחול- ½ = 0.5

69

1 )House,בית(: ½

1 )House,כחול(: ½

1 )Blue,בית(: ½

1 )Blue,כחול(: ½

Page 69: Stat- Xfer

IBM Model Iדוגמת ריצה-

בית.

House.

:נרמול סכימה לפי משפטים וצעד ראשון.

Houseבית- 1/1 = 1

70

1 )House,1+½ :)בית

1 )House,כחול(: ½

1 )Blue,בית(: ½

1 )Blue,כחול(: ½

Page 70: Stat- Xfer

IBM Model Iדוגמת ריצה- :סכימה לפי מילות יעד.צעד שני

House

Houseבית- 1 + ½.

Houseכחול- ½.+

2

71

1 )House,1+½ :)בית

1 )House,כחול(: ½

1 )Blue,בית(: ½

1 )Blue,כחול(: ½

Page 71: Stat- Xfer

IBM Model Iדוגמת ריצה- :ונרמול סכימה לפי מילות יעד צעד שני

House

Houseבית- 1.5/2 = ¾

Houseכחול- ½/2 = ¼

72

¾ )House,בית(:

¼ )House,כחול(:

1 )Blue,בית(: ½

1 )Blue,כחול(: ½

Page 72: Stat- Xfer

IBM Model Iדוגמת ריצה- :ונרמול סכימה לפי מילות יעד צעד שני

Blue

Blueבית- ½/1 = ½

Blueכחול- ½/1 = ½

½ + ½ =1

73

¾ )House,בית(:

¼ )House,כחול(:

½ )Blue,בית(:

½ )Blue,כחול(:

Page 73: Stat- Xfer

IBM Model Iדוגמת ריצה- :סכימה לפי משפטים.וחזרה לצעד ראשון

בית כחול.

Blue House.

½ ¾

Houseבית-

Blueכחול-½ * ¾ = 3/8

74

¾ )House,בית(:

¼ )House,כחול(:

½ )Blue,בית(:

½ )Blue,כחול(:

Page 74: Stat- Xfer

IBM Model Iדוגמת ריצה- :סכימה לפי משפטים.וחזרה לצעד ראשון

בית כחול.

Blue House.

Houseבית-

Blueכחול-½ * ¾ = 3/8

½ ¼Blueבית-

Houseכחול- ½* ¼ = 1/8

75

¾ )House,בית(:

¼ )House,כחול(:

½ )Blue,בית(:

½ )Blue,כחול(:

Page 75: Stat- Xfer

IBM Model Iדוגמת ריצה- :סכימה לפי משפטים.וחזרה לצעד ראשון

בית כחול.

Blue House.

Houseבית-

Blueכחול-½ * ¾ = 3/8

Blueבית-

Houseכחול- ½* ¼ = 1/8

3/8 + 1/8 = ½.

+

76

¾ )House,בית(:

¼ )House,כחול(:

½ )Blue,בית(:

½ )Blue,כחול(:

Page 76: Stat- Xfer

IBM Model Iדוגמת ריצה- :ונרמול סכימה לפי משפטים וחזרה לצעד ראשון.

בית כחול.

Blue House.

Houseבית-

Blueכחול-3/8 / ½ = ¾

Blueבית-

Houseכחול- 1/8 / ½ = ¼

3/8 + 1/8 = ½.

77

¾ )House,בית(: ¾

¼ )House,כחול(: ¼

½ )Blue,בית(: ¼

½ )Blue,כחול(: ¾

Page 77: Stat- Xfer

IBM Model Iדוגמת ריצה-

בית.

House.

:נרמול סכימה לפי משפטים וצעד ראשון.

Houseבית- ¾ / ¾ = 1

78

¾ )House,1+¾:)בית

¼ )House,כחול(: ¼

½ )Blue,בית(: ¼

½ )Blue,כחול(: ¾

Page 78: Stat- Xfer

IBM Model Iדוגמת ריצה- :סכימה לפי מילות יעד.בחזרה לצעד שני

House

Houseבית- ¾+1.

Houseכחול- ¼.+

2

79

¾ )House,1+¾:)בית

¼ )House,כחול(: ¼

½ )Blue,בית(: ¼

½ )Blue,כחול(: ¾

Page 79: Stat- Xfer

IBM Model Iדוגמת ריצה- :ונרמול סכימה לפי מילות יעד בחזרה לצעד שני.

House

Houseבית- 1.75/2 = 7/8

Houseכחול- ¼ / 2 = 1/8

80

7/8 )House,בית(:

1/8 )House,כחול(:

½ )Blue,בית(: ¼

½ )Blue,כחול(: ¾

Page 80: Stat- Xfer

IBM Model Iדוגמת ריצה- :ונרמול סכימה לפי מילות יעד בחזרה לצעד שני.

Blue

Blueבית- ¼/1 = ¼

Blueכחול- ¾/1 = ¾

¼ + ¾ =1

81

7/8 )House,בית(:

1/8 )House,כחול(:

¼ )Blue,בית(:

¾ )Blue,כחול(:

Page 81: Stat- Xfer

:סכימה לפי משפטים.וחזרה לצעד ראשון

IBM Model Iדוגמת ריצה-

בית כחול.

Blue House.

¾ 7/8

Houseבית-

Blueכחול-

82

7/8 )House,בית(:

1/8 )House,כחול(:

¼ )Blue,בית(:

¾ )Blue,כחול(:

¾ * 7/8 = 0.65

Page 82: Stat- Xfer

IBM Model Iדוגמת ריצה- :סכימה לפי משפטים.וחזרה לצעד ראשון

בית כחול.

Blue House.

Houseבית-

Blueכחול-

¼ 1/8Blueבית-

Houseכחול- ¼ * 1/8 = 0.03

83

¾ * 7/8 = 0.65

7/8 )House,בית(:

1/8 )House,כחול(:

¼ )Blue,בית(:

¾ )Blue,כחול(:

Page 83: Stat- Xfer

IBM Model Iדוגמת ריצה- :סכימה לפי משפטים.וחזרה לצעד ראשון

בית כחול.

Blue House.

Houseבית-

Blueכחול-

Blueבית-

Houseכחול-

0.65 + 0.03 = 0.68

+

84

¾ )House,בית(:

¼ )House,כחול(:

½ )Blue,בית(:

½ )Blue,כחול(:

¼ * 1/8 = 0.03

¾ * 7/8 = 0.65

Page 84: Stat- Xfer

IBM Model Iדוגמת ריצה- :ונרמול סכימה לפי משפטים וחזרה לצעד ראשון.

בית כחול.

Blue House.

Houseבית-

Blueכחול-

Blueבית-

Houseכחול-

85

¾ )House,0.95 :)בית

¼ )House,כחול(: 0.04

½ )Blue,0.04 :)בית

½ )Blue,0.95 :)כחול

0.65 + 0.03 = 0.68

0.03/0.68=0.04

¾ * 7/8 = 0.95

Page 85: Stat- Xfer

IBM Model Iדוגמת ריצה-

בית.

House.

:נרמול סכימה לפי משפטים וצעד ראשון.

Houseבית- ¾ / ¾ = 1

86

¾ )House,בית(: 0.95+1

¼ )House,0.04 :)כחול

½ )Blue,0.04 :)בית

½ )Blue,0.95 :)כחול

Page 86: Stat- Xfer

IBM Model Iדוגמת ריצה- :סכימה לפי מילות יעד.בחזרה לצעד שני

House

Houseבית- 0.95+1=1.95

Houseכחול- 0.04.+

~2

87

¾ )House,0.95+1:)בית

¼ )House,0.04 :)כחול

½ )Blue,0.04 :)בית

½ )Blue,0.95 :)כחול

Page 87: Stat- Xfer

IBM Model Iדוגמת ריצה- :ונרמול סכימה לפי מילות יעד צעד שני

House

Houseבית- 1.95/2 = 0.97

Houseכחול- 0.04/2= 0.02

88

0.97 )House,בית(:

0.02 )House,כחול(:

½ )Blue,0.04 :)בית

½ )Blue,0.95 :)כחול

Page 88: Stat- Xfer

IBM Model Iדוגמת ריצה- :ונרמול סכימה לפי מילות יעד צעד שני

Blue

Blueבית-

Blueכחול-

0.04+0.95=0.99

89

0.97 )House,בית(:

0.02 )House,כחול(:

0.04 )Blue,0.04 :)בית

0.96 )Blue,0.95 :)כחול

0.04/0.99=0.04

0.95/0.99=0.96

Page 89: Stat- Xfer

סיכום דוגמת ריצה אפשר לראות שבשלוש

איטרציות התכנסנו לכדי סביר ולא סביר.

במאמר הוכח שהשיטהמתכנסת.

90

0.97 )House,בית(

0.02 )House,כחול(

0.04 )Blue,בית(

0.96 )Blue,כחול(

Page 90: Stat- Xfer

להשליך זוגות מילת יעד-מילת מקור שסבירות התרגוםשלהן נמוכה מהסתברות אחידה.

ניתן להשליך מילים אלה שכן, ראשית, ההסתברות שהמידע ◦מזוגות אלה רלוונטי אומנם נמוכה מאוד. בפרט, זוגות אלה

אינם משמעותיים לעבודה שאנו עושים במודל לאחר מכן.

-בנפח המידע מבלי פגיעה 90%דווח על צמצום של כ משמעותיות בתוצאות.

1שיפור שהוכנס במודל

91

Page 91: Stat- Xfer

.מתבצע בשלושה שלביםיישור גס◦IBM של 1אימון מודל ◦יישור עדין המסתמך על הקשרים שבין מילים.◦

יישור קורפוסים מהיר ומדויק בקווים כלליים

92

Page 92: Stat- Xfer

.Stanley F. Chen ע"י 1993אלגוריתם שהוצע בשנת •אלגוריתם מדויק ויקר מבחינת זמן חישוב ומשאבים.•מסתמך על אוסף של שלשות: מילת מקור, מילת יעד •

והסתברות שהאחרונה מהווה תרגום של הראשונה.מביע את ההסתברות שמשפט מקור כלשהו ממופה •

למשפט יעד בהסתמך על הקשר הסטטיסטי בין תרגומי המילים בכ"א מהמשפטים.

: יישור המתבסס על קשרים בין 3שלב המילים

93

Page 93: Stat- Xfer

אלגוריתם מדוייק:•.0:1 או 1:2יודע להתמודד עם מצב של •מסתמך על הקשרים בין מילים ולא רק על אורכיהם.•

ויקר:•דורש ידע מוקדם על השפה.•זמן ריצה ארוך מאוד.•

: יישור המתבסס על קשרים בין 3שלב המילים

94

Page 94: Stat- Xfer

בעיות באלגוריתם המקורי•דורש ידע מוקדם על השפה.–זמן ריצה ארוך מאוד.–

שיפורים לאלגוריתם:•.IBM של 1ידע מוקדם מושג ממודל –הגבלת מרחב החיפוש לפי המשפטים שנקבעו כסבירים בשלב –

הראשון.

דווח על שיפור משמעותי בזמן הריצה.–

: יישור המתבסס על קשרים בין 3שלב המילים- שיפורים

95

Page 95: Stat- Xfer

סיכום יישור קורפוסים מהיר ומדוייק

,המאמר הצליח להתבסס על שלושה מודלים קיימיםלשפר כל אחד מהם ולהגיע לתוצאות משמעותיות.

נציין שמדובר בשלב מקדים לשלב המקדים שלתרגום מכונה.

קורפוסים מקבילים

שתורגמו ידנית

קורפוסים מקבילים מיושרים

כללי העברה

תרגום מכונה

96

Page 96: Stat- Xfer

.מערכת תרגום מכונה מבוססת העברה מסוגלת לפעול בתסריט של היצע קורפוסים מקבילים

דל.באמצעות שימוש במומחים דו לשוניים שיכניסו כללי העברה.◦

מסוגל לפעול בתסריט של היצע קורפוסים מקביליםרחב.

באמצעות גזירת כללי העברה אוטומטיים.◦.יודעת להתמודד עם אי בהירויות משלבת תרגום בשיטת העברה עם מודל סטטיסטי של

השפה באם קיים.

Stat Xferסיכום

97

Page 97: Stat- Xfer

:מקור

עכשיו נאלץ גם פואד סיניורה, ראש-הממשלה אשר מונה ◦על-ידי האמריקאים, להכריז שלבנון תהיה המדינה הערבית

האחרונה שתעשה שלום עם ישראל.

Stat Xferדוגמת תרגום :

98

Page 98: Stat- Xfer

:פלט מנוע ההעברה

(0 0" now" -0.299685 "&K$IW" ")ADV,1 'now'()"

(0 0" currently" -0.393044 "&K$IW" ")ADV,0 'currently'()"

(0 0" nowadays" -0.456367 "&K$IW" ")ADV,3 'nowadays'()"

(0 0" nowadays" -0.456367 "&K$IW " ")ADVP,0 )ADV,3 'nowadays'( ()"

(0 0" presently" -0.493495 "&K$IW " ")ADVP,0 )ADV,4 'presently'( ()"

(0 0" now then" -3.38699 "&K$IW " ")ADVP,0 )ADV,2 'now then'( ()"

(1 1" forced" -0.377691 "NALC" ")V,0 'forced'()"

(28 30" which" -0.283618 "$" ")SUBORD,1 'which'()"

(28 30" whom" -0.376503 "$" ")SUBORD,3 'whom'()"

(28 32" that industrialized health" -0.997314 "$ TI&$ $LWM " ")S,40 )SUBORD,0 'that'(

(28 32" that industrialized peace" -1.02131 "$ TI&$ $LWM " ")S,40 )SUBORD,0 'that'(

Stat Xferדוגמת תרגום :

99

Page 99: Stat- Xfer

:תרגום סופי

Now force also PWAD SINIWRH , leaders - the government that is on - hands OF Americans , said that Lebanon is the last Arab state that will make peace with Israel.

Overall: -11.5871, Prob: -248.231, Rules: -10, RuleSGT: 0, RuleTGS: 0, TransSGT: 0, TransTGS: 0, Frag: -0.477121, Length: -0.00260577, Words: 33,33

SGT 0 TGS 0

(0 1" now" -0.299685 "&K$IW" ")ADV,1 'now'( )"

(1 2" force" -0.351566 "AILC" ")V,2 'force'( )"

(2 3" also" -0.296071 "GM" ")CONJ,0 'also'( )"

(3 4" PWAD" -0.711952 "PWAD" ")UNK,0 'PWAD'( )"

...

(13 14- "-" 0.384582(" "-" UNK,3 )")'-'

(14 16" hands OF Americans" -2.16628 "ID AMRIQNI " ")NNP,1 )NP0,0 )N,54 'hands'( ( )LITERAL 'OF'( )NP,0 )NP2,0 )NP1,0 )NP0,0 )N,69 'Americans'( ( ( ( ( ( )"

(22 28" the last Arab state" -1.89053 "H MDINH H &RBI H AXRWN“ "

Stat Xferדוגמת תרגום :

100

Page 100: Stat- Xfer

-2008המערכת הוצגה ב.במאמר הוצגה רק מכונת תרגום עברית-אנגלית.◦

:לאחר מכן פותחו עוד מס' מכונות על בסיס המערכת◦Urdu-English◦Chinese-English◦French-English◦German-English◦Hindi-English

-המערכת שימשה את רשף שילון לבניית מ"ת 2010ב עברית-ערבית.

מצב המערכת

101

Page 101: Stat- Xfer

:מקורמכוניתּה של המנהלת גדולה.◦

:פלט המכונה◦syArh Almdyrh kbyrh)מכונית המנהלת גדולה(◦

:פלט גוגל◦  للسيارات  الرئيسي ألف◦Alf AlrAysy llsyArAt◦The cars thousand main

דוגמאת תרגום עברית-ערבית

102

Page 102: Stat- Xfer

שאלות?

103

Page 103: Stat- Xfer

Stat-XFER: A General Search-based Syntax-driven Framework for MT CICLing 2008, Lavie, Alon et al.

Syntax-driven Learning of Sub-sentential Translation Equivalents and Translation Rules from Parsed Parallel Corpora, in Proceedings of the 2nd ACL Workshop on Syntax and Structure in Statistical Translation, 2008, Lavie, Alon et al.

Fast and Accurate Sentence Alignment of Bilingual Corpora, in Stephen D. Richardson )ed(, MT: from Research to Real Users, 2002, Robert C. Moore

Aligning Sentences in Bilingual Corpora Using Lexical Information, 1993, Stanley F. Chen

Machine translation: Word-based models and the EM algorithm, 2007, Chris Callison-Burch

The Mathematics of Statistical Machine Translation: Parameter Estimation, 1993, Peter F. Brown et al.

מקורות

104

Page 104: Stat- Xfer

שלום וברכה.

105