אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

107
Mikel L. Forcada et al., Apertium: a free/open-source platform for rule-based machine translation, Machine Translation Volume 25 (2011) (יי) יייייי: ייייי ייי ייייי יייייי ייייי ייייייי ייייייי236817 , ייייי יייי ייי"י יייי ייייי, יייייי1

Upload: kiley

Post on 12-Jan-2016

61 views

Category:

Documents


12 download

DESCRIPTION

Mikel L. Forcada et al., Apertium: a free/open-source platform for rule-based machine translation, Machine Translation Volume 25 (2011). מגישים: אבישי (שי) גרץ וניצן חריזמן סמינר לבלשנות חישובית 236817, סמסטר חורף תשע"ב מדעי המחשב, טכניון. אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

Mikel L. Forcada et al., Apertium: a free/open-source platform for rule-based machine translation, Machine Translation Volume 25 (2011)

גרץ וניצן חריזמן מגישים: אבישי (שי)

, סמסטר חורף תשע"ב236817סמינר לבלשנות חישובית מדעי המחשב, טכניון

1

Page 2: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

תפריט היום

:מנה ראשונהסקירה כללית של מכונת התרגום אפרטיום ומאפייניה

:מנה עיקריתמבנה מנוע האפרטיוםמגבלותבסיסי נתוניםהשוואה מול מכונות תרגום אחרות

:קינוחסקירה של שתי תוספות לאפרטיום והשפעותיהן

הוספת שמות מתוייגיםהוספת חלקי משפטים מתורגמים

2

Page 3: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

נעים להכיר

אפרטיום – מכונת תרגום מבוססת Rule Based Machineחוקים (

Translation( שפת הליבה - ספרדיתwww.apertium.org

3

Page 4: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

תרגום מכונה מבוסס קורפוס SMT(סטטיסטי)-

מבוסס על קורפוס (=טקסט) דו-לשוני:בחירת התרגום – על פי הסטטיסטיקה של המילה

התרגום הנפוץ ביותר בקורפוס המקבילי

:הנכונות של התרגום תלויה ב קיום של מאגר גדול המכיל טקסטים מקבילים בשתי

השפות- כל המרבה הרי זה משובחכוח חישוב וגודל הזיכרון המוקצים לכך גדולים דיים

:דוגמא Google Translator

4

Page 5: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

RBMTתרגום מכונה מבוסס חוקים-

:מבוסס על מידע בלשנימילון מורפולוגימילונים דו- לשונייםחוקי דקדוקחוקי תרגום מבנים לשוניים

הביצוע אינו מבוסס על קורפוסים

:אפרטיוםדוגמא

5

Page 6: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

תרגום מכונה מבוסס קורפוס מול רהיטות מול נאמנות למקורמבוסס חוקים-

-המשפט בשפת היעד הינו שוטף והגיוני באוזני רהיטות דוברי השפה

-המשפט בשפת היעד הינו נאמן מבחינת נאמנות משמעותו למשפט בשפת המקור

6

Page 7: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

תרגום מכונה מבוסס קורפוס מול רהיטות מול נאמנות למקורמבוסס חוקים-

) דוגמאותGoogle translate:(מול אפרטיום

גוגל מבצע ניתוח שגוי של המילה חברי (חברים+ סמיכותבמקום חבר+שלי)

תרגומו של המשפט השמאלי תקין

ניסיתי להעביר מסר לחברי הקרוב מהבית

I tried to send a message to members of the nearest

house

I tried to send a message to my close friend from the house

Intenté enviar un mensaje a mi amigo cercano de la casa

מבוסס קורפוס

מבוסס חוקים

7

Page 8: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

תרגום מכונה מבוסס קורפוס מול רהיטות מול נאמנות למקורמבוסס חוקים-

) דוגמאותGoogle translate:(מול אפרטיום

חוסר ההכרות של גוגל עם הביטוי הובילה לתרגום שוטףכלשהו שלא נאמן למקור

חוסר ההיכרות של אפרטיום עם הביטוי המקביל הובילהלתרגום מילולי נאמן למקור אך לא נפוץ בשפת היעד

Ojos que no ven, corazón que(הביטוי הנפוץ הוא no sient(

אחד בפה ואחד בלב

One mouth and one heart

Out of sight, out of mind

Fuera de vista fuera de mente

מבוסס קורפוס

מבוסס חוקים

8

Page 9: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

תרגום מכונה מבוסס קורפוס מול רהיטות מול נאמנות למקורמבוסס חוקים-

:מסקנות

) התרגום מבוסס הקורפוסgoogle מפיק תוצאה ( בשפת היעד, אולם לא בהכרח רהוטההגיונית למקורנאמנה

התרגום מבוסס החוקים (אפרטיום) מפיק תוצאהרהוטה למקור אולם לא בהכרח נאמנה

9

Page 10: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

תרגום מכונה מבוסס קורפוס מול עקביות טרמינולוגיתמבוסס חוקים-

האם ביטוי כלשהו בשפת היעד יתורגם תמיד באופן זההלשפת המקור

) דוגמאותGoogle translate:(

על כלבים וגנבים

The Dalmatians

על כלבים וגנבים ופושעים

About dogs and thieves and

criminals

מבוסס על כלבים וגנבים הוא שם •קורפוס

מוכר לסרט ועל כן גוגל מצליח לתרגמו לשם הסרט

המתאים באנגליתכאשר לשם הסרט מתווספת •

מילה אחרת אשר משנה את ההקשר התרגום משתנה לתרגום המילולי המתאים

10

Page 11: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

תרגום מכונה מבוסס קורפוס מול עקביות טרמינולוגיתמבוסס חוקים-

האם ביטוי כלשהו בשפת היעד יתורגם תמיד באופן זההלשפת המקור

:התרגום מבוסס החוקים ביטויים יתורגמו לרוב באותו האופן ללא תלות

בהקשר

11

Page 12: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

תרגום מכונה מבוסס קורפוס מול עקביות טרמינולוגיתמבוסס חוקים-

-מסקנות(אפרטיום) חוקים ת"מ (תרגום מכונה) מבוסס

תמידבאופן זהה יתרגם ביטוי ) ת"מ (תרגום מכונה) סטטיסטיgoogle ייתכן (

כתלות בהקשרבאופנים שונים ויתרגם ביטוי

12

Page 13: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

תרגום מכונה מבוסס קורפוס מול עקביות טרמינולוגיתמבוסס חוקים-

-(עבור מכונה מבוססת קורפוס) דוגמא נוספת-נתגלה כי גוגל מתרגמים שמות מדינות 2008ב

בצורה שגויה, למשל דוגמא לתרגום משפט מאנגלית לאיטלקית בגוגל:

טקסט בשפת טקסט בשפת היעדהמקור

13

תרגום מאנגלית לאיטלקית

Page 14: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

תרגום מכונה מבוסס קורפוס מול עקביות טרמינולוגיתמבוסס חוקים-

14

שמות של מדינות נוספות בהקשרים שונים תורגמובצורה שגויה

:אחת הסברות לבעיה הקורפוסים המקביליים שעליהם התבסס האלגוריתם

היו אתרים של חברות בעלות סניפים בארצות שונות אתרים של אותה חברה בשתי מדינות שונות הם בעלי

תוכן זהה – מלבד, למשל, כתובת הסניף המקומי... כך, לפי ההשערה, קרה שמדינה אחת תורגמה

למדינה אחרתהבעיה תוקנה תוך מספר ימים

Page 15: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

תרגום מכונה מבוסס קורפוס מול מבוסס חוקים (המשך)

:אבחון שגיאות קל יותר חוקיםבמכונת תרגום (מ"ת) מבוססת

לאבחן ולתקן שגיאות מכיוון שמקורן בחוקים דטרמיניסטיים ומוגדרים היטב

במ"ת סטטיסטית קשה יותר לאבחן ולתקן שגיאותמכיוון שמקור השגיאה הינו סטטיסטי ולא מבוסס על

חוקים מוגדרים

15

Page 16: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

תרגום מכונה מבוסס קורפוס מול מבוסס חוקים (המשך)

:הרחבה לשפות אחרות מידע בלשני לזוג שפות עוזר לבנות מידע חוקים-מ"ת מבוססת

בלשני לזוגות נוספים, ולמעשה מהווה בסיס לבניית מ"ת בין זוגות נוספים. זאת כיוון שמידע בלשני חד לשוני עבור שפה מסוימת

יכול לשמש לבניית תרגום מכונה בינה ובין כל שפה אחרת:מ"ת בין אנגלית לגרמנית יכולה לשמש בסיס לבניית מ"ת בין דוגמא

אנגלית לצרפתית ע"י שימוש במידע הבלשני שנאגר עבור אנגלית

אלגוריתם כללי המשמש לתרגום בין זוג שפות, סטטיסטית-מ"ת עשוי לשמש לתרגום בין מספר שפות נוספות. זאת כיוון

שהאלגוריתם לא בהכרח משתמש בתכונות ייחודיות לשפה אלא במאפיינים סטטיסטיות הרלוונטיים לכלל השפות (בהינתן

קורפוסים גדולים מספיק)

16

Page 17: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

תרגום מכונה מבוסס קורפוס מול מבוסס חוקים (המשך)

מ"ת מבוססת חוקים שואפת להגיע לכיסוי מושלם אחוז של השפה100של

תיאורטית אפשר להכניס את כל חוקי השפה למאגריהמכונה

מ"ת מבוססת קורפוס כנראה לא תוכל להגיע אחוז דיוק100ל-

(כמעט) תמיד יש טעויות מבוסס סטטיסטיקה ולכןהטיות מורפולוגיות נדירות וכדומה

17

Page 18: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

תרגום מכונה מבוסס קורפוס מול מבוסס חוקים (המשך)

:שפות עבורן קשה לבנות מכונה סטטיסטית שפות בעלות מספר קטן של קורפוסים- אין תשתית גדולה

ואמינה דיה על מנת לבסס עליה את התרגום הסטטיסטי

עשירות מבחינה מורפולוגית- יש צורך לאגד מספר גדולמשמעותית של קורפוסים על מנת להיתקל מספר גדול דיו

של פעמים בכל הטייה אפשרית (דלילות מידע):המילה "אהבתיה" ככל הנראה לא תופיע מספר דוגמא

גדול דיו של פעמים בקורפוס סטנדרטי (בהנחה שלשלמה ) loveארצי לא היה שיר כזה..). זאת בניגוד לפועל אהבה (

באנגלית אשר לה משמעותית פחות הטיות:שילוב אלמנט בלשני וחיפוש הפועל אהב פתרון אפשרי

במקום נטיותיו השונות

18

Page 19: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

תרגום מכונה מבוסס קורפוס מול מבוסס חוקים (המשך)

מבוסס קורפוסמבוסס חוקיםתוצאה נאמנה למקור אולם לא תמיד רהוטה

תוצאה רהוטה אולם לא תמיד נאמנה למקור

רהיטות/ נאמנות

ביטוי יתורגם תמיד באופן זהה

ביטוי ייתכן ויתורגם במספר אופנים כתלות

בהקשר

עקביות טרמינולוגי

תיחסית קשה עקב הגורם יחסית קל

הסטטיסטיאבחון ותיקון שגיאות

מידע בלשני חדש יתבסס על מידע

בלשני קיים

אלגוריתם כללי המתאים למספר שפות שכן אינו

מתחשב במידע בלשני

הרחבה לשפות נוספות

19

Page 20: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

אפרטיום - רקע

על ידי 2004הוקמה בשנת אשרקוד פתוח תוכנת משרד המסחר הספרדי

:לתרגם באופן אוטומטי בין שפות שונות מטרה המדוברות בספרד (קטאלונית, גאליציאנית)

מאז הורחבה המערכת לתמוך בזוגות רבות שלשפות אך המוקד נשאר ספרדית

20

Page 21: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

אפרטיום – רקע (המשך)

2005 (1שלב :( התבססה על תוכנות קיימות לתרגום

ספרדית-קטאלונית וספרדית-פורטוגזיתתמיכה בתרגום מכונה של שפות דומות מאוד

2006 (2שלב:() הרחבה של מבנה ההעברהtransfer

structure כדי לתמוך בשפות מעט יותר רחוקות ((למשל אנגלית)

21

Page 22: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

אפרטיום- מטרות

:המטרות של הפרויקט לאפשר לציבור גישה חופשית ולא מוגבלת

למכונת תרגום מוצלחת ככל הניתן לספק פלטפורמת קוד פתוח למשימות של תרגום

מכונה ועיבוד שפות טבעיותלעשות שימוש במידע הבלשני הקייםלהקל על המנשק עם תוכנות קוד פתוח אחרות להבטיח את קידום התחום של תרגום מכונה

והמחקר בעיבוד שפות טבעיות

22

Page 23: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

מנוע האפרטיום

העברת הטקסט בשפת המקור דרך מספר מנתחים

Deformatter- הזנחת סימני עריכה

ניתוח מורפולוגי מנתח מורפולוגי- עבור כל מילה

זיהוי חלק הדיבר תיוג חלקי דיבר- המתאים עבור כל מילה

23

Page 24: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

מנוע האפרטיום

העברת הטקסט בשפת המקור דרך מספר מנתחים

צירוף המילים )-chunkerמצרף (ליחידות גדולות יותר תרגום המיליםהעברה לקסיקלית-

ביצוע )-inter chunkמצרף גלובלי(פעולות בין היחידות

העברה מבנית - תרגום משפת המקור לשפת היעד

פירוק )-post chunkלאחר-המצרף (היחידות לצורות הלקסיקליות

24

Page 25: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

מנוע האפרטיום

העברת הטקסט בשפת המקור דרך מספר מנתחים

יצירת המילים יצירה מורפולוגית-בשפת היעד

ביצוע התאמות לאחר-יצירה-אורתוגרפיות ופונטיות

Reformatterהוספת סימני עריכה -

העברה מבנית - תרגום משפת המקור לשפת היעד

יצירת משפט חוקי בשפת היעד

25

Page 26: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

מנוע האפרטיום (המשך)

Deformatter -מוסיף סוגריים לסימני עריכה

פלטקלט

We will go to the <b> old park </b>

We will go to the[ <b>] old park[</b>]

26

Page 27: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-מנתח מורפולוגי

עבור המילהweיש ניתוח מורפולוגי יחיד

מנוע האפרטיום (המשך)

פלטקלטWe ˆWe/

Prpers<prn><subj><p1><mf><pl>$

27

Prpers הלמה של – Weמציין רבים גוף ראשון ,Prn- pronounכינוי גוף

Subj - subject) נושא – We(חייב להיות נושא Mf – masculine, feminineיכול להיות גם זכר וגם נקבה –

Pl – plural רבים - ^- תחילת צורת פני שטח (המילים כפי שהן מופיעות בטקסט)

- הפרדה בין צורות לקסיקליות (אוסף תכונות) המתאימות לצורת פני השטח/$- סיום הטיפול בצורת פני שטח

Page 28: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-מנתח מורפולוגי

נשים לב שעבור המילהgo יש לנו שני פירושים אפשריים מתאימים בעלי תכונות שונות

פועל בזמן הווהפועל בצורת המקור

מנוע האפרטיום (המשך)

פלטקלטgoˆgo/go<vblex><inf>/

go<vblex><pres>$

28

Vblex – standard verbפועל רגיל – Inf – infinitiveצורת מקור –

Pres – presentהווה – ^- תחילת צורת פני שטח (המילים כפי שהן מופיעות בטקסט)

- הפרדה בין צורות לקסיקליות (אוסף תכונות) המתאימות לצורת פני השטח/$- סיום הטיפול בצורת פני שטח

Page 29: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-מנתח מורפולוגי

מנוע האפרטיום (המשך)

פלטקלטWe will go to the[ <b>]old park[</b>]

ˆWe/Prpers<prn><subj><p1><mf><pl>$ˆwill/will<n><sg>/will<vaux><inf>$ˆgo/go<vblex><inf>/go<vblex><pres>$ ˆto/to<pr>$ˆthe/the<det><def><sp>$[ <b>]ˆold/old<adj><sint>$ˆpark/park<n><sg>/park<vblex><inf>/park<vblex><pres>$[</b>]

29

Prpers הלמה של – Weמציין רבים גוף ראשון ,Vaux – auxiliary verbפועל עזר – Prn – pronounכינוי גוף – Vblex – standard verbפועל רגיל – Subj - subject) נושא – We(חייב להיות נושא Inf – infinitiveצורת מקור – P1 – 1st personגוף ראשון – Pres – presentהווה –

Mf – masculine, feminineיכול להיות גם זכר וגם נקבה – Sp – singular, pluralיחיד, רבים – Pl – plural רבים - Sint – synthetic-ניתן לעשות לזה הטייה ל – older

Page 30: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-מנתח מורפולוגי:תפקיד ראשון

מחלק את הטקסט לצורות פני השטח)surface forms(

-המילים כפי שהן מופיעות צורות פני השטח בטקסט, על פני השטח, זאת בניגוד לניתוח

המילה המכיל מידע עמוק יותר אודותיה צורת פני השטח יכולה להכיל מילה אחת

או מספר מילים המשמשות כביטוי

מנוע האפרטיום (המשך)30

Page 31: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-מנתח מורפולוגי-תפקיד שני

-החלק הבסיסי והעיקרי של מילה.למה :הצחיק הצחקתםדוגמא

-חלקי דיבר, מאפיינים מורפולוגיים קטגוריה לקסיקלית ותחביריים

פועל, גוף שלישי, עבר: הצחקתםדוגמא) לכל צורת פני שטח מותאמות צורות לקסיקליותlexical

forms(אחת או יותר) ( צורה לקסיקלית מורכבת מלמה, קטגוריה לקסיקלית

ומידע מורפולוגי נוסף הצורות הלקסיקליות נוצרות באמצעותFST (finite state

transducer) אשר מבוסס על המילון המורפולוגי בשפת המקור

מנוע האפרטיום (המשך)31

Page 32: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

המילון המורפולוגי באפרטיום

המילונים שמורים בקבציXML) פרדיגמהParadigm:(

ערך המציין הטייה = טבלת כל הנטיות של הלמה) ערך מילוניWord entry:(

ערך מילוני של מילה עם הפנייה להטייה הרלוונטית:(יוצאים מהכלל באנגלית) דוגמה לחוק באפרטיום

הטייה של יחיד ורבים של מילים כמוbacteria, data:

:ערך מילוני

32

Page 33: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

המילון המורפולוגי באפרטיום (המשך)

33

הערך המילוני (התיאורטי – זוהי הוספה שלנו שכן אפרטיוםשל המילה "כלב": אינו תומך בעברית)

ערך הפרדיגמה התיאורטית של צורת הרבים הרגילה (סיומתלשמות עצם: '-ים')

Page 34: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

המילון המורפולוגי באפרטיום (המשך)

34

,פרדיגמה יכולה לכלול גם נטיות של זכר/נקבהמשקלים, זמנים וכדומה – הן של צורות

סטנדרטיות והן של צורות חריגות של השפה

Page 35: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

FST

מכונה (מעין אוטומט דטרמיניסטי) המשמשת לניתוחוייצור מורפולוגיים:

ניתן לפרק צורת פני שטח לתכונות המרכיבותאותה

ניתן להרכיב צורת פני שטח מהתכונות המרכיבותאותה

35

Page 36: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

FST

-דוגמא לFST: הדוגמא אינה לקוחה מן המאמר והינה אמצעי שאנו רוצים להציג

FSTלהבהרת המושג

Cat+ N(noun)+PL(plural)catsMouse+ N(noun)+PL(plural)mice

36

Page 37: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-מתייג חלקי דיבר

עבור צורת פני השטח we נבחרת הצורההלקסיקלית היחידה שנמצאה עבורה

מנוע האפרטיום (המשך)

פלטקלט

ˆWe/Prpers<prn><subj><p1><mf><pl>$

ˆPrpers<prn><subj><p1><mf><pl>$

37

Page 38: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-מתייג חלקי דיבר

עבור צורת פני השטח go נבחרת הצורההלקסיקלית המסמלת את צורת המקור של הפועל

מנוע האפרטיום (המשך)

פלטקלט

ˆgo/go<vblex><inf>/go<vblex><pres>$

ˆgo<vblex><inf>$

38

Page 39: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-מתייג חלקי דיבר

מנוע האפרטיום (המשך)

פלטקלט

ˆWe/Prpers<prn><subj><p1><mf><pl>$ˆwill/will<n><sg>/will<vaux><inf>$ˆgo/go<vblex><inf>/go<vblex><pres>$ ˆto/to<pr>$ˆthe/the<det><def><sp>$[ <b>]ˆold/old<adj><sint>$ˆpark/park<n><sg>/park<vblex><inf>/park<vblex><pres>$[</b>]

ˆPrpers<prn><subj><p1><mf><pl>$ ˆwill<vaux><inf>$ˆgo<vblex><inf>$ ˆto<pr>$ ˆthe<det><def><sp>$[ <b>]ˆold<adj><sint>$ ˆpark<n><sg>$[</b>]

39

Page 40: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-מתייג חלקי דיבר התרת דו המשמעות של צורות פני

) אשר להם מספר צורות surface formsהשטח() lexical formsלקסיקליות (

ההתרה מתבצע באופן סטטיסטי באמצעות - לא HMM) Hidden Markov Modelהמנגנון

מפורט במאמר)

מנוע האפרטיום (המשך)40

Page 41: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

HMM41

HMM ((Hidden Markov model הינו מודל סטטיסטי

:מציאת חלק הדיבר הסביר ביותר לכל צורת פני מטרה שטח במשפט, כתלות במילים האחרות במשפט

:מבוסס על שני מבני נתונים) פלטים – בהינתן 2) מעברים – לכל מעבר מחלק דיבר1

קטגוריה תחבירית כלשהי, מהי א' ל-ב' ישנה הסתברות כלשהי

ליצירת כל אחת מן ההסתברות גונבגנבשבלקסיקוןהמילים

0.50שם עצם

0.50.5פועל

00.5שם תואר

Page 42: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

HMM (cont.)42

בהינתן הנתונים הללו מריצים אלגוריתם תכנותדינמי שמספק לנו את רצף חלקי הדיבר הסבירים

ביותר שייצרו את המשפט הנתון

Page 43: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-מצרף

הצורה הלקסיקלית המתאימה למילהwe יצרה יחידה . יחידה זו מכילה צורה לקסיקלית נושא כינוי גוףתחבירית-

יחידה (בסוגרים המסולסלים) המספרים המופיעים בסוגריים המשולשות מצביעים על כך

שיש לרשת מתכונות היחידה התחבירית, את התכונה המתאימה במספר

:מתייחס לתכונה <4 <דוגמא <GD כלומר הצורה <) כאשר זו תוכרעGDהלקסיקלית צריכה לרשת את תכונת המין (

מנוע האפרטיום (המשך)

פלטקלט

ˆPrpers<prn><subj><p1><mf><pl>$

ˆPrnsubj<SN><tn><p1><GD><pl>{ˆprpers<prn><2><p1><4><pl>$}$

43

Page 44: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-מצרף

הצורות הלקסיקליות המתאימות למיליםwill-ו go אוחדו ליחידה תחבירית אחת: פועל עזר+פועל

נשים לב שבעת התרגום לספרדית שתי הצורותהלקסיקליות אוחדו לצורה לקסיקלית אחת בשפת

(ללכת- צורת המקור)”ir“היעד

מנוע האפרטיום (המשך)

פלטקלט

ˆwill<vaux><inf>$ˆgo<vblex><inf>$

ˆverbcj<SV><vblex><fti><PD><ND>{ˆir<vblex><3><4><5>$}$

44

Page 45: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-מצרף

הצורה הלקסיקלית המתאימה למילהto יצרה יחידה תחבירית אחת: מילת-יחס

מנוע האפרטיום (המשך)

פלטקלט

ˆto<pr>$ ˆpr<PREP>{ˆa<pr>$}$

45

Page 46: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-מצרף

הצורות הלקסיקליות המתאימות למיליםthe, old אוחדו ליחידה תחבירית אחת: כמת יידוע + park ו-

)det_nom_adjשם תואר+ שם עצם ( – נשים לב ששם התואר ושם העצם החליפו מקום

–> הפארק הישן)the old parkכמו בעברית (

מנוע האפרטיום (המשך)

פלטקלט

ˆthe<det><def><sp>$[ <b>]ˆold<adj><sint>$ ˆpark<n><sg>$[</b>]

ˆdet_nom_adj<SN><DET><m><sg>{ˆel<det><def><3><4>$[ <b>]ˆparque<n><3><4>$ ˆviejo<adj><3><4>$}$[</b>]

46

Page 47: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-מצרף

מנוע האפרטיום (המשך)

פלטקלט

ˆPrpers<prn><subj><p1><mf><pl>$

ˆwill<vaux><inf>$ˆgo<vblex><inf>$

ˆto<pr>$

ˆthe<det><def><sp>$[ <b>]ˆold<adj><sint>$ ˆpark<n><sg>$[</b>]

ˆPrnsubj<SN><tn><p1><GD><pl>{ˆprpers<prn><2><p1><4><pl>$}$

ˆverbcj<SV><vblex><fti><PD><ND>{ˆir<vblex><3><4><5>$}$

ˆpr<PREP>{ˆa<pr>$}$

ˆdet_nom_adj<SN><DET><m><sg>{ˆel<det><def><3><4>$[ <b>]ˆparque<n><3><4>$ ˆviejo<adj><3><4>$}$[</b>]

47

Page 48: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-מצרף מאגד את אוסף הצורות הלקסיקליות במשפט

ליחידות תחביריות:צירוף שמני (ילד יפה) , צירוף פעלי (אכל לדוגמא

תפוח)

) מפעיל העברה לקסיקלית) lexical transfer באמצעות מילון דו-לשוני מתרגם כל צורה

לקסיקלית בשפת המקור לצורה לקסיקלית מתאימה בשפת היעד

מנוע האפרטיום (המשך)48

Page 49: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-מצרף גלובאלי

–ניתן לראות בדוגמא הבלעות של יחידה אחת בתוך יחידה אחרתPrnsubj (נושא-כינויי גוף) נבלע בתוך verbcjפעול עזר) +פועל)

כינוי הגוף נבלע למעשה בתוך הפועלדוגמא לתופעה בעברית: אנחנו + בעתיד+ ללכת = נלך

נשים לב שחלק מהתכונות שהיו מיועדות להשלמה קודם הושלמו> למשלPD> (גוף לא ידוע) קיבל את <p1(גוף ראשון) <

מנוע האפרטיום (המשך)

פלטקלטˆPrnsubj<SN><tn><p1><GD><pl>{ˆprpers<prn><2><p1><4><pl>$}$

ˆverbcj<SV><vblex><fti><PD><ND>{ˆir<vblex><3><4><5>$}$

ˆverbcj<SV><vblex><fti><p1><pl>{ˆir<vblex><3><4><5>$}$

49

Page 50: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-מצרף גלובאלי

מנוע האפרטיום (המשך)

פלטקלטˆPrnsubj<SN><tn><p1><GD><pl>{ˆprpers<prn><2><p1><4><pl>$}$

ˆverbcj<SV><vblex><fti><PD><ND>{ˆir<vblex><3><4><5>$}$

ˆpr<PREP>{ˆa<pr>$}$

ˆdet_nom_adj<SN><DET><m><sg>{ˆel<det><def><3><4>$[ <b>]ˆparque<n><3><4>$ ˆviejo<adj><3><4>$}$[</b>]

ˆVerbcj<SV><vblex><fti><p1><pl>{ˆir<vblex><3><4><5>$}$

ˆpr<PREP>{ˆa<pr>$}$

ˆdet_nom_adj<SN><DET><m><sg>{ˆel<det><def><3><4>$[ <b>]ˆparque<n><3><4>$ ˆviejo<adj><3><4>$}$[</b>]

50

Page 51: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

מצרף גלובאלי- סיכוםפעולות ארוכות טווח בין היחידות השונות

ראינו: שילוב יחידה אחת בתוך יחידה אחרת:פעולות אפשריות נוספות

החלפת סדר בין שתי יחידות או יותרצירוף שתי יחידות ליחידה בודדת

ניתן להריץ את המצרף הגלובאלי מספר פעמיםכדי להשיג פעולות בין היחידות השונות ברמות

מידע גבוהות יותר

מנוע האפרטיום (המשך)51

Page 52: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-לאחר-המצרף

מתאים לכל צורה לקסיקלית תכונות מהיחידה אליה היאשייכת

עפ"י המספרים בסוגריים, כפי שצוין מוקדם יותר(צורות לקסיקליות) מפרק את היחידות לאבני הבניין שלהן

מנוע האפרטיום (המשך)

פלטקלטˆVerbcj<SV><vblex><fti><p1><pl>{ˆir<vblex><3><4><5>$}$

ˆpr<PREP>{ˆa<pr>$}$

ˆdet_nom_adj<SN><DET><m><sg>{ˆel<det><def><3><4>$[ <b>]ˆparque<n><3><4>$ ˆviejo<adj><3><4>$}$[</b>]

ˆIr<vblex><fti><p1><pl>$

ˆa<pr>$

ˆel<det><def><m><sg>$[ <b>]ˆparque<n><m><sg>$ ˆviejo<adj><m><sg>$[</b>]

52

Page 53: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-יצירה מורפולוגית

הפיכת כל צורה לקסיקלית לצורת פני השטחהמתאימה

:הצורה הלקסיקלית דוגמא “ ir” (ללכת) הופכת לצורת פני השטח “iremos”(נלך)

מנוע האפרטיום (המשך)

פלטקלטˆIr<vblex><fti><p1><pl>$ ˆa<pr>$ ˆel<det><def><m><sg>$[ <b>]ˆparque<n><m><sg>$ ˆviejo<adj><m><sg>$[</b>]

Iremos ˜a

el< [b]>parque

viejo[</b>]

53

Page 54: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-יצירה מורפולוגית) הפיכת כל צורה לקסיקליתLexical Form (

המתאימה )Surface Formלצורת פני השטח (

מתבצע ע"יFST -אשר עושה שימוש במילון חד לשוני בשפת היעד

מנוע האפרטיום (המשך)54

Page 55: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

לאחר-יצירה –

a=to , el= the al= to theביצוע טרנספורמציות אורתוגרפיות ופונטיות:דוגמא בעברית

oל + pה pל =

מנוע האפרטיום (המשך)

פלטקלט

˜a elal

55

Page 56: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

לאחר-יצירה -

מנוע האפרטיום (המשך)

פלטקלט

Iremos ˜a el[ <b>]parque viejo[</b>]

Iremos al

< [b]>parque viejo[</b>]

56

Page 57: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

Reformatter - החזרת סימני העריכה (למשל תגיHTMLלמשפט (

זו התוצאה הסופית של הפעלת האפרטיום והפלטשל המנוע כולו

מנוע האפרטיום (המשך)

פלטקלטIremos al[ <b>]parque viejo[</b>]

Iremos al <b>parque viejo</b>

57

Page 58: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

מגבלות המנוע

פעולת תיוג חלקי הדיבר איננה הטובה ביותרהאפשרית כיום

אין אפשרות לתרגם צורה לקסיקלית בשפת המקורליותר מצורה לקסיקלית אחת בשפה היעד

לבrדוגמא: לא ניתן להחזיק תרגומים נפרדים עבור חו-חsלב מכיוון שלשניהם בדיוק אותה צורה לקסיקלית

(הצורות הללו מופיעות ללא ניקוד ברוב המקרים)

58

Page 59: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

מגבלות המנוע

חוסר תלות בעץ גזירה אי הסתמכות המודל על עץ גזירה המכיל את כל

חלקי המשפט, מוביל לקשיים רבים בשלב המצרף הגלובאלי ומקשה על סידור המשפט

בצורה המדויקת ביותר

התהליך“structural transfer”הינו גזלן זמן מזמן ה-95%ממלא CPU המוקצה למשימת

התרגום הסיבה לכך- קבצי המידע נקראים בזמן אמת

ואינם מתורגמים מראש לקבצים בינאריים

59

Page 60: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

מגבלות המנוע

:אין טיפול בביטויים מסובכיםביטויים בהם יותר ממילה אחת מוטה

:דוגמא לביטוי בו רק מילה אחת מוטה“Take away”

ביטויים בהם לא כל המילים הינן ברצף :דוגמא“Take the rubbish out”

60

Page 61: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

המידע הנדרש

-מילונים חד לשוניים משמש לתהליכי הניתוח המורפולוגי (בשפת המקור) והיצירה

המורפולוגית (בשפת היעד) להלן סטטיסטיקה שנאספה על המילונים החד לשוניים בהתבסס על

קורפוסים שונים:

61

Surface מספר צורות השטח שהמנתח מכיר. זה כולל מילים עם מיליות -שמתחברות אליהן (לדוגמא- בבית)

Ambiguity ממוצע הדו משמעות לצורת שטח, כלומר מספר הצורות -הלקסיקליות הממוצע שנוצרו באפרטיום לכל צורת שטח. אינדיקציה עד כמה

מורפולוגיית השפה מסובכתCoverage לאיזה אחוז מצורות השטח בקורפוס מוחזרת צורה לקסיקלית -

כלשהי מהמילוןCorpusבאיזה קורפוס נעשה שימוש -

Page 62: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

-מילונים דו לשוניים חץ בגרף מציין שקיים מילון דו לשוני בין השפות

שבצמתים המספרים על הקשתות מייצגים את מספר הכניסות

במילון עבור שני הצמתים -נשים לב

לא כל הקשתות xx(למה?) דו-כיווניות

המידע הנדרש62

Page 63: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

התפלגות הבקשות

סטטיסטיקה על בקשות התרגום באתרהמכונה אפרטיום:

63

Page 64: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

מגבלות ייצוג המידע

:הייצוג המורפולוגי קשה כאשרשפות צירופיות- טורקית, בסקית

שפות צירופיות הינן שפות בהן מוספות מורפמות רבות ללמהעל מנת להביע רעיון שלהם במילה אחת. כתוצאה מכך ישנן

המון צורות שטח בשפה שמכילים כל אחד קטגוריות לקסיקליות רבות

:דוגמא מהשפה הטורקית מילת הבסיס היאaraba (מכונית, שם עצם) ואליה מצטרפות

שייכות-רבים-גוף שני, ג) פועל מיקום, ב) מורפמות המביעות א)בעבר בגוף שלישי

64

Page 65: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

מגבלות ייצוג המידע (המשך)65

:הייצוג המורפולוגי קשה כאשרמורפולוגיה לא משורשרת- ערבית, עברית

מורפולוגיה לא משורשרת לא מתבססת עלהוספת מורפמות למילה אלה שינוי פנימי

של המילה לחלוטין :דוגמאות

foot- feet) ילד – ילדיםyeled - ylad+im(ולד – אולאד

Page 66: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

מגבלות ייצוג המידע (המשך)

:הייצוג המורפולוגי קשה כאשר ,שפות בהם ישנם רכיבים שמובעים במילה אחת- גרמנית

איסלנדית מילה ארוכה המורכבת מחלקים רבים על מנת להביע

רעיון מסויים וספציפי ביותר :דוגמא מגרמנית

Rechtsschutzversicherungsgesellschaftenחברות ביטוח שנותנות הגנה משפטית""אשר פירושה

נשים לב שהמילה מבטאת צירוף תחבירי בודד (במקרהזה צירוף שמני), זאת בניגוד לשפות צירופיות בהן מילה

אחת יכולה להכיל מספר צירופים תחביריים

חוסר הכרות מספקת עם ההטיות השונות

66

Page 67: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

אפרטיום מול מכונות אחרות

:נתוני ההשוואה הטבלה מתארת את הקורפוסים (טקסטים עליהם

בוצעה ההשוואה, מספר המשפטים ומספר המילים בכל שפה)

על הקורפוסים האלה נעשים ניסויים המתוארים בהמשך

67

Page 68: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

אפרטיום מול מכונות אחרות (המשך)

:התוצאות - הגדרותWER (word error rate)-

כמות ההחלפות ההוספות וההחסרות שיש להגיע למשפט הרצוי חשיבות לסדר המיליםעםיחסית למספר המילים במשפט

TER (translation edit rate)- כמות ההוספות שיש לעשות על מנת להגיע למשפט הרצוי יחסית

למספר המילים במשפטPER (position independent error rate)-

כמות ההחלפות ההוספות וההחסרות יחסית למספר המילים חשיבות לסדר המיליםבליבמשפט

68

Page 69: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

אפרטיום מול מכונות אחרות (המשך)

-תוצאות ההשוואה ברוב המקרים אפרטיום משיג תוצאות קרובות

לתוצאות שהושגו ע"י מכונות תרגום מסחריות סגורות מבוססות חוקים

:הבדלים גדולים נצפו בזוגותאנגלית- ספרדיתנורווגית ספרותית- חדשה

ככל הנראה עקב השוני הגדול בין השפות במקרה

הראשון ודלילות החומר במקרה השני

69

Page 70: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

אפרטיום- תוכנת קוד פתוח

:כזכור, אחת המטרות של הפרויקט למשימות של קוד פתוח לספק פלטפורמת

תרגום מכונה ועיבוד שפות טבעיות היותה של התוכנה "קוד פתוח", בצירוף העובדה כי

הידע הבלשני הנדרש לפיתוח בפלטפורמה הינו בסיסי הובילה לקהילת מפתחים גדולה ופעילה

לרוב בשפות בהן מספר הקורפוסים קטן ועבורןלא קיימת מכונת תרגום מוצלחת

-מפתחים חיצוניים בפלטפורמה100כ

70

Page 71: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

אפרטיום- תוכנת קוד פתוח

שפות טבעיות משתנות במהירות גדולה, ועל כןקהילת מפתחים ומשתמשים גדולה עוזרת לשמר

את התוכנה עדכנית מנגד, תוכנת קוד פתוח גוררת לעיתים קיום של

מספר גרסאות לתוכנה, השונות מעט זו מזו, ולבלבול רב ביניהן

-אפרטיום מהווה חלק מגרסת הלינוקס הנפוצה)ubuntoאובונטו (

71

Page 72: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

אפרטיום- תוכנת קוד פתוח

קיימים כלי פיתוח וקטעי קוד חיצוניים אשר נכתבוע"י קהילת המפתחים אשר מוסיפים פונקציונליות

נוספת לתוכנה ומשפרים אותה

החלק השני של ההרצאה יעסוקבפונקציונליות אשר תורמות שתי

הרחבות לתוכנה, וניתוח השפעותיהן על תוצאותיה

72

Page 73: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

) למילונים של Named Entitiesהוספת שמות (הרחבה לאפרטיוםאפרטיום

Antonio Toral & Andy Way :Automatic acquisition of ,

named entities for rule-based machine translation ,2011

73

Page 74: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

חשיבותם של שמות

:לשמות יש תפוצה ייחודית ומאתגרתנפוצים מאוד עם מגוון רחב מאוד של שמותכל שם בפני עצמו יכול להופיע במאגרים מספר מועט של פעמיםשמות חדשים מתווספים כל הזמן שמות יכולים להיות גם שמות עצם רגילים בהקשרים מסוימים ולכן

חשוב לזהות גם את המשמעות של השם וגם את המשמעות של שם העצם ולשמור את שתי המשמעויות במילונים

:מסקנה:דורש תחזוקה מרובה קשה לתחזק מאגר שמות באופן ידני

ושוטפת במחקר זה הכוונה בשמות היא לשמות של אנשים, מקומות, חברות

וכדומה

74

Page 75: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

הכנסה אוטומטית של שמות

:הרעיוןלזהות שמות באופן אוטומטי ממאגר טקסטים כלשהו להכניס את השמות כערכים לקסיקליים למילונים של

אפרטיום באופן אוטומטי (על ידי תוכנות שעושות זאת)

לבחון את איכות ההכנסה

75

Page 76: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

MINELex – The Multilingual and Interoperable Named Entity Lexicon

) מאגר של שמותNamed Entities-שפות שנגזר 11) ב באופן אוטומטי מוויקיפדיה

:לכל שם נשמרים שני ערכים מספרייםמספר ההופעות שלו בקורפוסאחוז מההופעות שלו שהיו עם אות גדולה בהתחלה

הערכים ישמשו בהמשך על מנת לקבל החלטה אילו שמותיש להכניס למילוני האפרטיום ואילו לא

76

Page 77: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

MINELex – The Multilingual and Interoperable Named Entity Lexicon (cont.)

-ערך בMINELex:(יקטרינבורג – עיר ברוסיה) לדוגמה

NE English = Yekaterinburg

NE Spanish = Ekaterimburgo

Number occurrences = 190

Percentage capitalized = .95

77

Page 78: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

הכנסה לאפרטיום

בהינתן זוג של שמות מקבילים משתי שפות, יש לעדכן אתהמילונים הבאים באפרטיום:

שם שפת המקור - במילון שפת המקור (מילוןחד-לשוני):

) מכניסים ערך מילוניword entry עבור המילה ומוסיפים (של שמות, הכולל )paradigmהפנייה לערך ההטייה (

) ומידע על proper nounלמשל את הקטגוריה הדקדוקית (מין השם ופרטים נוספים (למשל בשפות מסוימות אפשר היה

להכניס את היחסה שלו אם יש)

(מילון חד-לשוני) שם שפת היעד - במילון שפת היעד

מידע ההעברה במילון הדו-לשוני

78

Page 79: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

הכנסה לאפרטיום (המשך)

ההכנסה נעשית באופן אוטומטי על ידי שתיתוכנות:

-תוכנה המייצאת מידע מMINELex הכולל את השם בשפת המקור ובשפת היעד וכן את הערכים

המוצמדים לו (מספר ההופעות ואחוז ההופעות עם אות גדולה) ופרמטרים נוספים

תוכנה הקוראת את הפלט של התוכנה הראשונהומכניסה בהתאם ערכים למילונים של אפרטיום

79

Page 80: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

שאלות המחקר

האם שמות שהוכנסו באופן אוטומטייכולים להוות תחליף לשמות שתויגו

באופן ידני ?

האם שמות שהוכנסו באופן אוטומטייכולים לתרום למערכת שיש בה כבר

שמות שתויגו באופן ידני ?

80

Page 81: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

תרומת שמות לאפרטיום

לפני שבודקים מהי התרומה של השמות שהושגובאופן אוטומטי, יש לבדוק מהי התרומה של השמות

שכבר נמצאים במילונים של אפרטיום – כלומר, האם זיהוי שמות חשוב לאיכות התרגום של אפרטיום

-2000ההערכות נעשו על סמך מאגר חדשותי ובו כ זוגות משפטים באנגלית ובספרדית

81

Page 82: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

תרומת שמות לאפרטיום (המשך)

en->esתרגום מאנגלית לספרדית :es->en: תרגום מספרדית לאנגליתno_nes: ללא שמות כלל (כלומר ללא השמות שכבר נמצאים במאגר של אפרטיום – בלי קשר

לתוספת שבעניינה אנו דנים כעת)nesעם שמות :UNK לאחר שמוסיפים שמותיורד בכשליש : מספר המילים הלא מזוהות – מספר זהBLEU הינה מטריקה שמטרתה להשוות בין התרגום המוצע לתרגום אנושי. בודקים כמה התרגום :

)gram-4 (בדרך כלל n-gramבאמצעות השוואה של (התרגומים הנכונים)referencesקרוב ל--ציוני התרגום השונים (העמודות שמימין לUNK שאיכות התרגום גבוהה במערכת ) מראים

הכוללת שמות. שימו לב שבשלב זה עדיין לא הערכנו את התרומה של הכנסת השמות האוטומטית

82

Page 83: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

שמות אוטומטיים כתחליף :1שאלת מחקר לשמות ידניים

נעשתה השוואה בין מערכת אפרטיום רגילה (עםלבין מערכת אפרטיום ללא שמות שתויגו ידנית)

שמות שהוכנסו אליה שמות באופן אוטומטי (בתהליך שתיארנו קודם לכן)

הניסוי נעשה על פני קומבינציות שונות של ערכיםמספר ההופעות מספריים (הערכים שהוזכרו קודם:

ואחוז ההופעות שהמילה מתחילה עם אות גדולה) . MINELexשעל פיהם נקבע אילו מילים הוכנסו מה-

בכולן נתקבלו תוצאות דומות למדי ולכן בהמשך לא נתייחס להבחנה בין קומבינציות שונות של ערכים

83

Page 84: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

שמות אוטומטיים :1שאלת מחקר כתחליף לשמות ידניים (המשך)

:אנגלית ספרדית הינה מערכת האפרטיום עם שמות מתויגים ידנית

(ברוב המטריקות באופן מובהק) מערכת טובה יותר ממערכת האפרטיום עם שמות מתויגים אוטומטית

מערכת האפרטיום עם שמות מתויגים אוטומטית (ברוב המטריקות באופן הינה מערכת טובה יותר

ממערכת האפרטיום ללא שמות מובהק)

ידנית אוטומטית ללא שמות

טובה מ-טובה מ-

84

Page 85: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

:ספרדית אנגלית הינה מערכת אפרטיום עם שמות מתויגים ידנית

ממערכת טובה יותר )לא בהכרח באופן מובהק(האפרטיום עם שמות מתויגים אוטומטית

הינה מערכת אפרטיום עם שמות מתויגים אוטומטית (ברוב המקרים באופן מובהק) ממערכת טובה יותר

האפרטיום ללא שמות

אוטומטית ללא שמות??ידנית

: שמות אוטומטיים 1שאלת מחקר כתחליף לשמות ידניים (המשך)

לא בהכרח טובה מ-

טובה מ-

85

Page 86: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

הוספה של שמות אוטומטיים :2שאלת מחקר למערכת עם שמות שהוכנסו ידנית

-שמות שהושגו מMINELex הוכנסו למערכת אפרטיום שכבר יש בה שמות מתויגים ידנית ונעשתה השוואה בין

המערכת החדשה לבין המערכת לפני ההוספה

:אנגלית ספרדית ירידה קלה שאינה מובהקות ברוב ציוני התרגום שנבדקו

בעקבות ההוספה לעומת זאת, מספר המילים הלא מזוהות קטן – באחת

הקונפיגורציות אחוז המילים הלא מזוהות שזוהו בזכות אחוז 11.3השינוי הגיע ל-

86

Page 87: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

הוספה של שמות אוטומטיים :2שאלת מחקר למערכת עם שמות שהוכנסו ידנית (המשך)

:ספרדית אנגלית עלייה קלה ברוב ציוני התרגום שנבדקו בעקבות

ההוספה, בחלקם עלייה מובהקת מספר המילים הלא מזוהות קטן – באחת

הקונפיגורציות אחוז המילים הלא מזוהות שזוהו בזכות אחוז 10.9השינוי הגיע ל-

87

Page 88: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

סיכום

לשמות תרומה מכרעת לתרגום מכונה באפרטיום שמות שהוכנסו באופן אוטומטי שיפרו מערכת

ללא שמות כלל מערכת עם שמות שהוכנסו באופן אוטומטי

הפגינה ביצועים פחות טובים (אנגלית ספרדית)או ביצועים באותה רמה (ספרדית אנגלית)

לעומת המערכת שאליה הוכנסו שמות המתויגים ידנית

88

Page 89: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

סיכום (המשך)

הוספה של שמות באופן אוטומטי למערכת עםשמות מתויגים ידנית לא פגעה בביצועים (אנגלית

או שיפרה אותם (ספרדית אנגלית) ספרדית)בכל מקרה מספר המילים הלא מזוהות קטן

89

Page 90: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

הרחבה לאפרטיום) מתורגמים למערכת chunksהוספה אוטומטית של חלקי משפט (

של אפרטיום

Sánchez-Martínez, F. and Forcada, M.L. and Way, A. "Hybrid rule-based ‒ example-based MT: Feeding

Apertium with sub-sentential translation units“, 2009

90

Page 91: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

מוטיבציה – למה אנחנו רוצים להיעזר ) מתורגמיםchunksבחלקי משפט (

) חלקי משפטsub-sentential chunks( מתייחסיםלרכיבים, המביעים צירוף של מספר מילים בעץ

הגזירה של המשפט

גם אם קל לגלות את המקור לשגיאות במערכתמבוססת חוקים, קשה לתכנת את השינויים הדרושים

למערכת הנובעים מהן

לעיתים המערכת מוציאה לחלק משפט מסויםתרגום נכון באופן כללי אך לא התרגום המתאים

ביותר בהקשר הזה

91

Page 92: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

הרעיון – כיצד נשלב חלקי משפט ממקור אחר

שליפה של חלקי משפט דו לשוניים מתוך קורפוסמקבילי כלשהו ובניית מאגר חלקי משפט

תרגום כרגיל בעזרת המערכת של אפרטיום תוך סימוןכלשהו של חלקי המשפט שנרצה אחר כך לשקול

להחליף את תרגומם בתרגום מתוך מאגר חלקי המשפט

(היכן שיש כאלה) תהליך מציאת תרגומים הולמים יותרעל בסיס מאגר חלקי המשפט => החלפה של התרגום

שאפרטיום מציע בתרגום מתוך מאגר חלקי המשפט

92

Page 93: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

(כיסוי מיטבי)Best-Coverageאלגוריתם

:בהינתן משפט בשפת המקור, המטרה המטרה למצוא כיסוי של חלקי משפט (מתוך המאגר של

כמה שפחות חלקי משפטחלקי המשפט) עם (=חלקי המשפט הארוכים ביותר)

-ההנחה היא שככל שחלקי המשפט (הchunks( ארוכים יותר, כך הסיכוי שלהם להיות מדויקים

יותר גבוה יותר, שכן הם מכילים יותר הקשר

:אלגוריתם תכנות דינמיהאמצעי

93

Page 94: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

94

Page 95: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

Best-Coverageאלגוריתם (המשך)

M[i] מיפוי לכיסוי הכי טוב עד המילה שהאינדקס שלה – chunksהציון = מספר ה-, והציון של כיסוי זה. iהוא

המינימלי המכסה את המשפט עד המילה הזוQ קבוצת המצבים; כל מצב מתאר קבוצה של חלקי –

של המשפט) בשפת chunks מתוך כל ה-prefixמשפט (המקור

עוברים על כל המצבים האפשריים עבור מילה מסוימת האפשריים שניתן להצמיד להchunksובודקים מה ה-

יכול להיות שעבור מילה מסוימת לא כדאי לצרף אותה המילים i-1, ועדיף שהציון שלה יהיה על סמך chunkל-

בודדchunkהקודמות, כשהמילה הנוכחית מתווספת כ-

95

Page 96: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

- Best-Coverageאלגוריתם דוגמה

:דני אכל ארוחת בוקר היום בבית המשפט-נניח שבמאגר הchunks-נמצאים ה chunks ,'הבאים: 'דני אכל', 'ארוחת בוקר

'היום בבית', 'דני אכל ארוחת בוקר היום', 'דני', 'אכל', 'ארוחת', 'בוקר', 'היום', בשביל הכיסויchunks'בבית'. רק מתוך מאגר זה ניקח

=) מספר ה-זהו הציוןchunks שמאפשרים לכסות את חלק המשפט המינימליעד המילה הנתונה) עבור כל אחת מן המילים – נזכיר שאנו שואפים לציון

מינימלי: = 1דני) chunk(בודד = בזכות 'דני אכל' – 1אכל) chunk-במאגר ה chunks( = הציון של 'אכל' + 'ארוחת') (תכנות דינמי:2ארוחת = הציון של 'אכל' + 'ארוחת בוקר') (תכנות דינמי:2בוקר = בזכות 'דני אכל ארוחת בוקר היום' שנמצא במאגר ה-1היום) chunks זה .

)3עדיף על פני הציון של 'בוקר' + 'היום' = = הציון של 'היום' + 'בבית'. עדיף מאשר הציון של 'בוקר' + 'בבית 2בבית)

)3היום' = 'החלוקה המתקבלת היא 'דני אכל ארוחת בוקר היום' + 'בבית

96

Page 97: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

התאמה של אפרטיום

החלקdeformatter מתוך המנוע של אפרטיום (החלק שהכניס סימני עריכה לסוגריים מרובעים)

משמש להכנסת סימנים מסביב לחלקי המשפט שזוהו

97

Page 98: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

הניסויים

הרעיון המוצע במאמר נבדק על תרגום מאנגלית לספרדיתולהיפך

-הקורפוס נלקח מתוך סדנה שנערכה בכנס הEACL – כנס בלשנות חישובית אירופאי

:השגת חלקי המשפט הדו-לשוניים חלקי המשפט נשלפו באופן אוטומטי מקורפוס מקבילי בספרדית

ובאנגלית

:הפעלת פילטרים לסינון משפטים או חלקי משפט בעייתיים או כאלו עם יחס במספר מילים)45משפטים ארוכים מדי (מעל

(באחד הכיוונים) לא נכללו בשליפה1.5המילים הגבוה מ-) לאחר הפעלת יישור מיליםword-alignment ,(chunks עם מילים

עם סימני פיסוק או מספרים לא נכללו chunksלא מיושרות או בשליפה

98

Page 99: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

הניסויים (המשך)

-הchunks מתקבלים בזכות מערכת Matrex המשתמשת :marker-hypothesisב- ישנה קבוצה קטנה של מילים בכל שפה שמייחדים אותה ומאפשרים

להבדיל בין רכיבים שונים מבחינה תחבירית כךchunks הם למעשה רכיבים שמופרדים על ידי מילות markers .

marker חייב להכיל לפחות מילה אחת שאינה chunkבנוסף כל -דוגמאות לmarkers:באנגלית the, is, and, but, or, from,

toוכדומה

-כאשר לchunk יש יותר מתרגום אפשרי אחד, משתמשים (כלים לבניית מודלי SRILMבמודל שפה הלקוח ממערכת ה-

SRI במרכז STARשפה סטטיסטיים שפותחו במעבדת בארה"ב)

99

Page 100: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

הניסויים (המשך)

השוואה בין תרגום אפרטיום רגיל (מבלי להיעזר הדו-לשוניים) ובין תרגום אפרטיום chunksב-

הדו-לשונייםchunksשנעזר ב-

-מנייה של מספר הchunks שזוהו ואחוז שזהים לתרגום שמציע chunksהתרגומים של ה-

אפרטיום

100

Page 101: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

התוצאות101

תהליך מציאת תרגומים הולמים יותר (היכן שיש כאלה) עלבסיס מאגר חלקי המשפט => החלפה של התרגום שאפרטיום מציע בתרגום מתוך מאגר חלקי המשפט

בבדיקה מוקדמת נקבע סף שלפיו מכריעים אילוchunks לקחת בחשבון בתרגום – סף שמוגדר על ידי מספר

θ בקורפוס הפיתוח ומסומן ב-chunksההופעות של סף זה נבדק על ידי בדיקת איכות התרגום בקורפוס

chunksהפיתוח. סף זה מגדיר למעשה מהי קבוצת ה-test setשבה משתמשים לתרגום ה-

Page 102: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

תוצאות (המשך)

(לא מובהק) במטריקה שיפור קלBLEU:BLEU הינה מטריקה שמטרתה להשוות בין התרגום

המוצע לתרגום אנושי. בודקים כמה התרגום קרוב באמצעות השוואה (התרגומים הנכונים)referencesל-

)gram-4 (בדרך כלל n-gramשל

-אחוז מהמילים בקורפוס כוסו על ידי ה-18כ chunks שנבחרו להחליפן

-כמחצית מהchunks תורגמו באופן זהה לתרגום שהציע אפרטיום

102

Page 103: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

סיכום

ההיעזרות בחלקי המשפט שהושגו ממקור חיצונישיפרה את איכות התרגום, אם כי לא באופן

מובהק

מספר התרגומים שהציעה מערכת האפרטיוםהשונים מהתרגומים של מאגר חלקי המשפט אינו

גדול במיוחד

103

Page 104: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

סיכום (המשך)

הצעה לשיפור: שינוי הסף שלפיו קובעים אילוחלקי משפט יילקחו בחשבון בתרגום המשפטים

(במקום הסף הנוכחי שמתייחס רק לשכיחותם של חלקי המשפט בקורפוס)

104

Page 105: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

אז מה למדנו היום?105

אפרטיום- מכונת תרגום מבוססת חוקים בעלתפלטפורמת קוד פתוח

-מנוע האפרטיום מחולק לשלושה שלבים מרכזייםניתוח חלקי המשפט בשפת המקורתרגום לשפת היעד הרכבת המשפט בשפת היעד

:תוצאות מכונת התרגום אפרטיום מובילה ברוב המקרים לתוצאות

קרובות מאד לאילו של המכונות (הסגורות והמסחריות) המובילות בשוק

Page 106: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

אז מה למדנו היום?106

הרחבות ותוספות לפלטפורמת הקוד הפתוח שלאפרטיום:

הוספת תיוג ידני/ אוטומטי של שמותלרוב תיוג ידני של שמות עדיף על תיוג אוטומטי לרוב תיוג אוטומטי של שמות עדיף על מכונה ללא

התייחסות לשמות

הוספת תרגום חיצוני של חלקי משפט שכיחים התוצאה- העלאת ההסתברות לתרגום נכון והמעטת

מספר השגיאות

Page 107: אפרטיום מערכת תרגום מכונה חופשית מבוססת חוקים

107