ฬาลงกรณ มหาวิทยาลัย 2548 isbn...

93
การระบุคําไทยและคําทับศัพทดวยแบบจําลองเอ็นแกรม นายอัครพล เอกวงศอนันต วิทยานิพนธนี้เปนสวนหนึ่งของการศึกษาตามหลักสูตรปริญญาอักษรศาสตรมหาบัณฑิต สาขาวิชาภาษาศาสตร ภาควิชาภาษาศาสตร คณะอักษรศาสตร จุฬาลงกรณมหาวิทยาลัย ปการศึกษา 2548 ISBN 974-53-2360-8 ลิขสิทธิ์ของจุฬาลงกรณมหาวิทยาลัย

Upload: others

Post on 22-Feb-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

การระบคาไทยและคาทบศพทดวยแบบจาลองเอนแกรม

นายอครพล เอกวงศอนนต

วทยานพนธนเปนสวนหนงของการศกษาตามหลกสตรปรญญาอกษรศาสตรมหาบณฑต

สาขาวชาภาษาศาสตร ภาควชาภาษาศาสตร

คณะอกษรศาสตร จฬาลงกรณมหาวทยาลย

ปการศกษา 2548

ISBN 974-53-2360-8

ลขสทธของจฬาลงกรณมหาวทยาลย

Page 2: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

IDENTIFICATION OF THAI AND TRANSLITERATED WORDS BY N-GRAM MODELS

Mr. Akarapol Ekwonganan

A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree of Master of Arts in Linguistics

Department of Linguistics Faculty of Arts

Chulalongkorn University Academic Year 2005 ISBN 974-53-2360-8

Page 3: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

หวขอวทยานพนธ การระบคาไทยและคาทบศพทดวยแบบจาลองเอนแกรม

โดย นายอครพล เอกวงศอนนต

สาขาวชา ภาษาศาสตร

อาจารยทปรกษา ผชวยศาสตราจารย ดร.วโรจน อรณมานะกล

คณะอกษรศาสตร จฬาลงกรณมหาวทยาลย อนมตใหนบวทยานพนธฉบบนเปน

สวนหนงของการศกษาตามหลกสตรปรญญามหาบณฑต

………………………………………….…คณบดคณะอกษรศาสตร

(ศาสตราจารย ดร.ธระพนธ เหลองทองคา)

คณะกรรมการสอบวทยานพนธ

………………………………………………..ประธานกรรมการ

(ผชวยศาสตราจารย ดร.สดาพร ลกษณยนาวน)

………………………………………………..อาจารยทปรกษา

(ผชวยศาสตราจารย ดร.วโรจน อรณมานะกล)

………………………………………………..กรรมการ

(อาจารย ดร. ณฐกร ทบทอง)

Page 4: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

อครพล เอกวงศอนนต : การระบคาไทยและคาทบศพทดวยแบบจาลองเอนแกรม.

(IDENTIFICATION OF THAI AND TRANSLITERATED WORDS BY N-GRAM

MODELS) อาจารยทปรกษา : ผศ. ดร. วโรจน อรณมานะกล, จานวน 270 หนา. ISBN

974-53-2360-8.

วตถประสงคของการวจยครงน เพอตองหาสายอกขระเฉพาะสาหรบใชในการระบภาษา

ของคาโดยใชคลงขอมลคาไทย คาทบศพทภาษาองกฤษ ภาษาญปนและภาษาฝรงเศส และ

พฒนาระบบการระบภาษาของคาไทยและคาทบศพทภาษาตางประเทศโดยใชสายอกขระ

เฉพาะและใชแบบจาลองเอนแกรมขนาด 1-5 แกรม

คลงขอมลทใชในงานวจยน คอ คลงขอมลคาไทย คาทบศพทภาษาองกฤษ ภาษาญปน

ภาษาละ 10,000 คา และคาทบศพทภาษาฝรงเศส 1,000 คา โดยเกบจากขอมลทพบใน

ภาษาธรรมชาตซงอาจจะไมไดทบศพทถกตองตามเกณฑของราชบณฑตยสถานกได 80%

ของคลงขอมลถกนามาใชเพอหาสายอกขระเฉพาะและสรางแบบจาลองเอนแกรมของแตละ

ภาษา ในขณะทอก 20% ถกใชเพอการทดสอบระบบแบบตางๆ

สายอกขระเฉพาะทพบสะทอนใหเหนถงลกษณะเฉพาะของแตละภาษาไดในระดบหนง

จงมผลใหระบบทใชสายอกขระเฉพาะในการระบภาษาสามารถตดสนภาษาไดถกตอง 50.58%

48.71% 54.09% และ 20.40% สาหรบคาไทย คาทบศพทภาษาองกฤษ ภาษาญปน และ

ฝรงเศส ตามลาดบ

เมอใชแบบจาลองเอนแกรมในการระบภาษา ระบบสามารถระบภาษาของคาไทย คาทบ

ศพทภาษาองกฤษ และญปนไดถกตองกวา 90% แตไดเพยงประมาณ 60% สาหรบคาทบศพท

ฝรงเศส ผลทไดยนยนวาขนาดของขอมลการฝกมผลตอการทางานของระบบการระบภาษาทง

สองระบบ นอกจากน จากผลทพบวาระบบทใชแบบจาลอง 3-แกรมใหผลดกวาระบบทใชขนาด

แกรมอนๆ ทาใหสรปไดวา ขนาดของเอนแกรมมผลตอการทางานของระบบการระบภาษา

ภาควชา ภาษาศาสตร ลายมอชอนสต ...................................................

สาขาวชา ภาษาศาสตร ลายมอชออาจารยทปรกษา.................................

ปการศกษา 2548

Page 5: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

##4580259022 : MAJOR LINGUISTICS KEY WORD: LANGUAGE IDENTIFICATION AKARAPOL EKWONGANAN : IDENTIFICATION OF THAI AND TRANSLITERATED

WORDS BY N-GRAM MODELS. THESIS ADVISOR : ASST. PROF. WIROTE AROONMANAKUN, Ph.D., 270 pp. ISBN 974-53-2360-8.

This research aims to find the unique character sequences of Thai and transliterated words (English, Japanese, and French), and implement language identification systems using unique character sequences and n-gram models (1-5 gram). The corpora in this research consist of 10,000 Thai words, 10,000 English transliterated words, 10,000 Japanese transliterated words, and 1,000 French transliterated words. Transliterated words are collected from naturally occurring texts, even some of them are not conformed to the Royal Institute guidelines of transliteration. 80% of the corpus is used to extract unique character sequences and to build an n-gram language model of each language, while the other 20% is used for testing the systems. The unique character sequences reflect some characteristics of the languages. As a result, the system using unique character sequence can identify languages correctly 50.58%, 48.71%, 54.09%, and 20.40% for Thai words, English, Japanese, and French transliterated words respectively. When an n-gram language model is used, the system can identify languages correctly more than 90% for Thai, English and Japanese transliterated word, but only about 60% for French transliterated words. This confirms that the size of training corpus affects the performances of both systems. The results also show that the system using 3-gram model performs better than other n-gram models. Therefore, we can conclude that the size of n-gram does affect the performance of the language identification system.

Department LINGUISTICS Student’s signature………………………………

Field of study LINGUISTICS Advisor’s signature……….................................

Academic year 2005

Page 6: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

กตตกรรมประกาศ

วทยานพนธฉบบนสาเรจลงไดดวยความชวยเหลออยางดยงของผชวยศาสตราจารย

ดร. วโรจน อรณมานะกล อาจารยทปรกษาวทยานพนธ ซงทานไดใหคาปรกษา แนะนา ชวย

ตรวจทาน แกไข งานวจยดวยความเอาใจใสเปนอยางด และจดประกายใหผวจยทางานวจยน

ผวจยขอกราบขอบพระคณผชวยศาสตราจารย ดร. สดาพร ลกษณยนาวน และ ดร. ณฐกร

ทบทอง ทไดกรณาใหคาแนะนาและขอคดเหนในการทาวทยานพนธฉบบนดวยความเอาใจใส

ทงยงชวยตรวจแกไขใหสาเรจสมบรณยงขน

ผวจยขอขอบพระคณคณาจารยภาควชาภาษาศาสตร คณะอกษรศาสตร จฬาลงกรณ

มหาวทยาลย ทใหความรความเมตตาสงสอนทงทางดานวชาการและการทางานวจย และผวจย

ขอกราบขอบพระคณบดา คณนาและคณปาทใหความรก ความเขาใจ ความเอาใจใส ใหโอกาส

และสนบสนนทกดาน รวมทงเปนกาลงใจใหแกผวจยตลอดมา สดทายขอขอบคณพชายและ

เพอน ๆ ทคอยใหคาแนะนา ปรกษา ในการทาวจย รวมทงเปนกาลงใจใหงานวจยนสาเรจดวยด

Page 7: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

สารบญ

หนา

บทคดยอภาษาไทย ........................................................................................................... ง

บทคดยอภาษาองกฤษ ...................................................................................................... จ

กตตกรรมประกาศ .............................................................................................................ฉ

สารบญ..............................................................................................................................ช

สารบญตาราง ....................................................................................................................ฌ

สารบญภาพและแผนภม ....................................................................................................ญ

บทท

1 บทนา..................................................................................................................... 1

1.1 ความเปนมาและความสาคญของปญหา........................................................... 1

1.2 วตถประสงคของการวจย ................................................................................ 3

1.3 สมมตฐานการวจย .......................................................................................... 4

1.4 ขอบเขตของการวจย....................................................................................... 4

1.5 ประโยชนทคาดวาจะไดรบ .............................................................................. 4

1.6 โครงสรางวทยานพนธ..................................................................................... 5

1.7 ศพทเฉพาะทใชในงานวจย .............................................................................. 6

2 การระบภาษาของคาและขอความ ........................................................................... 7

2.1 แนวทางในการสรางแบบจาลองภาษา............................................................. 10

2.2 แนวทางในการสรางวธรวมสายอกขระเฉพาะ.................................................. 17

2.3 แนวทางในการจดทาระบบการระบภาษาของคา ............................................. 19

2.4 หลกเกณฑการทบศพทภาษาตางประเทศ ...................................................... 22

3 คลงขอมลคาทบศพท ............................................................................................. 24

3.1 การสรางคลงขอมล ........................................................................................ 24

3.2 เกณฑในการคดเลอกขอมล ............................................................................ 25

3.3 การสรางขอมลฝกสอนและขอมลทดสอบสาหรบใชในการทดลอง .................... 29

4 การระบภาษาของคาดวยสายอกขระเฉพาะ ............................................................ 31

4.1 ภาพโดยรวมของระบบ................................................................................... 31

Page 8: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

สารบญ (ตอ)

บทท หนา

4.2 โปรแกรมระบภาษาของคา ............................................................................. 32

4.3 ผลการทดลอง ................................................................................................ 34

4.4 วเคราะหผลการทดสอบ ................................................................................. 37

4.5 ปญหาการตดสนคาผดพลาดทเกดขนจากการใชสายอกขระเฉพาะ 1-5 ตว...... 38

4.6 สายอกขระเฉพาะทใชจรงในระบบ .................................................................. 41

4.7 การวเคราะหสายอกขระเฉพาะ ....................................................................... 51

4.8 สรปผลการใชวธสายอกขระเฉพาะ.................................................................. 59

5 การระบภาษาของคาดวยแบบจาลองภาษา............................................................. 61

5.1 การสรางแบบจาลองภาษา (Language model) .............................................. 61

5.2 โปรแกรมระบภาษาของคาดวยแบบจาลองภาษา ............................................ 62

5.3 สรปผลการทดลอง ......................................................................................... 64

5.4 ปญหาการตดสนคาผดพลาดทเกดขนจากแบบจาลองภาษา ............................ 67

5.5 สรปการใชแบบจาลองภาษาเอนแกรม ............................................................ 69

6 โปรแกรมระบภาษาของคา ..................................................................................... 70

6.1 ภาพโดยรวมของระบบ................................................................................... 70

6.2 โปรแกรมระบภาษาของคา ............................................................................. 71

6.3 สรปผลการทดลอง ......................................................................................... 73

7 สรปผลการวจย อภปรายผลและขอเสนอแนะ ......................................................... 76

7.1 สรปผลการวจย .............................................................................................. 76

7.2 อภปรายผลการวจย ....................................................................................... 77

7.3 ขอเสนอแนะ .................................................................................................. 79

รายการอางอง .................................................................................................................. 81

ภาคผนวก ........................................................................................................................ 84

ภาคผนวก ก สายอกขระเฉพาะ............................................................................... 85

ภาคผนวก ข สายอกขระเฉพาะทใชจรงในระบบและจานวนครงทใช........................ 230

ประวตผเขยนวทยานพนธ ............................................................................................... 270

Page 9: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

สารบญตาราง

ตารางท หนา

2.1 ตวอยางการจาแนกภาษาของขอความ................................................................ 7

2.2 ตวอยางการระบภาษาของคา ............................................................................. 8

2.3 ตวอยางการเปรยบเทยบความนาจะเปนของการระบประเภท

ของขอความ ..................................................................................................... 16

2.4 ตวอยางการใชวธรวมสายอกขระเฉพาะ (Dunning, 1994).................................. 17

3.1 การเขยนทบศพททตางจากเกณฑทางราชบณฑตยสถาน .................................. 28

4.1 การแยกสายอกขระตามเอนแกรม 1-5 แกรม ..................................................... 33

4.2 ผลการตดสนภาษาไดถกตอง ผลการตดสนภาษาผดพลาดและผลการตดสน

ภาษาไมได ดวยสายอกขระเฉพาะ 1-5 ตว ........................................................ 35

4.3 ผลการตดสนภาษาของคาผดพลาดจากการใชสายอกขระเฉพาะ 1-5 ตว ............ 39

4.4 การเปรยบเทยบจานวนสายอกขระเฉพาะทพบในคลงขอมลการฝกและจานวน

ของสายอกขระเฉพาะทใชจรงในแตละภาษา ...................................................... 42

5.1 การแยกสายอกขระตามเอนแกรม 2-5 แกรม ..................................................... 63

5.2 ตวอยางผลการทดลองทไดแบบจาลองภาษา ..................................................... 64

5.3 ผลการตดสนภาษาของคาไดถกตองดวยแบบจาลอง 2-5 แกรม.......................... 65

5.4 ผลการตดสนภาษาของคาผดพลาดจากการใชแบบจาลองภาษา 2-5 แกรม......... 67

6.1 ผลการตดสนภาษาของคาไดถกตองดวยโปรแกรมระบคา (สายอกขระเฉพาะ

1-5 ตว และแบบจาลอง 2-5 แกรม) .................................................................. 74

6.2 ผลการเปรยบเทยบคาความถกตองของระบบสายอกขระเฉพาะ ระบบแบบจาลอง

ภาษา และระบบทประยกตทง 2 ระบบ .............................................................. 75

Page 10: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

สารบญภาพและแผนภม

ภาพและแผนภม หนา

ภาพท 3.1 การแบงสวนคลงขอมลในแตละภาษา .......................................................... 30

ภาพท 4.1 ลกษณะของการสรางสายอกขระเฉพาะ 1-5 แกรม....................................... 32

ภาพท 4.2 ขนตอนการทางานของโปรแกรมระบภาษาของคาดวยสายอกขระเฉพาะ ...... 33

ภาพท 5.1 ลกษณะของการแบบจาลองภาษาเอนแกรม................................................. 61

ภาพท 5.2 ขนตอนการทางานของโปรแกรมระบภาษาของคาดวยแบบจาลองภาษา....... 62

แผนภมท 5.3 การเปรยบเทยบการใชแบบจาลองของแตละภาษา ...................................... 66

ภาพท 6.1 ขนตอนการทางานของโปรแกรมระบภาษาของคา ....................................... 71

Page 11: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

บทท 1

บทนา

1.1 ความเปนมาและความสาคญของปญหา

เนองจากในปจจบน ประเทศไทยมการตดตอกบตางประเทศมากขน จงไดรบอทธพล

ทงทางวฒนธรรมและเทคโนโลยใหมๆ ภาษาทใชในปจจบน จงไมเพยงพอตอความตองการ

โดยเฉพาะศพทวชาการและศพทเทคนค มการแพรหลายอยางรวดเรว จงมการสรางคาหรอ

ศพทใหมๆ ขนมาใชในภาษาไทย เพอเรยกชอสงทเกดขนใหมๆ จากตางประเทศ ในรปของการ

ยมคา การแปล การบญญตศพทใหม ฯลฯ ในการบญญตศพทใหมๆนน ทางราชบณฑตยสถาน

ไดวางหลกเกณฑไว 2 ขอ คอ 1. สรางคาใหมจากคาศพททเปนคาไทยแทหรอจากบาล

สนสกฤต 2. หากไมสามารถบญญตศพทใหมได จะดวยเหตผลใดๆ กตามกใหใชการทบศพท

แทน การทบศพทจงเปนวธหนงของการสรางคาใหม

คาทบศพท หมายถง คาภาษาตางประเทศทเขยนดวยตวอกษรไทย อาจเปนคาสามานยนาม

เชน คอมพวเตอร เทคโนโลย ฟตบอล หรอคาวสามานยนาม เชน แปซฟก เมดเตอรเรเนยน

ไอบเอม ยเนสโก ฯลฯ (ราชบณฑตยสถาน, 2538)

คาทบศพทเรมใชกนอยางแพรหลาย และสามารถทบศพทจากภาษาตางประเทศตาง ๆ

ไดมากมาย เหนไดจากเกณฑทางราชบณฑตยสถาน (2535) มการกาหนดเกณฑการทบศพท

ไวทงหมด 9 ภาษา คอ ภาษาองกฤษ ภาษาฝรงเศส ภาษาญปน ภาษาเยอรมน ภาษาอตาล

ภาษาสเปน ภาษารสเซย ภาษาอาหรบ และภาษามลาย ตวอยางคาทบศพทจากราชบณฑตยสถาน

ไดแก

คาศพทภาษาองกฤษ ราชบณฑตยสถานบญญตวาเปน ทบศพทวาเปน

computer เครองจกรสมองกล คอมพวเตอร

plastics - พลาสตก

bacteria - บคเตร

Page 12: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

2

คาทบศพทเหลานเขยนโดยใชตวอกษรภาษาไทยและเขยนปะปนกบคาไทยทวไป ดงจะเหน

ไดจากคาทขดเสนใตในตวอยางขอความจากหนงสอเทคโนโลยคอมพวเตอรและสารสนเทศ

(ศรไพร, 2544) ซงจะแสดงใหเหนการใชศพทเฉพาะทางดงน

หนวยความจาหลก (MAIN MEMORY UNIT) เปนวงจรรวมหรอชปทใชบนทกโปรแกรมและ

ขอมล หนวยความจาหลกจะบรรจอยบนเมนบอรดหรอแผงวงจรหลก หนวยความจาบาง

ประเภทกถกออกแบบใหอยในชปพซยเลย หนวยของขอมลทจดเกบในหนวยความจาเรยกวา

ไบต (byte)ซง1ไบต จะประกอบไปดวย8บต นอกจากนยงมหนวยเปนกโลไบต (kilobyteหรอKB)

การแยกวาคาใดเปนคาทบศพทมาหรอเปนคาไทยอาจเปนเรองงายสาหรบมนษย แต

สาหรบคอมพวเตอรแลว การสามารถระบแยกวาสายอกขระทพบเปนคาไทยหรอคาทบศพทมา

และทบศพทจากภาษาใด ถอเปนงานหนงททาทายความสามารถของคอมพวเตอร และเปนพนฐาน

ทจาเปนในการพฒนาระบบประมวลผลภาษาไทย (Natural Language Processing) ตางๆ

ตวอยางเชน ในการพฒนาโปรแกรมทางดานการคนคนสารสนเทศขามภาษา (Cross-

Language Information Retrieval) จะมโปรแกรมสวนหนงททาหนาทถอดอกษรคาทบศพทกลบ

จากภาษาไทยเปนภาษาตนฉบบ (backward transliteration) เพอจะไดรวาคาเดมในภาษานน

คออะไร การจะทาเชนนได จาเปนตองมการระบภาษาของคาในขอความ กอนทจะนาไปใชกฎ

การถอดอกษร (transliteration) ในแตละภาษา

จากตวอยางขางบน จะเหนไดวาไมมคาหรอสญลกษณใดๆ ชใหเหนวาคาทขดเสนใต

เปนคาทบศพทภาษาองกฤษ เพราะในภาษาไทย มการใชคาไทยแทและคาทบศพทจากภาษา

อนๆ กลมกลนกนภายใตการใชตวเขยนภาษาไทย ถงแมวาคนทวไปอาจระบไดวาคาใดเปน

คาไทย หรอ เปนคาทบศพทจากภาษาองกฤษ ฝรงเศส หรอญปน แตคอมพวเตอรไมสามารถ

แยกความแตกตางของภาษาเหลานไดเอง หากเราจะนาขอความนไปใชกบโปรแกรมถอดตวอกษร

จากภาษาไทยเปนภาษาองกฤษ เราจะตองมการระบวาคาใดเปนคาไทย หรอคาทบศพท

ภาษาองกฤษกอน เพอใหคอมพวเตอรสามารถเลอกถอดอกษรเฉพาะคาทไมใชคาทบศพท

มฉะนนขอความทงหมดจะถกนาไปถอดตวอกษร ผวจยจงตองการจะพฒนาโปรแกรมทใชใน

การระบภาษาของคา เพอนาไปใชในการตดสนใจประมวลผลใหถกตอง กลาวคอ เมอใหคาท

ตองการมาโปรแกรมจะระบวาทบศพทมาจากภาษาใด เชน

Page 13: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

3

แบดมนตน = คาทบศพทภาษาองกฤษ นาไปถอดตวอกษรเปน Badminton

ฮาตาร = คาทบศพทภาษาญปน นาไปถอดตวอกษรเปนคาวา Hatari

หนงสอ = คาไทย นาไปแปลดวยขอมลดวย พจนานกรม เปนคา

วา Book

การพฒนาโปรแกรมทใชในการระบภาษาของคา อาศยการรวบรวมคลงขอมลคาทบศพท

ภาษาตางๆ และคาไทย ซงคาไทยในทนรวมไปถงคาทมาจากบาลสนสกฤตดวย เพราะผวจย

เหนวาการระบทมาของคา ไมวาจะเปนคาไทยแทหรอเปนบาลสนสกฤตนน ไมมความจาเปน

สาหรบการประมวลผลภาษาไทย เชน ในการถอดตวอกษรกลบจากภาษาไทยเปนภาษาองกฤษ

ทงคาไทยและคาบาลสนสกฤตจะไมถกนาไปถอดอกษร ในการแปลจากภาษาไทยเปนภาษา

อนๆ ทงคาไทยและคาบาลสนสกฤตจะถกนาไปหาคาแปลจากพจนานกรมสองภาษาเหมอนกน

ในขณะทถาเปนคาทบศพทภาษาอนจะถกถอดกลบเปนภาษาเดม หลงจากทไดคลงขอมล

คาทบศพทแลว จงใหคอมพวเตอรไดเรยนรขอมลทางภาษาและสายอกขระเฉพาะ (unique

character sequence) ของแตละภาษาในเชงสถต จากคลงขอมลนและในคลงขอมลคาทบศพท

ทใชในการทดลองน ผวจยเลอกคาทบศพทภาษาองกฤษ ญปน และฝรงเศส เนองจากคา

ทบศพทภาษาองกฤษและภาษาญปน มขนาดของขอมลมากและเปนตวอยางเพอทดลอง

เปรยบเทยบระหวางภาษาแถบตะวนตก และภาษาแถบเอเชย อกทงยงเลอกทดลองกบคา

ทบศพทภาษาฝรงเศสซงเปนภาษาทมตวอยางคาทบศพทนอย เพราะตองการทดสอบ

ประสทธภาพของระบบวาสามารถระบทมาของภาษาเมอเรยนรจากคลงขอมลขนาดเลกได

หรอไม

1.2 วตถประสงคของการวจย

1.2.1 หาสายอกขระเฉพาะ (unique character sequence) ในการระบภาษาของคาโดย

ใชคลงขอมลคาไทย คาทบศพทภาษาองกฤษ ญปนและภาษาฝรงเศส

1.2.2 พฒนาระบบการระบภาษาของคาไทยและคาทบศพทภาษาตางประเทศโดยใช

แบบจาลองเอนแกรม

1.2.3 ประเมนประสทธภาพของแบบจาลองเอนแกรมขนาดตางๆ ในการระบภาษาของคา

Page 14: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

4

1.3 สมมตฐานการวจย

1.3.1 คาไทยและคาทบศพทจากภาษาตาง ๆ จะมสายอกขระเฉพาะทใชระบภาษาของ

คานนได

1.3.2 ระบบการระบภาษาของคาสามารถใชระบภาษาของคาไดถกตองมากกวา 90%

1.3.3 ขนาดของแบบจาลองเอนแกรมมความสาคญตอประสทธภาพระบบการระบภาษา

1.4 ขอบเขตของการวจย

1.4.1 คาทบศพททใชเปนคาทบศพทจากภาษาองกฤษ ภาษาญปน และภาษาฝรงเศส

เทานน

1.4.2 คาไทย คาทบศพทภาษาองกฤษและคาทบศพทภาษาญปน จะรวบรวมจาก

พจนานกรมราชบณฑตยสถาน และหนงสอตางๆ จานวนไมตากวาภาษาละ 10,000 คา สวน

คาทบศพทภาษาฝรงเศสจะรวบรวมจากหนงสอตางศพทเฉพาะๆ จานวนไมตากวา 1,000 คา

อยางไรกตาม คาทบศพททพบในภาษาธรรมชาตมทงททบศพทตามเกณฑของราชบณฑตยสถาน

และทไมใชเกณฑตามราชบณฑตยสถาน ในทนผวจยรวบรวมขอมลคาทบศพทโดยไมสนใจวา

เปนการทบศพทตามเกณฑของราชบณฑตยสถานหรอไม เพราะในการทางานจรงโปรแกรม

ถอดอกษรกลบ (backward transliteration) ของแตละภาษาจะตองถอดคาทบศพทตางๆ นน

กลบเปนภาษาเดมใหได โดยไมจาเปนตองรวาขอมลนนทบศพทตามเกณฑหรอไม

1.4.3 แบบจาลองเอนแกรมทใชจะทดลองใช 1-5 แกรม เพอทดสอบหาประสทธภาพของ

ระบบเอนแกรมทดทสด และเปรยบเทยบผลการทดลองเมอใชเอนแกรมขนาดตางๆ กน

1.5 ประโยชนทคาดวาจะไดรบ

1.5.1 ไดระบบการระบภาษาของคาไทยและคาทบศพทภาษาตางๆ

1.5.2 ระบบนสามารถนาไปประยกตใชในการคนคนสารสนเทศขามภาษา (cross-language

information retrieval) และการถอดอกษรคายมทบศพทกลบเปนภาษาตนฉบบ (backward

transliteration)

Page 15: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

5

1.6 โครงสรางวทยานพนธ

ผวจยไดจดทาทงหมด 7 บท มดงน

บทท 1 บทนา โดยนาเสนอภาพโดยรวมของความเปนมาและความสาคญของปญหา

การระบภาษาของคา จดประสงคของการวจย สมมตฐานการวจย ขอบเขตของงานวจย ประโยชน

ทคาดวาจะไดรบ และศพทเฉพาะทใชในงานวจย

บทท 2 การระบภาษาของคาและขอความ โดยนาเสนอภาพรวมของงานการระบภาษา

ของคาทตางกบการระบภาษาของขอความ แนวทางการใชแบบจาลองภาษาตางๆ เพอแกปญหา

วธการและแบบจาลองทเลอกใชแกปญหารวมไปถงเหตผลทเลอกใช

บทท 3 คลงขอมลคาทบศพท โดยนาเสนอวธการสรางคลงขอมล เกณฑในการคดเลอก

ขอมลและ ปญหาในการสรางคลงขอมล สาหรบทาขอมลการฝกและขอมลทดสอบ เพอใหระบบ

มประสทธภาพมากทสด

บทท 4 การระบภาษาของคาดวยสายอกขระเฉพาะ โดยนาเสนอภาพรวมของระบบ

ระบภาษาของคาดวยสายอกขระเฉพาะ 1-5 ตว ผลการทดสอบระบบ การอภปรายผล รวมทง

นาสายอกขระเฉพาะทไดไปวเคราะหลกษณะเฉพาะของภาษา โดยหลงจากรวบรวมคลงขอมล

และสรางชดอกขระเฉพาะในแตละภาษาแลว เราจะทราบถงลกษณะการรวมกนของพยญชนะ

เดนๆ ในแตละภาษา ซงจะมรปแบบตายตวไมซาซอนกน เปนลกษณะเฉพาะของแตละภาษา

ซงสายอกขระเฉพาะเหลานนาจะสะทอนใหเหนถงลกษณะเฉพาะทางดานเสยงทเกดขนของ

แตละภาษาดวย ดงนนผวจยจงสรปลกษณะของเสยงเดนๆ ทเกดขนจากชดอกขระเฉพาะ

เหลานน และการปรากฏใชของอกขระเดนๆ ภายในภาษานนๆ

บทท 5 การระบภาษาของคาดวยแบบจาลองภาษา โดยนาเสนอภาพรวมของระบบ

ระบภาษาของคาดวยแบบจาลองภาษาตงแต 2-5 แกรม ผลการทดสอบระบบ การอภปรายผล

และผลการเปรยบเทยบการใชขนาดของเอนแกรมตางๆกน

บทท 6 โปรแกรมระบภาษาของคา โดยนาเสนอภาพรวมของระบบระบภาษาของคา

ทใชทง 2 วธรวมกน ผลการทดสอบระบบโดยรวมและการอภปรายผล

บทท 7 สรป อภปรายผลและขอเสนอแนะ โดยสรปผลการทดสอบระบบทงหมดและ

สรปอภปรายผล รวมทงเสนอแนวทางในการแกไขระบบ และแนวทางในการพฒนาระบบตอไป

Page 16: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

6

1.7 ศพทเฉพาะทใชในงานวจย

สายคา (word sequence) คอ คาทเขยนเรยงกนมากกวา 1 คา เชน สายคาวา “....to

be positive” จะเหนไดวาสายคานประกอบจากคา 3 คาคอ คาวา “to” “be” และ “positive”

สายอกขระหรอชดอกขระ (string) คอ ตวอกษรหรออกขระทเขยนประกอบเรยงกนเปน

คาหรอเปนสายอกขระ ในงานวจยนหมายถงตวอกษรภาษาไทย เชน คาวา โมดล โดยจะนบ

ตวอกษร 1 ตวเทากบ 1 อกขระ ดงน “โ” “ม” “ด” “- ” และ “ล”

ชดอกขระเฉพาะ (unique character sequence) คอ ตวอกษรทเกดขนเรยงกนในภาษา

ใดภาษาหนงเทานน โดยไมปรากฏในภาษาอน ในงานวจยนกาหนดใหใชสายอกขระเฉพาะจาก

แบบจาลองตงแต 1-5 แกรม เทานน

การระบภาษาของขอความ (Language Identification) คอ งานสาหรบระบขอความวา

เปนภาษาใด ซงสวนใหญภาษาทตองการจะระบมกเปนภาษาทใชอกษรโรมนเหมอนกน เชน

ภาษาองกฤษ ภาษาเยอรมน ภาษาฝรงเศส

แบบจาลองภาษา (language model) คอ แบบจาลองทใชขอมลภาษาเชงสถตทไดจาก

ขอมลการฝกเปนตวกาหนดวาแตละขอความนาจะเปนภาษานนมากนอยเพยงใด โดยเกบขอมล

หนวยภาษา ตงแต 1-5 แกรม

ตวจาแนกภาษา (language classifier) คอ โมดลสาหรบใชระบภาษาของขอความหรอ

ของคา

ขอมลการฝก (training data) คอ ขอมลภาษาทใชสาหรบสรางแบบจาลองทางสถต

ชดของคาทใชทดสอบระบบ (test set) คอ คาสาหรบใชในการทดลองในแตละโมดล

โดยในขนตอนทดสอบของงานวจยน จะแบงเปน 2 สวน คอคาทใชเปนขอมลการฝก 80% และ

คาทใชเปนขอมลทดสอบอก 20%

Page 17: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

บทท 2

การระบภาษาของคาและขอความ

การระบภาษาของคาในวทยานพนธนมความคลายคลงกบการระบภาษาของขอความ

(Language Identification) ในงานวจยอนๆ คอ มงไปทจะระบคาหรอขอความนนวาเปนภาษา

ใด โดยทาใหคอมพวเตอรไดเรยนรลกษณะสาคญของภาษาจนสามารถระบภาษาของคาหรอ

ขอความทใหได ปญหาทพบเหมอนกน คอจาเปนตองสรางระบบทมประสทธภาพ ทาใหสามารถ

ระบภาษาไดครอบคลมทกๆ ภาษาในโลก แมการระบภาษาของคาทบศพทจะไมมการเสนอ

แนวทางแกปญหาไวอยางชดเจน แตในเรองการระบภาษาของขอความไดมผศกษาไวเปน

จานวนมาก ผวจยจงไดทบทบวนวรรณกรรมงานดงกลาวไวในวทยานพนธน เพอนาไปประยกตใช

ตอไป

การระบภาษาของขอความ หรอ Language Identification ถอวาเปนงานวจยทสาคญ

อยางหนง และมการพฒนาจนเปนระบบใชกนเรอยมา เชน ระบวาขอความทพบเปนขอความ

ภาษาองกฤษ ภาษาเยอรมน ภาษาฝรงเศส ฯลฯ ซงภาษาทจะระบสวนมากเปนภาษาทมความ

กากวมของสายอกขระหรอตวอกษร (string) เนองจากใชตวอกษรชดเดยวกน เชน ตวอกษร

โรมน จงตองหาลกษณะทสาคญของสายอกขระ ทจะบงบอกวาสายอกขระหรอขอความนนเปน

ของภาษาใด โดยในการทดลองสวนใหญนใชวธรบขอมลเขา เปนขอความทเขยนขนดวยภาษาใด

ภาษาหนงเทานน แลวใช แบบจาลองภาษา (language model) ทหาจากสายคา (word

sequence) เปนระบบจาแนก (classifier) ภาษา ผลทได ดงตวอยางตารางท 2.1

ตารางท 2.1 ตวอยางการจาแนกภาษาของขอความ

TEXT LANGUAGE

InterPlas Conference will be the meeting place for delegates to be amidst top-notched…..

English

Il faut faire demi-tour. Traversez le carrefour et lorsque vous voyez la station ….

French

ขอความ (text) ในตารางใชสายอกขระหรอตวอกษรชนดเดยวกน คอตวอกษรโรมน แต

จรงๆ แลวเปนคนละภาษากน คอภาษาองกฤษและภาษาฝรงเศส

Page 18: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

8

การระบภาษาของขอความนมสวนคลายคลงกบงานทผวจยมงจะทา คอ เปนการระบทมา

ของภาษาเหมอนกน ทงสองงานนเปนการจาแนกประเภทของภาษาจากสายอกขระทประกอบ

ขนจากตวอกษรชดเดยวกน แตตางกนตรงทการระบภาษาของขอความเปนการระบวาขอความ

ทงหมดนนเปนภาษาอะไร สวนการระบทมาของภาษาของคาเปนการะบวาคาทพจารณาเปน

คาไทยหรอทบศพทมาจากภาษาอะไร ดงแสดงในตวอยางตารางท 2.2

ตารางท 2.2 ตวอยางการระบภาษาของคา

คา ทมา

ชาวนา คาไทย ปาปว คาทบศพทภาษาฝรงเศส ฟวส คาทบศพทภาษาองกฤษ

การระบภาษาของขอความสามารถทาไดโดยการหาลกษณะทสาคญของภาษานนกอน เชน

ลกษณะของคาศพท (vocabulary term), ความยาวโดยเฉลยของคา (word average length),

คณสมบตทางโครงสรางและทางความหมายของคา (syntactic และ semantic properties)

ลกษณะเหลานของแตละภาษาจะไมเหมอนกน ทาใหสามารถระบไดวาขอความนนๆ เปนภาษา

อะไร ในทานองเดยวกนหากเปนคาไทยหรอคาทบศพท ซงมทมาจากภาษาตางๆ กน แมวาจะ

อยในรปภาษาไทยเหมอนกน แตกนาจะมลกษณะสาคญของภาษาทตางกนดวย ดงนนวธทใช

ในการระบภาษาของขอความกนาจะสามารถนามาประยกตใชกบการระบทมาของภาษาในทนดวย

จากปญหาของการระบภาษาของขอความทผานมา แมวามงานวจยทใชวธทางภาษาศาสตร

เชน การระบภาษาโดยใชสายอกขระเฉพาะ (Unique character string identification) เชน ใน

งานของ Churcher (1993) และ Churcher at al. (1994) และ การระบภาษาของขอความโดย

ใชคาทเกดขนบอยๆ ในแตละภาษาเปนตวตดสน (Frequent word recognition) เชน ในงาน

ของ Hayes (1993), Johnson (1993) และ Churcher et al. (1994) แตผวจยเหนวาวธการใช

สายอกขระเฉพาะมขอจากดคอไมสามารถระบภาษาของขอความไดทกๆ ภาษา และเหนวา

วธทถกนามาใชมากทสดคอ วธทางสถต เนองจากเปนวธทงาย ไมจาเปนตองใชการวเคราะห

ทางภาษาศาสตรอยางลกซง เพยงแคใชขอมลการฝกเพยงอยางเดยว ทาใหใชตนทนในการ

วเคราะหตากวา มประสทธภาพสง และยงแกปญหาขอจากดของวธทางภาษาศาสตรได คอ

ทาใหสามารถระบภาษาไดทกๆภาษา เพยงแคเตรยมขอมลสาหรบใชในการฝกสาหรบภาษานน

เทานน

Page 19: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

9

ระบบวธทางสถตทใชในการระบภาษาของขอความสวนใหญ เปนการสรางแบบจาลอง

ทางภาษา (language model) ทเกบขอมลทางสถตสาหรบภาษาตางๆ จากคลงขอมลการฝก

(training corpus) เพอสรางแบบจาลองภาษา (language model) หรอ แบบลกษณ (profile)

ของแตละภาษา แลวนาแบบจาลองเหลานมาใชทดสอบกบขอความทตองการจะระบ หลงจาก

นนจงจะประเมนผลเพอดวาขอความททดสอบนนใกลเคยงกบแบบจาลองของภาษาใดมากทสด

ดงนนระบบ (system) จะม 2 ระบบ คอ ระบบสาหรบสรางแบบจาลองภาษา เพอใชเปนตว

จาแนกภาษา (language classifier) และระบบสาหรบหาความนาจะเปนของขอความ ทจะเปน

ภาษาใดภาษาหนง(เมอเทยบกบแบบจาลองภาษาทม)

เปาหมายของการสรางแบบจาลองภาษากเพอใชในการคาดเดาความเปนไปไดของสายคา

ถาสายคาเกดขนบอยๆ ในภาษา A กจะมความเปนไปไดสงวาเปนขอความในภาษา A นน

ลกษณะของแบบจาลองภาษา คอ

1. ยงใชขอมลในการฝกในแตละภาษามจานวนมาก แบบจาลองภาษากยงใหผลดขน

ดวย

2. คาทใชคอ คาความถ และคาความนาจะเปนของการเกดคารวมกน

3. เนองจากวาคาในชดของคาทใชทดสอบระบบ (test set) อาจไมมอยในขอมลการฝก

ดงนนคาความนาจะเปนของภาษาทตองการจะระบทออกมาจะเทากบ 0 จงตองมการปรบแตงคา

(smoothing) ระบบในการทดลอง

อยางไรกตามแบบจาลองภาษา ทใชในการระบภาษาของขอความนนหาไดจากคาทาง

สถตของสายคา (word sequence) คอดคาทรวมกนจนเปนขอความนน แตแบบจาลองทใชใน

การระบทมาภาษาของคานนจะหาจากคาทางสถตของสายอกขระ (character sequence) แทน

คอ คาดเดาความเปนไปไดของสายอกขระหรอตวอกษรทเกดขนวาตรงกบภาษาใด โดยใน

งานวจยนทดลองดวยการรบขอมลเขาทละคา

เพอทจะใหเขาใจวธทางสถตสาหรบระบภาษาของคา ผวจยจะทบทวนวรรณกรรมท

เกยวของกบการระบภาษาของขอความกอนวามการทาอยางไรบาง และวธใดเหมาะสาหรบ

นามาประยกตใชกบงานการระบภาษาของคา

Page 20: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

10

2.1 แนวทางในการสรางแบบจาลองภาษา (Language model) หรอ ตวจาแนกภาษาของ

ขอความ (text classifiers)

ในงานการระบภาษาของขอความน สามารถทาไดหลายวธ แตในทนจะกลาวถง วธทใช

แบบจาลองมารคอฟ (Makov Model) หรอแบบจาลองเอนแกรม (N-Gram model) โดยละเอยด

เพราะเปนวธการทใชในการวจยน

2.1.1 แบบจาลองมารคอฟ หรอ แบบจาลองเอนแกรม

แบบจาลองเอนแกรม คอ แบบจาลองทใชคานวณคาความนาจะเปนของสายอกขระ

(character sequence) ทเกดขนรวมกนเปนคา หรอคาความนาจะเปนของสายคา (word sequence)

ทเกดขนรวมกนเปนประโยค โดยคาความนาจะเปนของสายอกขระหรอคา ประมาณไดจาก

คลงขอมลทสรางไว

แกรม คอ หนวยทใชในการสรางแบบจาลอง อาจจะเปนเสยง คา หรอ อกขระกได

และแกรมมไดหลายขนาดแลวแตจะกาหนด ตงแต 1 จนถง n

ในแบบจาลองเอนแกรมนใชความยาวของสายอกขระและสายคาแตกตางกน ไดแก

2-แกรม 3-แกรม 4-แกรม ฯลฯ ถาจะประมาณคาความนาจะเปนของสายคาหรอสายอกขระจาก

คลงขอมลโดยการใชวธเอนแกรม ผลทไดมดงน

การประมาณคาดวย 2-แกรม (Probability bigram) คอ การประมาณคาความนาจะเปน

ของสายอกขระ (สายคา) ทเกดขนรวมกนวามคาเทากบผลคณของความนาจะเปนทจะพบอกขระ

(คา) ทละ 2 ตว (คา) ตดกนในสายอกขระ (สายคา) นน

การประมาณคาดวย 3-แกรม (Probability trigram) คอ การประมาณคาความนาจะเปน

ของสายอกขระ (สายคา) ทเกดขนรวมกนวามคาเทากบผลคณของความนาจะเปนทจะพบอกขระ

(คา) ทละ 3 ตว (คา) ตดกนในสายอกขระ (สายคา) นน

การประมาณคาดวย 4-แกรม (Probability quadigram) คอ การประมาณคาความนาจะ

เปนของสายอกขระ (สายคา) ทเกดขนรวมกนวามคาเทากบผลคณของความนาจะเปนทจะพบ

อกขระ (คา) ทละ 4 ตว (คา) ตดกนในสายอกขระ (สายคา) นน

หรออาจประมาณคาความนาจะเปนจากความยาวของเอนแกรมมากกวา 4-แกรม กได

ขนอยกบความจาเปนในการทดลอง แตระบบของเอนแกรมกยงซบซอนมากขนตามลาดบ

Page 21: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

11

การประมาณคาความนาจะเปนของสายอกขระ โดยการใชเอนแกรมดงทกลาวมา คอ

การใชสมมตฐานของมารคอฟ (Markov assumption) วา การปรากฏของตวอกษรตวหนงขนกบ

ตวอกษรกอนหนาเพยง n-1 ตว เราจงเรยกแบบจาลองลกษณะนวาเปนแบบจาลองเอนแกรม

(n-gram model) หรอแบบจาลองมารคอฟ ซงวธนมกนยมใชในงานระบภาษาของขอความกนมาก

เหนไดจากงานของ Cavnar และ Trenkle (1994), Dunning (1994), Combrick และ Botha

(1995), Sibun และ Reynar (1996), Piotrowski (2000), Peng et al. (2003) เนองจากสามารถใช

เพอระบภาษาไดอยางมประสทธภาพและเรยบงายกวา โดยสามารถประมาณไดดงน

ไบแกรม P(c1c2c3…..cn) = P(c1) P(c2|c1) P(c3|c2) …P(cn|cn-1)

ไตรแกรม P(c1c2c3…..cn) = P(c1) P(c2|c1) P(c3|c1c2)…P(cn|cn-2cn-1)

ควอดแกรม P(c1c2c3…..cn) = P(c1) P(c2|c1) P(c3|c1c2) P(c4|c1c2c3) …P(cn|cn-3cn-

2cn-1) หมายเหต: P แทน คาความนาจะเปน, c แทน อกขระหรอตวอกษร และ (c1c2c3…..cn) แทน

สายอกขระทประกอบดวยอกขระตงแต 3 ตวขนไปจนถง n ตว

สวนความนาจะเปนของสายคาทรวมกนเปนประโยค w1w2w3….wn หากประมาณคา

ดวยเอนแกรมตางๆ ผลทไดดงน โดย w แทน คา n แทน จานวนนบตอไป P แทน คาความ

นาจะเปน และ (w1w2w3…..wn) แทน สายคาทประกอบดวยคามากกวา 3 คาขนไป

- ความนาจะเปนของประโยคโดยใชวธ 2-แกรม คอ P(w1w2w3…..wn) = P(w1) P(w2|w1) P(w3|w2) … P(wn|wn-1)

- ความนาจะเปนของประโยคโดยใชวธ คอ 3-แกรม คอ P(w1w2w3…wn) = P(w1) P(w2|w1) P(w3|w1w2)…P(wn|wn-2wn-1)

- ความนาจะเปนของประโยคโดยใชวธ 4-แกรม คอ P(w1w2w3 … wn) = P(w1) P(w2|w1) P(w3|w1w2) P(w4|w1w2w3)… P(wn|wn-3wn-

2wn-1) ตวอยาง การประมาณคาความนาจะเปนของประโยค “He like to eat”

ผวจยใชสมการประมาณคาความนาจะเปนพนฐานดงน

( ) ( )∏=

−=T

iiiT wwwPwwwP

11121 ΚΚ

โดยท P คอ คาความนาจะเปน (Probability) ซงประมาณไดจากคลงขอมล

T คอ จานวนของคา

i คอ ลาดบของคาโดยเรมตนทลาดบท 1

Page 22: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

12

P(wi | w1...wi–1) คอ ความนาจะเปนของคา wi หลงจากเกดคา w1w2…wi-1 กอนหนา

นแลว

ความนาจะเปนของประโยคน P(w1 w2….wT) สามารถประมาณได โดยถอวาการปรากฏ

ของคา wi นนขนอยกบจานวนคาขางหนา n-1 ตวเทานนหรอขนอยกบขนาดของเอนแกรม

ดงนนถาหากประมาณคาความนาจะเปนของประโยคน โดยใช 2-แกรม จะปรบเปลยนสมการ

ดงน

( ) ( ) ( ) ( )112121 −><= iiT wwPwwPswPwwwP ΚΚ P(w1|<s>) หมายถง ความนาจะเปนของคาทหนงเมอเกดเปนคาแรกของประโยค ซงใน

ทนคอชองวาง

P(w2|w1) หมายถง ความนาจะเปนของคา w2 หลงจากเกดคา w1

P(wi | wi-1) หมายถง ความนาจะเปนของคา wi หลงจากเกดคา wi-1

ดงนน จากสตรประมาณคาความนาจะเปนดวย 2-แกรม หากตองการหาความนาจะเปน

ของประโยค “He like to eat“ โดยใชเอนแกรมในระดบของคา ผลออกมาคอ P(He | <s>) P(like | He) P(to | like) P(eat | to)

สวนคาความนาจะเปนจะหาไดจากคลงขอมล เชน P(like | He) = c(He-like) โดยท c คอจานวนนบ

c(He)

จากสตรนหมายถง คาความนาจะเปนของ like เมอเกดรวมกบคาวา He คานวณไดจากนา

จานวนนบของ He ทเกดรวมกบคาวา like หารดวยจานวนนบของการเกด He เดยวๆ

วธการใชแบบจาลองเอนแกรมนเปนวธทางสถตทนยมใชกนมากทสด เพราะเปนวธท

เรยบงาย มประสทธภาพสง และเหมาะสาหรบวเคราะหภาษา สามารถใชระบภาษาไดดกวาวธ

อนๆ โดยเมอดจากทบทวนวรรณกรรมตอไปจะแสดงใหเหนประสทธภาพของแบบจาลองเอนแกรม

วธการใชเอนแกรมในงานระบภาษาและผลการทดลอง

2.1.2 ตวอยางงานวจยของการระบภาษาของขอความทใชแบบจาลองเอนแกรม

แบบจาลองเอนแกรมถกนามาใชในงานตางๆ มากมาย เชน

Dunning (1994) ใช แบบจาลองมารคอฟ (Markov model) ในระดบตวอกษรเพอระบ

ภาษาของขอความทเขยนดวยอกษรโรมน เหตผลทเขาเลอกแบบจาลองนเพราะ คดวาการระบ

Page 23: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

13

ภาษาของขอความเปนเรองงาย ไมจาเปนตองใชแบบจาลองอนๆ ทยงยากกวาน เขากลาวไววา

สามารถระบภาษาไดเลยแมใชขอมลทดสอบเพยงแค 10 ตวอกษรเทานนแตจะใหไดผลดมาก

ทสดหากใชตวอกษร 50 ตวหรอมากกวานนกได สวนจานวนขอมลการฝกกใชนอยเพยงแค

ขอความทประกอบดวย 2-3 พนคากเพยงพอ ในการทดลองเขาใชขอมลการฝกเปนเอกสาร

ขอความทมขนาดตงแต 1-50 กโลไบท และใชขอมลทดสอบเปนขอความจานวน 50 ขอความ

โดยขนาดตงแต 10-500 ไบท ลกษณะของแบบจาลองของเขา คอ การดความนาจะเปนของ

ตวอกษรหรออกขระทเกดขนภายในขอความ โดยจะดตอเนองกนทงขอความ ในผลการทดลอง

เขากเปรยบเทยบใหดวา หากใชขอมลการฝก และขอมลทดสอบยงมาก คาความแมนยากยงสง

ตามดวย โดยอาจสงถง 99.9% แตกพบปญหาคอ เมอทดสอบกบภาษาองกฤษ ฝรงเศส

เยอรมนและภาษาสเปน อาจระบภาษาผดพลาดไดเนองจากแตละภาษามรากฐานคลายกน

Sibun and Reynar (1996) ใชวธแบบจาลองเอนแกรม เพอระบภาษาทเขยนดวยอกษร

โรมนซงมทงหมด 27 ภาษา เชน ภาษาดชต องกฤษ อตาล ลาตน สเปน เปนตน เขาใช

แบบจาลองเอนแกรมระดบตวอกษรตงแต 1-3 แกรม เพอสราง probability distribution หรอ

แบบจาลองภาษาจากขอมลการฝก วธการสรางคลงขอมลการฝกของเขาจะมลกษณะเหมอนกบ

งานของ Dunning คอเปนการดทละเอกสารขอความตอเนองกน โดยในเอกสารจะตองมการตด

สญลกษณและเครองหมายตางๆ (markup, accented character and symbol) ออกกอนเพอรบ

เฉพาะตวอกษรเทานน และขอมลทดสอบกเปนเอกสารขอความเชนเดยวกน ในการทดลองเขา

ใชวธเอนโทรปสมพทธ (relative entropy) สาหรบวดคาความสมพนธระหวางขอมลทดสอบ

(test set) กบชดขอมลการฝก (training) หรออาจกลาวไดวา เปนการวดคาความนาจะเปนของ

ชดขอมลทดสอบวาตรงกบชดขอมลการฝกของภาษาใดภาษาหนง ผลของการทดลองระบ

ภาษาทงหมด 27 ภาษาโดยใช 1-แกรม และ 2-แกรม คาความแมนยาโดยเฉลยมากกวา 90%

Piotrowski (2000) ระบภาษาของขอความทเขยนดวยตวโรมนเพอการคนคนสารสนเทศ

วาเปนภาษาเยอรมน องกฤษ ฝรงเศส หรออตาล เขาดความนาจะเปนในระดบของสายอกขระ

หรอตวอกษรทประกอบขนเปนขอความ โดยวธทเขาใชคอ 2-แกรม รวมกบ มารคอฟ เชน

(Markov Chain) เพอสรางแบบจาลองภาษากบทกภาษาทตองการระบ ในแบบจาลองภาษาจะ

เปนทรวมขอมลความนาจะเปนของสายอกขระทเกดขนรวมกน ผลการทดลองเขาไดเปรยบเทยบ

การใชขนาดของขอมลใหดวา หากใชขนาดของขอมลการฝกมาก คาความแมนยาทไดยงสงตาม

ดวย เชน ขนาดของขอมลการฝกประมาณ 20 ไบท (bytes) ใหผลการทดลองคาความแมนยา

เฉลย 98.73% แตถาใชขนาดของขอมลการฝกประมาณ 50 ไบท ใหผลการทดลองคาความ

แมนยาสงถง 99.69%

Page 24: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

14

Combrinck และ Botha (1995) เสนอวธสาหรบระบภาษาของขอความ โดยทดสอบกบ

ภาษาทงหมด 12 ภาษาทงภาษาแถบอฟรกนและยโรเปยน ระบบของเขาจะเปนการสราง

แบบจาลองภาษาจากขอมลการฝกดวยเอนแกรม แตเขาเรยกวธนวาทรานซชน-เวกเตอร

(transition vector) โดยหลกการคอใชเพอดสายอกขระ หรอดการรวมของสายอกขระตงแต

2-3 ตวในขอความแตละภาษาแลวจงสรางแบบจาลองของภาษานนขนมา ระบบของพวกเขา

ประกอบไปดวย 3 ขนตอน คอ

1. pre-processor เพอตดสวนทไมใชตวอกษรออกไป เชน สญลกษณ

2. training module เพอสรางแบบจาลองในแตละชดขอมลการฝก โดยในแบบจาลอง

จะอยในรปของทรานซชน-เวกเตอร ซงจะใหภาพของการรวมกนของตวอกษร 2

และ 3 ตว เชนเดยวกบเอนแกรม 1-2 แกรม

3. recognition module เปนสวนทใชระบภาษาของขอความ จาก ทรานซชน-เวกเตอร

ทเดนๆ ในแตละภาษา ซงในทนคอ ทรานซชน-เวกเตอร ทมความถของการรวมกน

ของตวอกษรสงกวาภาษาอนๆ

Combrinck และ Botha (1995) ยงเสนอวา ระบบของเขาสรางขนเพอรองรบความยาว

ของสายอกขระมากกวา 3- แกรม แตทรานซชน เวกเตอร ทใหผลทสด คอ 3-แกรม เขาอางถง

ผลการทดลองวาตวจาแนกภาษาของเขาอาจสามารถระบภาษาไดถกตอง 100% โดยผลทดทสด

คอ เมอใชกบขอมลทดสอบประมาณ 200-300 ตวอกษรเทานน แตระบบของเขายงมปญหาคอ

ขาดสเถยรภาพในการใชงานจรง เขายงเปรยบเทยบใหเหนวาหากใชขอมลขนาดใหญเกนไปทง

ขอมลการฝกและขอมลทดสอบ คาการวดผลทดลอง (Relative Performance Measure) ท

ออกมาจะตาลงตามลาดบ

Peng et al. (2003) เสนอวธสาหรบระบประเภทของขอความ (classification or

categorization) ทงหมด 24 ประเภทในภาษาจนจาก TREC และภาษาญปนจาก NTCIR ในการ

ทดลองเขาใชขอมลการฝกทงหมด 310,355 ขอความ แตละประเภทมประมาณ 1,747 - 83,668

ขอความ และขอมลทดสอบมทงหมด 10,000 ขอความ ซงขอความในแตละประเภทจะมประมาณ

56 - 2,656 ขอความ

ลกษณะของแบบจาลองภาษาของเขา คอ การคาดเดาความนาจะเปนของสายอกขระท

เกดขนรวมกนในขอความแตละประเภท โดยดทละขอความตอเนองกน ในแบบจาลองเอนแกรม

ทใชมตงแต 1-8 แกรม หลงจากทไดแบบจาลองภาษาแตละประเภทแลว เขาใชแบบจาลอง

ภาษาสาหรบเปนตวจาแนกภาษาและประเภทของขอความ (text classifier) ในตวจาแนกภาษา

และประเภทของขอความนจะดลกษณะทสาคญของภาษาเชน คาศพท (vocabulary term),

Page 25: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

15

ความยาวเฉลยของคา (word average length), ลกษณะทางวากยสมพนธและอรรถศาสตร

(syntactic and semantic properties) สาหรบใชเพมการตรวจสอบทจะระบประเภท

(categories) ของขอความ เนองจากขอความในแตละประเภทจะมลกษณะทางภาษาทตางกน

หากใชแบบจาลองไบแกรมจะชวยใหคอมพวเตอรสามารถพบลกษณะทางภาษาทตางกนนและ

ใชระบประเภทของขอความเหลานนได ตวอยางสมมต เชน เมอใช 2-แกรม เราอาจจะพบ

สายอกขระ “ic” และ “er“ ซงปรากฏเฉพาะในขอความประเภทขาวธรกจเปนสวนใหญ ดงนน

หากนาสายอกขระเหลานมาตรวจสอบ กจะสามารถระบประเภทไดถกตองมากยงขน ในการ

ทดลองเขาทดสอบกบขอความทตองการระบประเภทดวยเอนแกรมเหมอนกบทใชในการฝก

ผลการทดลองประมาณสงกวา 80% และเขายงเปรยบเทยบผลการใชขนาดเอนแกรมตางๆ ดวย

โดยขนาดของเอนแกรม 3-แกรมใหผลดทสด นอกจากน Pang et al. ยงวจารณไววาการสราง

แบบจาลองภาษาทใชสายอกขระ (character level) นจะสามารถใชกบงานการระบประเภทของ

ขอความไดดกบภาษาทไมมการเขยนแยกคา โดยเฉพาะในภาษาแถบเอเชย มากกวาแบบจาลอง

ทใชสายคา (word level)

ในงานทบทวนวรรณกรรมเหลานใชวธเอนแกรมในระดบตวอกษร เพอระบภาษาของ

ขอความ แตยงมบางงานทเสนอการใชเอนแกรมในระดบของคา เชน

งานของ Cavnar และ Trenkle (1994) ซงเปนการระบหาประเภท (categories) ของ

ขอความในแตละภาษา เชน ระบวาเอกสารนนเปนเอกสารประเภทใด เชน ดาน security

ดาน AI ดาน compilers ดาน compression และดานกราฟฟค งานของเขาจะคลายคลงกบ

งานททบทวนมากอนหนานคอ เปนการดทละขอความตอเนองกน ทงในขอมลการฝกและ

ขอมลทดสอบ แบบจาลองทเขาใชคอ แบบจาลองเอนแกรมของสายคา โดยเขาเลอกใชตงแต

1-5 แกรม เพอสรางแบบลกษณหรอแบบจาลองภาษาของขอความแตละประเภทภายใน

แบบจาลองภาษาจะแสดงคาความถและคาการเกดรวมกนของเอนแกรมทงหมด หลงจากได

ขอมลการฝกของแตละประเภทแลว เขากจะเปรยบเทยบขอมลทดสอบกบขอมลการฝกแตละ

ประเภทวา มคาความนาจะเปนทจะตรงกนมากนอยเพยงใด โดยใชวธ out-of-place measure

หรอคาความหาง (distance measure) แลวเลอกประเภททมคาความหางกบขอมลทดสอบ

นอยทสดเปนคาตอบ ผลจากการทดลองระบภาษาไดถกตองมากกวา 90% โดยผลจะตางกน

ขนอยกบขนาดของขอมลการฝกในแตละประเภทและขอมลทดสอบ ยงขอมลการฝกและขอมล

ทดสอบมาก คาความแมนยากสงขนดวย ในงานของเขาจะเปนการใชเอนแกรมตางกบงานท

ผวจยจะทาคอ เปนการระบหาประเภทแตผวจยเสนองานการระบภาษา

Page 26: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

16

จากบททวนวรรณกรรมแนวทางแกปญหาการระบภาษาและประเภทของขอความทผาน

มา แบบจาลองทผวจยเลอกใชคอ แบบจาลองเอนแกรม (n-gram model) เพราะ จากทบทวน

วรรณกรรมทผานมาเหนวา ผลจากการทดลองทไดจากงานการระบประเภทของขอความดวย

แบบจาลองนสงมากกวา 90% โดยใชเพยงแค 2-แกรมเทานน และเมอเปรยบเทยบแบบจาลอง

ภาษาเอนแกรม (LM) กบวธการอนๆ เชน Naïve Bays classifier (NB), adhoc n-gram

(OOP)1 และ support vector machine classifier (SVM) พบวา แบบจาลองภาษา ใหผลดทสด

เหนไดจากตารางท 2.3 ซง Peng ไดแสดงผลการทดลองเปรยบเทยบคาความนาจะเปนของการ

ระบประเภทของขอความประเภทหนงดวยการใชแบบจาลองภาษานาอฟ เบย และวธการอนๆ

โดยอางถงผลการทดลองระบประเภทของขอความของ Aizawa (2001) ดวย แสดงใหเหนวาเมอ

ระบประเภทในขอความภาษาจนดวยแบบจาลองภาษา จะใหคาความถกตองสงทสด

ตารางท 2.3 ตวอยางการเปรยบเทยบความนาจะเปนของการระบประเภทของขอความ

(Peng, et al. 2003 อางถงใน Aizawa (2001))

LM NB OOP SVM

Chinese Character Level (ระบขอความภาษาจนในระดบตวอกษร)

0.868 0.856 0.8087 0.817

Japanese Byte Level (ระบขอความภาษาญปนในระดบตวอกษร)

0.84 0.66 0.4990 85%

นอกจากน ผวจยเลอกใชแบบจาลองเอนแกรมเพอพฒนาระบบการระบภาษาของคา

โดยมเหตผลดงน

1. เอนแกรมเปนวธทางสถตทเปนพนฐานและเรยบงายมากทสด ซงจะชวยลดตนทน

ในการทาระบบการระบภาษา

2. สามารถนาวธเอนแกรมมาใชรวมกบวธอนๆได เนองจากจะชวยเพมประสทธภาพ

ของระบบใหดมากยงขน

1 เปนวธประมาณคาความนาจะเปนโดยใชแบบจาลองเอนแกรมเหมอนกบ LM แตตางกบ LM ตรงท

วธ OOP จะเลอกขอความททดสอบวาตรงกบประเภทใดจากคาความหาง (distance measure) โดยทเลอกใช

คอ out-out-place (OOP) หรอ distance (d,c) สวน วธ LM เลอกขอความททดสอบวาตรงกบประเภทใดจาก

คา likelihood หรอ Pr(d|c)

Page 27: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

17

3. วธเอนแกรมสามารถใชระบภาษาไดทกภาษา ในกรณระบภาษาทใชสายอกขระทเปนตวอกษรประเภทเดยวกน แตตางภาษากน เชน อกษรโรมนทใชเขยนภาษาองกฤษ เยอรมน อตาเลยน หรออกษรไทย ทใชเขยนคาทบศพทภาษาองกฤษ ญปนและฝรงเศส เปนตน

4. เนองจากรปแบบของขอมลนาเขาเพอทดสอบและขอมลการฝกควรจะเรยบงายมากทสด ไมมการประมวลผลเบองตน (pre-process) เชน การ encoding ขอมลหรอการใส tag ลงบนขอมล ดงนนระบบเอนแกรมจงเปนวธทดทสดทจะลดความยงยากในการพฒนาระบบ

5. ในระบบเอนแกรม เพยงใชคลงขอมลจานวนนอยกสามารถระบภาษาของคาไดถกตอง

จากการทบทวนวรรณกรรม ผวจยพบวาวธรวมสายอกขระซงจะกลาวตอไปน เปนอกวธหนงทมผวจยเคยทาไวและใชในงานระบภาษาของขอความ จงเปนทนาสนใจวาจะสามารถใชในงานระบภาษาของคาในภาษาไทยไดหรอไม ผวจยจงตองการทบทวนวรรณกรรมแนวทางในการสรางวธรวมสายอกขระในสวนตอไป เพอศกษาวธการและการนาวธรวมสายอกขระมาประยกตใชเพอเพมประสทธภาพของงานระบภาษาของคา 2.2 แนวทางในการสรางวธรวมสายอกขระเฉพาะ (Unique Character Combinations)

วธรวมสายอกขระคอ การดความเปนไปไดของจานวนสายอกขระ (character sequence)

ทเกดขนตงแต 3 ตวขนไป ซงจะแสดงลกษณะเฉพาะของแตละภาษาใหเหนชดเจน คอเปนสายอกขระสนๆ ทเกดขนในภาษาใดภาษาหนงเทานน โดยไมเกดขนซากบภาษาอนๆ เลย สายอกขระเฉพาะเหลานพบไดจากคลงขอมลภาษา โดยเราจะไดขอมลการเกดรวมกนของตวอกษร พยญชนะนา-ตาม สระหรอตวสะกดทเปนลกษณะเดนของภาษา เหนไดจากตารางท 2.4

ตารางท 2.4 ตวอยางการใชวธรวมสายอกขระเฉพาะ (Dunning, 1994)

Language Unique Character

Dutch “vnd”

English “ery”

French “eux”

Italian “cchi”

Serbo-croat “lj”

Page 28: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

18

ในอกขระเฉพาะทกลาวไวในตาราง เปนสายอกขระเฉพาะทประกอบขนจาก 3 ตวอกษร

ทเกดขนในทายคาของภาษานนๆ โดยจะไมปรากฏซากบภาษาอนๆ เลย นอกจากนในแตละ

ภาษาสามารถมสายอกขระเฉพาะมากกวาหนงชด และมสายอกขระมากกวา 3 ตวตดกนกได

Dunning ยงแสดงใหเหนปญหาของวธนวา ถาในขอความนนมคาภาษาองกฤษอยาง

Pinocchio แลวจะใชสายอกขระเฉพาะ cchi สรปวาเปนภาษาอตาเลยนกอาจผดได กรณแบบน

เปนเพราะภาษาเหลานใชสายอกขระชดเดยวกน และยมคาขามภาษามาโดยไมตองทบศพท

ดวยตวเขยนอกภาษา เชนจากตวอยาง เมอทดลองดวยขอมลการฝกในภาษาอตาเลยน อาจ

ทาใหได cchi เปนสายอกขระเฉพาะ เพราะบงเอญทดลองฝกในขอมลภาษาองกฤษแลวไมม

คาวา Pinocchio อย แตพอเอาไปใชจรง ในขอความภาษาองกฤษมคาวา pinocchio อย ระบบ

จงผดพลาดได เพราะมขอมลวา cchi เปนสายอกขระเฉพาะของภาษาอตาลซงกจรง แตบงเอญ

ขอความททดสอบยมคาจากภาษาอตาลมาใชและทงสองภาษาใชตวอกษรโรมนเหมอนกน

จงเปนปญหาทเกดขน แตในภาษาไทย เราทบศพทภาษาตางประเทศ คายมจงเขยนดวย

ตวอกษรไทย จงไมมปญหาทเกดจากการยมคาและคงรปเดมไว

ลกษณะของงานแบบนมมากมาย เชน จากงานของ Churcher et al. (1994) พวกเขาใช

วธสงเกตจากสายอกขระเฉพาะทประกอบขนจากตวอกษรเพอระบภาษาของขอความในภาษา

เขยนดวยอกษรโรมนถง 9 ภาษา ในการทดลองเขาสามารถหาสายอกขระเฉพาะ 2 ตวอกษร

ตดกนในแตละภาษาได แตพวกเขาวจารณถงผลการทดลองของวธนวา ไมมประสทธภาพ

เพยงพอ เพราะสายอกขระเฉพาะทใชเพยงแค 2-แกรม อาจยาวไมเพยงพอสาหรบกาหนดให

เปนสายอกขระเฉพาะ และหากใชทดสอบกบคาโดยใชแค 2-แกรม ในคาททดสอบคาๆ หนงจะม

สายอกขระทตรงกบสายอกขระเฉพาะในหลายๆ ภาษาได

จากการศกษาวธการใชสายอกขระเฉพาะ ผวจยสามารถสรปปญหาของวธนไดดงน

1. สายอกขระเฉพาะสวนใหญประกอบดวยอกขระแค 2 หรอ 3 ตวกนเทานน สายอกขระ

เฉพาะยาวๆ มแนวโนมทจะเกดขนยาก เพราะยงตองการสายอกขระเฉพาะยาวๆ กจาเปนตอง

ใชคลงขอมลขนาดใหญมากขน

2. สายอกขระเฉพาะมจากดคอ ไมสามารถใชระบภาษาไดทกๆขอความหรอทกคา เพราะ

บางขอความหรอบางคาอาจไมมคาทตรงกบสายอกขระเฉพาะเลย จงตองนาวธการระบภาษา

อนๆ เขามาชวย ในทนผวจยแกปญหาโดยใชวธทางสถตรวมกบการสงเกตจากสายอกขระเฉพาะ

ดงนนจากการทบทวนวรรณกรรมทงแบบจาลองเอนแกรมและวธรวมสายอกขระทผานมา

ผวจยจงเลอกใชวธเอนแกรมรวมกบวธการสงเกตจากสายอกขระเฉพาะ ดงนนผวจยจงมงทจะ

Page 29: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

19

นาเสนอแนวทางในการใชสายอกขระเฉพาะและการสรางแบบจาลองภาษา เพอใชในงานการพฒนา

ระบบการระบภาษาของคาน

2.3 แนวทางในการจดทาระบบการะบภาษาของคา

จากการศกษาแนวทางตางๆของการระบภาษาของขอความ ในการพฒนาระบบการระบ

ภาษาของคาในวทยานพนธน ผวจยจงประยกตวธทเปนไปไดและเหมาะสมสาหรบภาษาไทย

เพอกาหนดแนวทางในการพฒนาระบบการระบภาษาของคาไทยและคาทบศพท ดงน

1. ใชวธการสงเกตจากสายอกขระเฉพาะ (Unique character sequence) เนองจาก

เหนวาคาทบศพทหรอคาไทยมกมรปแบบการเกดทตายตว เปนไปไดทจะมลกษณะเฉพาะและ

มตวอกษรหรอพยญชนะทใหลกษณะเดนของภาษาไดชดเจน เราจงสามารถระบภาษาของคา

ทบศพทจากสายอกขระ (character sequence) ทเปนตวอกษรภาษาไทย ตวอยางเชน ในคา

ทบศพทภาษาองกฤษ อาจจะม “ตอร” เปนชดอกขระเฉพาะ ในคาวา คอมพวเตอร มเตอร

ฟลเตอร “ลม” ในคาวา ฟลม และ ”อล” เปนชดอกขระเฉพาะ ในคาวา ดจตอล ฟตบอล โดยใน

สายอกขระเหลานจะปรากฏเฉพาะในคาทบศพทภาษาใดภาษาหนงเทานน จดประสงคหลกใน

การทาสายอกขระเฉพาะ คอตองการลดขนตอนของระบบ โดยไมจาเปนตองนาไปเทยบกบ

แบบจาลองภาษา และเปนการเพมประสทธภาพของระบบใหถกตองมากยงขน

แตทวาในการใชสายอกขระเฉพาะไมสามารถแกปญหาระบคาไทยและคาทบศพทไดหมด

เพราะอาจเกดปญหาคาบางคาอาจไมมสายอกขระตรงกบสายอกขระเฉพาะของภาษาใดๆ เลย

นอกจากน คา 1 คาอาจมสายอกขระทไปตรงกบสายอกขระเฉพาะมากกวาหนงภาษา ตวอยาง

สมมต คาวา คอมพายเลอร ตรงกบสายอกขระเฉพาะของคาทบศพทภาษาองกฤษวา “คอม”

และตรงกบสายอกขระเฉพาะของคาทบศพทภาษาฝรงเศส “อร” ดวย จงทาใหตดสนจากการ

เทยบสายอกขระเฉพาะไมไดวาควรเปนภาษาใด ในกรณนระบบทพฒนาจะนาคาไปทดสอบ

ตอไปในแบบจาลองภาษาของคาทบศพททเปนไปไดของทง 2 ภาษาน ในทนจงนาไปทดสอบ

กบคาทบศพทภาษาองกฤษและคาทบศพทภาษาฝรงเศส

ในงานวจยน หาสายอกขระเฉพาะดวย 1-5 แกรม คอพจารณาสายอกขระทเปนอกษร

1-5 ตวตดกน เพราะวธเหลานนาจะใหลกษณะเดนของอกขระ (character) ในแตละภาษาท

ชดเจนมากกวาเพยงแค 2-แกรม ซงเปนการพจารณาอกษรเพยงสองตวตดกน สวนขอมล

การฝก (training data) สาหรบสรางสายอกขระเฉพาะ ใชขอมลเดยวกนกบสาหรบฝก (training)

ทาแบบจาลองภาษา

Page 30: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

20

2. ใชแบบจาลองทางภาษา คอ แบบจาลองเอนแกรม ในทนจะทดลองโดยใช 2-5 แกรม

นอกจากนวธเอนแกรมทเลอกใชจะตางกบงานทวๆไปคอ เปลยนจากการดทละคา (w) เปนการ

ดเอนแกรมทละอกขระหรอตวอกษร (c) เพราะในจดประสงคของการทดลองผวจยมงจะระบภาษา

ของคาทบศพทในภาษาไทยเปนคาๆ ดงนนในขอมลทงขอมลการฝกและขอมลสาหรบทดสอบ

จงใชทละคา และหากจะใชวธเอนแกรมสาหรบหาลกษณะเดนของคาในแตละภาษา จะตองใช

เอนแกรมทละเอยดกวาระดบคา คอ ระดบสายอกขระเทานน จงจะไดผลดทสด โดยกาหนดให

w = c1 c2 c3 …. cn และ c คอ สายอกขระหรอตวอกษร ในสายอกขระผวจยจะนบทงพยญชนะ

วรรณยกต และสระ เปนอกขระตวหนง เชน คาวา “แอกเซส” จะแยกเปน แ อ ก เ ซ และ ส

แลวจงนบความถและเกบคาความนาจะเปนตามเอนแกรม โดยเกบเปน 3-แกรม ตวอยางสมมต

ดงน

ขอมลไตรแกรม

ตวอกษร ความถ

แอก 180 อกเ 954 กเซ 123 เซส 1180

โดยผวจยจะเกบขอมลลกษณะแบบนจากทกๆ คาในคลงขอมล เปนคาทางสถต

ในการประมาณคาความนาจะเปนของคา ผวจยจะประมาณโดยใชเอนแกรมดวย เชนใน

กรณทใช 3-แกรม จากคาวา “แอกเซส” สามารถประมาณคาความนาจะเปนของคาดวย 3-แกรม

ไดดงน

P(แ) P(อ|แ) P(ก|แ อ) P(เ|อ ก) P(ซ|ก เ) P(ส|เซ)

โดยท P(c3|c1 c2) คานวณไดจาก = C(c1-c2-c3) C(c1-c2)

ดงนน จากคาวา แอกเซส เมอคานวณโดยใชสมการน จะไดดงน โดยท ANS คอ คาตอบ P(แ) = จานวนสายอกขระ (ก) = ANS1 จานวนสายอกขระทงหมด

Page 31: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

21

P(อ|แ) = จานวนสายอกขระ (แ อ) = ANS2 จานวนสายอกขระ (แ)

P(ก|แ อ) = จานวนสายอกขระ (แ อ ก) = ANS3 จานวนสายอกขระ (แ อ) P(เ|อ ก) = จานวนสายอกขระ (อ ก เ) = ANS4 จานวนสายอกขระ (อ ก) P(ซ|ก เ) = จานวนสายอกขระ (ก เ ซ) = ANS5 จานวนสายอกขระ (ก เ) P(ส|เ ซ) = จานวนสายอกขระ (เ ซ ส) = ANS6 จานวนสายอกขระ (เ ซ)

หลงจากทคานวณไดแลว จงนาแตละคาตอบมาคณกน ผลทไดคอ คาความนาจะเปน

ของคาวา แอกเซส ทงคาเมอประมาณโดยใช 3-แกรม โดยคาความนาจะเปนยงใกล คา 1 แสดง

วาเปนคาทพบบอยในคลงขอมล

อยางไรกตาม จากการคานวณน อาจเกดกรณทคานวณแลวคาทไดเปนศนยขนได เนองจากสายอกขระบางสายไมพบในคลงขอมล จานวนสายอกขระทพบจงเปนศนย หากนาคาศนยไปคานวณในสมการน จะไมสามารถคานวณผลออกมาได หรอ ผลทออกมาจะเทากบศนย เชน จากการคานวณคาวา แอกเซส

P(ก|แ อ) P(เ|อ ก) P(ซ|ก เ) P(ส|เซ)

0.052 * 0.032 * 0 * 0.045 * 000007 = 0

จงตองมการปรบคาไมใหเปนศนย ในทนเลอกใชวธแบบงาย คอ เพมคา 0.000000012 ในการ

คานวณความนาจะเปนของสายอกขระ P(เ|อ ก) ดงน

P(เ|อ ก) = จานวนสายอกขระ(อกเ) + 0.00000001 จานวนสายอกขระ(อก) + 0.00000001

โดยกาหนดเงอนไขไววา ในกรณทพบวา จานวนสายอกขระ (อกเ) หรอ จานวนสาย

อกขระ (อ ก) มคาเทากบศนยหรอไมพบคาในคลงขอมลการฝกเทานน

2 ในงานนไมไดใชวธการปรบคาทใชกนทวไป เชน Witten-Bell, Good Turing, deleted Interpolation,

etc. เพราะคดวาวธทใชนกเพยงพอกบงานแลว

Page 32: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

22

กอนจะนาเสนอบทตอไป ผวจยจะทบทวนวรรณกรรมหลกเกณฑการยมคาจากภาษา

ตางประเทศดวยการทบศพทกอน โดยยดหลกเกณฑทางราชบณฑตยสถาน เพอแสดงเหตผล

วาทาไมลกษณะเฉพาะของแตละภาษาสามารถใชบอกทมาของภาษาได และแสดงเหตผลท

ผวจยนาสายอกขระเฉพาะมาวเคราะหเพอหาลกษณะเฉพาะของแตละภาษา

2.4 หลกเกณฑการทบศพทภาษาตางประเทศ

จากนยามคาวา “คาทบศพท” ในพจนานกรมฉบบราชบณฑตยสถาน พ.ศ. 2525

ทาใหสรปไดวาการทบศพท คอ การถายเสยงศพทภาษาตางประเทศดวยตวอกษรไทยทละตว

หรอ การถายคาศพทภาษาตางประเทศใหเปนอกษรไทย ตวอยางการทบศพทตามเกณฑทาง

ราชบณฑตยสถาน เชน

คาทบศพทภาษาองกฤษ คาวา Calculus เขยนทบศพทวา แคลคลส

Technique เขยนทบศพทวา เทคนค

คาทบศพทภาษาฝรงเศส คาวา Bastia เขยนทบศพทวา บาสตยา

Technique เขยนทบศพทวา เตกนก

เมอดจากเกณฑการทบศพทตามราชบณฑตยสถาน จะเหนไดวาการทบศพทภาษา

ตางประเทศไมไดใชตวอกษรไทยทกตว เชน ฆ ฎ ฏ ฐ ศ ษ ฒ เปนตน เพราะฉะนนจงม

สายอกขระเฉพาะอยางนอยทสดกในคาไทย และการคงรปตวอกษรแทนเสยงควบในคาภาษา

ตางประเทศ อาจทาใหมสายอกขระทไมพบในไทย เชนจากตวอยางในคาทบศพทภาษาองกฤษ

เราอาจพบสายอกขระเฉพาะ “เทค” เพราะในคาไทยไมมการใชอกษร ค เปนตวสะกดคา สวนใน

คาทบศพทภาษาฝรงเศสเราอาจพบสายอกขระเฉพาะ “เตก” เพราะในคาไทยรปสระ เอะ +

ตวสะกด จาเปนตองมไมไตคกากบเพอใหออกเสยงสระ เอ- ได เชนคาวา เลก เปนตน

จากเหตผลนจงอธบายไดวาสายอกขระเฉพาะสามารถแสดงลกษณะเฉพาะของภาษาได ดงนน

หากเรานาสายอกขระเฉพาะมาประยกตใชในโปรแกรมระบภาษาของคา เรากสามารถใช

สายอกขระเฉพาะบอกทมาของภาษาได

แมวาในการทบศพทจรงจะแตกตางจากเกณฑทางราชบณฑตยสถานได เชน คาวา

lock หากทบศพทตามเกณฑทางราชบณฑตยสถานจะใชคาวา “ลอก” เพราะเสยงพยญชนะทาย

/k/ ใหแทนดวยตวอกษร ก และทางราชบณฑตยสถานกาหนดใหใช ไมไตคเพอแสดงความ

Page 33: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

23

แตกตางจากคาไทย (ลอก) ดวย แตในการใชจรงอาจปรากฏการทบศพทแบบอนได เชน ลอค

ลอค เพราะผใชอาจออกเสยงคาทบศพทตามความนยม ความถนด หรอออกเสยงใหเขากบ

ระบบเสยงของภาษาตางประเทศทใช แตวาหากเราพจารณาเปรยบเทยบหลกเกณฑการทบศพท

ของราชบณฑตยสถาน ทใชสาหรบภาษาตางๆ กแสดงในเบองตนไดวา มความแตกตางระหวาง

คาทบศพทภาษาตางๆ อย เชน ตวอกษรทใชในสาหรบแตละภาษาจะไมเหมอนกน โดยในคา

ไทยมการใชตวอกษร ค ฆ เพอออกเสยง ค ใช ส ษ ศ เพออกเสยง ส แตในภาษาองกฤษใช

ตวอกษร ค และ ส เทานน และเสยงทถายออกมาเวลาทบศพทแตละภาษากแตกตางกน ไดแก

คาทบศพทภาษาองกฤษ คาวา Europe เขยนทบศพทวา ยโรป

คาทบศพทภาษาฝรงเศส คาวา Europe เขยนทบศพทวา เออรอป

จะเหนไดวาคาๆ เดยวกนแตออกเสยงตางกน ในการถายเสยงเวลาทบศพทจงออกมา

ตางกน ซงสงเหลานทาใหสะทอนความแตกตางออกมาในรปของสายอกขระทปรากฏได เชน

จากตวอยางคาทบศพทภาษาองกฤษ เราอาจไดสายอกขระเฉพาะ “โรป” และคาทบศพทภาษา

ฝรงเศส เราอาจไดสายอกขระเฉพาะ “รอป” ดงนน เราจงสามารถนาสายอกขระเฉพาะเหลาน

มาใชเพอตดสนภาษาของคาทบศพทได

Page 34: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

บทท 3

คลงขอมลคาทบศพท

ในบทนผวจยจะนาเสนอวธการสรางคลงขอมลและเกณฑในการสรางคลงขอมลคา

ทบศพท เพอใหเขาใจภาพรวมของคลงขอมลทใชในการทดลอง และเหตผลทเลอกใชคลงขอมล

คาทบศพทภาษาองกฤษ ญปนและฝรงเศส

3.1 การสรางคลงขอมล

คลงขอมลทใชในงานวจยนประกอบดวย คลงขอมลคาไทย คาทบศพทภาษาองกฤษ

คาทบศพทภาษาญปน และคาทบศพทภาษาฝรงเศส สาเหตทเลอกศกษาคาทบศพท

ภาษาองกฤษและภาษาญปนเพราะเปนคาทบศพททพบมากในภาษาไทยและเปนภาษาท

แตกตางกนมาก จงเลอกมาเปนตวอยางของภาษาทใชทดสอบวาแบบจาลองเอนแกรมในทน

จะสามารถระบทมาภาษาทแตกตางกนนไดหรอไม นอกจากนทผวจยเลอกทดลองกบภาษา

ฝรงเศสดวย เพราะวาคาทบศพทภาษาฝรงเศสนจะพบนอยกวาภาษาองกฤษและภาษาญปน

จงถอเปนการทดสอบระบบวาจะยงคงมความทนทานของระบบ (robustness) วาจะยงคงด

หรอไมหากใชคลงขอมลการฝกจานวนนอย

คลงขอมลการฝก (training corpus) ทงสาหรบทาแบบจาลองภาษา และชดอกขระเฉพาะ

นามาจากพจนานกรมฉบบราชบณฑตยสถาน พ.ศ. 2525 (2538) หลกเกณฑการทบศพท

ภาษาองกฤษ (2538) หลกเกณฑการทบศพทภาษาฝรงเศส เยอรมน อตาล สเปน รสเซย

ญปน อาหรบ และมลาย (2535) ศพทเทคนควศวกรรมไฟฟาสอสาร (2541) รวมศพทญปน

(2544) และหนงสออนๆ เชน หนงสอการทองเทยวในตางประเทศตางๆ และหนงสอทแสดง

ศพทเฉพาะทาง (technical term) ตางๆ นอกจากนยงรวบรวมจากบทความในอนเทอรเนตดวย

ซงจะมทงคาไทย และคาทบศพทภาษาองกฤษ ญปนและฝรงเศส เหตผลทเลอกเกบขอมลคา

ทบศพทจากแหลงขอมลหลายแหลง เพราะตองการความหลากหลายของคาทบศพท โดยคาท

ปรากฏในแหลงขอมล ผวจยเปนผตดสนเองวาเปนคาไทยหรอคาทบศพทภาษาใด โดยใช

ความรเรองภาษาและคาทบศพทของผวจยเองและใชการสงเกตจากคาบางคาทปรากฏทงรปเดม

และรปทบศพทดวย หากมขอสงสยกจะตรวจสอบจากพจนานกรมภาษานนๆ วามคานนใชใน

ความหมายทพบหรอไม จากคลงขอมลทรวบรวมมาเหลาน เราสามารถนามาใชในการฝก โดย

Page 35: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

25

การนาแตละคาแยกเปนคาไทย และคาทบศพทของแตละภาษากอน ขนาดของคลงขอมลม

ทง 4 ประเภท เปนดงน

- คาไทย รวบรวมทงหมด 10,000 คา คาไทยในทนรวมไปถงคาบาลและสนสกฤตดวย เพราะ

ระบบประมวลผลภาษาโดยทวไปไมจาเปนตองแยกความตางระหวางคาไทยแท กบคาไทย

ทยมมาจากภาษาบาลหรอสนสกฤต

- คาทบศพทภาษาองกฤษ รวบรวมทงหมด 10,000 คา คาทบศพทภาษาองกฤษเปน

คาทบศพททแพรหลายมากทสดทงในหนงสอวชาการ บทความ นตยสาร หนงสอพมพและ

ศพทวชาการสวนใหญใชคาทบศพทภาษาองกฤษ เชน ศพททางวทยาศาสตร คอมพวเตอร

วศวกรรมศาสตร เปนตน

- คาทบศพทภาษาญปน รวบรวมทงหมด 10,000 คา คาทบศพทภาษาญปนสวนใหญรวบรวม

จากหนงสอเกยวกบวฒนธรรม ประเพณ การแตงกาย อาหารและประวตศาสตรในประเทศ

ญปน

- คาทบศพทภาษาฝรงเศส จะรวบรวมเพยงแค 1,000 คา คาทบศพทภาษาฝรงเศสจะรวบรวม

จากหนงสอเฉพาะทางทเกยวกบประเทศฝรงเศส วฒนธรรม สถาปตยกรรมเปนสวนใหญ

3.2 เกณฑในการคดเลอกขอมล

เนองจากในปจจบนมการใชคาทบศพทกนอยางแพรหลาย และการเขยนทบศพทเปน

ภาษาไทยของแตละภาษาไมมการกาหนดกฎเกณฑทแนนอน จงทาใหเกดคาทบศพทหลาย

รปแบบ เชน ตวอยางจากขอความทพบ

“นายเรจนลด จ แมคการต ประกอบอาชญากรรมเครดตการดระบบออนไลน ณ เมอง

เลควลล ขณะทลกคาขอเปดแอลซไปยงประเทศฝรงเศส”

“อยาเวรกฮารดนกเลย ไปเอนจอยไลฟซะบาง”

“ผรภาษาอยางดกบผไมรจะออกเสยงตางกน เชน เซนทรล เซนทรน เซนทรล หรอ

สเปเชยน สเปเชยว ตางกมาจากคาทบศพทคาเดยวกน”

จะพบวาภายในขอความเหลานมการใชคาทบศพทภาษาองกฤษมากมายและตางกน เชน

คาทบศพททเขยนเรยงกนทงๆทเปนคนละคา (เวรกฮารด เครดตการด เลควลล) ชอเฉพาะ

(เรจนลด จ แมคการต) คายอ (แอลซ) และคาทบศพททเขยนตางกน ทงๆททบศพทจากคาๆ

เดยวกน (เซนทรล เซนทรน เซนทรล) เปนตน หากไมไดกาหนดเกณฑใดๆ ในการเกบรวบรวม

ขอมลคาทบศพทเหลาน เพยงแคพบคาทบศพทกเกบแลว อาจทาใหขอมลทรวบรวมไมสมาเสมอ

Page 36: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

26

และเกดความผดพลาดของระบบระบภาษาได ในทน จงไดกาหนดเกณฑในการเกบรวบรวม

ขอมลคาทบศพท ดงน

1. กรณทเปนคาทบศพททมาจากรสพจน (Acronym) และคายอ (Abbreviation) เหนได

จากตวอกษรพมพใหญภายในวงเลบตอทายจากคาทบศพทตางๆ โดยคาทบศพททง 2 ประเภทน

เมอเขยนทบศพทเปนไทยแลวจะอานตางกน คอ คารสพจนจะอานเปนคา สวนคายอจะอาน

แบบคายอ ตวอยางเชน

คายอ television มคายอวา TV อานทบศพท ทว

Non-performing loan มคายอวา NPL อานทบศพทวา เอนพแอล

The school of Germological Sciences มคายอวา SGS มคายอวา เอสจเอส

และอกมากมาย เชน ซบเอส ซเอดเอฟ ซเอฟเออาร ซไอเอ ทเอนท บทย บทเอส

บทเอส พซโอ พอาร ยพเอส ยว ยอารแอล ยเอสทอาร วดโอ วเอชเอส อารช

รสพจน signal plus noise plus distortion to noise plus distortion ratio (SINAD) อาน

ทบศพท ไซแนด ไมใช เอสไอเอนเอด

UNESCO อานทบศพทวา ยเนสโก

ASEAN อานทบศพทวา อาเซยน

และอกมากมาย เชน เอเปก โอเปค เอแบค เฮฟตา อาฟตา

ในทนผวจยเลอกเกบขอมลคาทบศพทภาษาองกฤษทเปนอานเปนคา หรอ คารสพจน

เทานน เพราะคายอเปนเพยงตวคาอานจากอกษรเทานน ไมไดใหลกษณะสาคญของภาษามาก

เทากบสายอกขระทเกดรวมกนเปนคา และคายอไมเปนปญหาในระบบการระบภาษาของคา

ทบศพท เนองจากคายอมจานวนจากด เชน เอ บ ซ ด จนถง แซด เทานนจงไมนามารวมอยใน

ปญหาการระบภาษาของคาของงานน

สวนในกรณทมการใชผสมระหวางคาทบศพทจากรสพจนและคายอ เชน เอเพกซ

(Apex) เอมลงค (M-link) เอมเวบ (M-web) ไอทซต (IT City) อเมล (E-mail) เอนเกจ (N-gage)

อคอมเมรช (E-commerce) เอนเกจ (N-gage) ในทนผวจยเลอกเกบทงคาโดยไมสนใจวาเปน

คายอหรอไม เพราะเขยนตดกนจนถอวาเปนคาๆ เดยวกน ยกเวนในกรณทเขยนทบศพทแลวม

เครองหมายจดคนหรอมการเวนชองไฟ เชน จ.เอช.ด. โคลด (G.H.D. Cold) ผวจยจะเลอกเกบ

แตเฉพาะคาทบศพทคาวา โคลด เทานน

Page 37: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

27

2. ในกรณทเปนคาทบศพททมาจากชอเฉพาะ ผวจยกจะเลอกเกบทงหมด โดยไมสนใจ

วาเปนคาทบศพททมาจากชอเฉพาะประเภทใด เชน คาวา พอลลา ซเมนต โมโตโรลา พานาโซนค

แตชอเฉพาะทปรากฏในภาษาไทย มทงชอเฉพาะทเขยนตดกน และชอเฉพาะทมการเขยน

ทบศพทผสมระหวางคาไทยและคาทบศพท ดงนนจงมเกณฑ ดงน

2.1 ชอเฉพาะทมการเขยนทบศพทตดกนไป ไมมการแยกคาตามภาษาเดมหรอม

เครองหมายใดๆ มาคน กรณนใหเกบทงคาโดยไมแยก เพราะถอวาเปนคาๆ หนง23 เชน

ยไนเตดฟลาวมลล รอกเวธ ทบโกฟดส เดทตอล เอปสน คารเนชน เปนตน

2.2 ชอเฉพาะทมการเขยนทบศพทผสมระหวางคาไทยและคาทบศพท กรณนให

เกบเฉพาะคาทบศพทอยางเดยวแมจะเขยนทบศพทตดกนจนเปนคาๆ เดยวกน เชน

“อมรนทรพรนตง แอนด พบลชชง” เกบคาวา พรนตง แอนด และพบลชชง

“หองเยนเอเชยน ซฟด” เกบคาวา เอเชยน และซฟด

“คอนโดวภาวดสวท” เกบคาวา คอนโด และสวท

จะเหนไดวาคาทขดเสนใตไมใชทบศพทจงตองตดทง และแยกเกบเฉพาะคาทเปน

คาทบศพทภาษาองกฤษเปนคาๆ แยกกน เนองจากผวจยตองการใหระบบสามารถระบภาษา

ของคาทบศพท เฉพาะในสวนของคาทมทมาจากคาทบศพทภาษาตางประเทศจรงๆ เทานน

3. เกบรวบรวมรปแบบคาทบศพททงหมดแมวาจะเปนคาทบศพทภาษาตางประเทศท

เขยนจากคาศพทคาๆ เดยวกนแตเขยนในรปตางกน เนองจากผใชคาทบศพทอาจเขยนคาทบศพท

ผดแปลกไปจากเกณฑของราชบณฑตยสถาน อาจมเหตผลคอไมคอยเปนทนยม ไมมความร

เพยงพอในการเขยนคาทบศพทใหถกตอง หรอผดพลาดในการตรวจแกไขคาทบศพท ดงนน

คาทบศพททปรากฏตามหนงสอหรอนตยสารจงแตกตางกน แมวาจะเขยนทบศพทจากคาศพท

ภาษาตางประเทศตวเดยวกน ตวอยางเหนไดจากตารางท 3.1 ดงน

3 เหตผลทใชเกณฑเชนน เพราะระบบจะไมรวาคาทบศพททเหนเขยนตดกนอยนนประกอบดวย

คาตางประเทศกคา โปรแกรมระบภาษาของคาทพฒนานทาไดเพยงตดสนวา สายอกขระนนมาจากภาษาใด

ซงเมอรคาตอบแลว จงสงใหโปรแกรมถอดอกษรกลบ (backward transliteration) หาเอาเองวาเปนคา

ตางประเทศคาใด ซงอาจประกอบดวยคามากกวาหนงคากได ดงนน ขอมลการฝกจงเกบทงสายอกขระโดย

ไมสนใจวาประกอบจากคาตางประเทศมากกวาหนงคาหรอไม

Page 38: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

28

ตารางท 3.1 การเขยนทบศพททตางจากเกณฑทางราชบณฑตยสถาน

ศพท ทบศพทตามหลกราชบณฑตยสถาน ทบศพทแบบอน

Lock ลอก ลอค ลอค ลอค ลอก

Tent เตนท เตนท

Knot นอต นอต นอต

Pyramid พระมด ปรามด ปรามด พรามด

ในทนผวจยเลอกเกบทงหมดโดยไมสนใจวาทบศพทตามเกณฑทางราชบณฑตยสถาน

หรอไม เนองจากผวจยคาดหวงวาระบบมประสทธภาพเพยงพอทจะสามารถระบภาษาของคาท

รบเขามาทดสอบไดทงหมดโดยคาทรบเขามาอาจจะตรงหรอไมตรงตามเกณฑของราชบณฑตย-

สถานกได ดงนนขอมลการฝกจงจาเปนตองมทงคาทตรงและไมตรงตามเกณฑของราชบณฑตย-

สถาน เพอใหตรงกบขอมลจรงทพบใชกนทวไป

4. ในกรณคาทบศพททสรางจากคาภาษาตางประเทศทมเครองหมายยตภงค (hyphen)

คน จะเกบรวบรวมทงคา เนองจากในคาทบศพทภาษาไทยจะเขยนทบศพทตดตอกนไปโดย

ไมมเครองหมายยตภงคแยกคาตามภาษาเดม เชน คาทบศพทภาษาองกฤษ

ครอสสตตช (cross-stitch) เกบคาวา ครอสสตตช

แคลเซยมคารบอเนต (calcium-carbonate) เกบคาวา แคลเซยมคารบอเนต

ไวรคท (wire-cut) เกบคาวา ไวรคท

แอนตสลป (Anti-Slip) เกบคาวา แอนตสลป

แตในกรณคาทบศพททเขยนจากคาศพททมเครองหมายยตภงคคน โดยเขยนทบศพท

คนดวยเครองหมายยตภงคเชนเดยวกบภาษาเดม ผวจยจะแยกเกบเปนคาๆ ตามภาษาเดมดวย

เชน คาวา McGraw-Hill เขยนทบศพทวา แมกกรอว-ฮลล ในกรณนผวจยเลอกยกเวนคาทบศพท

คาน แตแยกเกบเปนคาๆ แทนคอเกบคาวา แมกกรอว และฮลล

5. เกบรวบรวมคาทบศพททสรางจากคาภาษาตางประเทศทเขยนแยกกน แมวาภาษา

เดมจะมการเขยนแยกกนแตเมอทบศพทแลวจะเขยนตดกนไป ไมตองแยกตามภาษาเดม เชน

คาทบศพทภาษาองกฤษ

Page 39: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

29

ฟงกชนไฮเพอรโบลก (Hyperbolic function) เกบคาวา ฟงกชนไฮเพอรโบลก เปน

1 คา

อารกตกเซอรเคล (Arctic Circle) เกบคาวา อารกตกเซอรเคล เปน 1 คา และมอก

มากมาย เชน กรนพซ (green piece) กรนไวลด (green wild) โกลดโคสท (gold coast)

คอมมอนเซนต (common sense) เปนตน

ลกษณะของคาทบศพทแบบนจะเกดขนบอยทสด จนบางครงอาจใชจนผใชไมรวา

ศพทคานนประกอบไปดวยคาทบศพทภาษาองกฤษกคา บางครงอาจคดวาเปนคาทบศพททมา

จากภาษาองกฤษคาเดยวกน ดงนนผวจยจงเลอกเกบทงคา โดยไมตองแยกเปนคาๆ ตามคาศพท

ภาษาเดม

อยางไรกตาม มขอยกเวนบางคาทภาษาเดมมการเขยนแยกกน เมอมการ

เขยนทบศพทโดยเขยนแยกกนตามภาษาเดม ในกรณใหเกบแยกเปนคาๆ เชน คาทบศพท

ภาษาองกฤษ

“แฟนซวด อนดสตรส” เกบคาวา แฟนซวด และ อนดสตรส

“ไดอานา ดพารทเมนทสโตร” เกบคาวา ไดอานา และดพารทเมนทสโตร

“ลากนา รสอรท” เกบคาวา ลากนา และรสอรท

นอกจากนในกรณคาทบศพททเขยนตดกนแตมคาคณศพทประกอบกบคาทบศพท

คานน เชน คาวา “เปนของ” “แบบ” “อยาง” “ชนด” “ระบบ” ฯลฯ ในกรณนผวจยจะแยกเกบ

เปนทละคา เพราะคาเหลานไมใชมทมาจากคาภาษาตางประเทศ จะตองเกบคาทเปนคา

ภาษาตางประเทศจรงๆ เทานนเพอไมใหเกดปญหาในการใชงานระบภาษาของคาทบศพทจรงๆ

ตวอยางคาทบศพทภาษาองกฤษทเปนปญหาเชน

Eulerian function จะเขยนทบศพทวา ฟงกชนแบบออยเลอร

Thermosetting plastic จะเขยนทบศพทวา พลาสตกชนดเทอรโมเซตตง

จากตวอยางน ผวจยจะเกบทละคาคอ ฟงกชน ออยเลอร พลาสตก และเทอรโมเซตตง

3.3 การสรางขอมลการฝกและขอมลทดสอบสาหรบใชในการทดลอง เนองจากภายในระบบระบภาษาจากคาจาเปนตองใชขอมลการฝกสาหรบสรางแบบจาลอง

ภาษาและใชขอมลสาหรบการทดลอง ดงนนจากการรวบรวมคลงขอมลคาไทยและคาทบศพท

ภาษาตางประเทศ ซงมคาไทย 10,000 คา คาทบศพทภาษาองกฤษ 10,000 คา คาทบศพท

ภาษาญปน 10,000 คา และคาทบศพทภาษาฝรงเศส 1,000 คา ผวจยไดแบงสวนขอมลเหลาน

Page 40: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

30

โดยใชหลกการ 5-fold cross validation approach ซงแยกเปนขอมลการฝก (training set)

ภาษาละ 80% จากคลงขอมลทงหมดในแตละภาษา ในการทดลองน ใชคาไทย 8,000 คา

คาทบศพทภาษาองกฤษ 8,000 คา และคาทบศพทภาษาญปน 8,000 คา และคาทบศพท

ภาษาฝรงเศส 800 คา และขอมลทดสอบ (test set) ภาษาละ 20% จากคลงขอมลทงหมด

ในแตละภาษา ในการทดลองน ใชคาไทย 2,000 คา คาทบศพทภาษาองกฤษ 2,000 คา และ

คาทบศพทภาษาญปน 2,000 คา และคาทบศพทภาษาฝรงเศส 200 คา โดยไดแบงดวยวธการ

สมเลอกจากคลงขอมลโดยใชโปรแกรมภาษาเพรลเปนเครองมอในการแบงสวน เหนไดจาก

ภาพท 3.1

ภาพท 3.1 การแบงสวนคลงขอมลในแตละภาษา

และเพอใหไดผลทไมบงเอญขนกบขอมลทใชฝกและทดสอบ จะทาการทดลอง 5 ครงโดย

แตละครงจะใชขอมลทดสอบ 20% ทตางกน ดงนน ผลทไดในแตละภาษาจะมชดขอมล 5 ชด

แลวจงนาผลแตละชดมาสรปรวมกนเพอแสดงผลการทดสอบการระบคาของระบบ ในคาไทย คา

ทบศพทภาษาองกฤษ และญปน แสดงผลคาทดสอบภาษาละ 10,000 คา สวนคาทบศพทภาษา

ฝรงเศส 1,000 คา

Page 41: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

บทท 4

การระบภาษาของคาดวยสายอกขระเฉพาะ

ในบทนผวจยจะกลาวถงระบบทผวจยพฒนา คอ การระบภาษาของคาดวยสายอกขระ

เฉพาะกอน โดยแสดงถงภาพรวมของระบบการระบภาษาโดยใชสายอกขระเฉพาะ ผลการ

ทดลอง สายอกขระเฉพาะทพบในคลงขอมล สายอกขระเฉพาะทใชจรงในการทดสอบระบบ

รวมทงนาสายอกขระเฉพาะทไดจากคลงขอมลไปวเคราะหเพอหาลกษณะเฉพาะของแตละ

ภาษา

4.1 ภาพโดยรวมของวธการใชสายอกขระเฉพาะ (unique characters)

วธการใชสายอกขระเฉพาะในงานวจยน เปนการนาคลงขอมลแตละภาษาทงหมดมาหา

สายอกขระเฉพาะของแตละภาษาโดยใชวธเอนแกรมของสายอกขระตงแต 1-5 แกรม เชน ใน

การสรางสายอกขระเฉพาะดวย 3-แกรม เราอาจพบสายอกขระเฉพาะ “ทร” ในคาไทย และอาจ

พบสายอกขระเฉพาะ “ตร” ในคาทบศพทภาษาองกฤษ เปนตน ในการสรางสายอกขระเฉพาะ

ของแตละภาษา จะใชวธนาคลงขอมลทรวบรวมเปนคามาแยกเปนสายอกขระตงแต 1-5 แกรม

แลวนามาเปรยบเทยบกนในแตละแกรม โดยไมขนอยกบคาความถของสายอกขระ แตใชวธ

สงเกตจากการปรากฏของสายอกขระ โดยหากสายอกขระใดทปรากฏแลวไมซากบสายอกขระ

ในภาษาอนๆทเหลอ จะถอวาเปนสายอกขระเฉพาะของภาษานน

ผลลพธทไดจากการสรางสายอกขระเฉพาะจะได สายอกขระเฉพาะทงหมด 4 ภาษาคอ

คาไทย คาทบศพทภาษาองกฤษ ภาษาญปน และภาษาฝรงเศส โดยในแตละภาษาจะประกอบ

ไปดวย สายอกขระเฉพาะ 1-5 ตว เหนไดจากภาพท 4.1

Page 42: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

32

ภาพท 4.1 ลกษณะการสรางสายอกขระเฉพาะ 1-5 แกรม

4.2 โปรแกรมระบภาษาของคาดวยสายอกขระเฉพาะ

โปรแกรมระบภาษาของคาดวยสายอกขระเฉพาะ แบงออกเปน 2 ขนตอน ไดแก

1. ขนตอนรบคาเขา 2. ขนตอนเทยบกบสายอกขระเฉพาะ เหนไดจากภาพท 4.2

Page 43: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

33

ภาพท 4.2 ขนตอนการทางานของโปรแกรมระบภาษาของคาดวยสายอกขระเฉพาะ

1. ขนตอนรบคาเขา เปนขนตอนทรบคาเขามาแลวแยกคาๆ นน ออกเปนสายอกขระ

ดวยเอนแกรมทง 1-5 แกรม เชน คาทรบเขามาคาวา “อกขระ” เมอผานระบบเอนแกรม จะแยก

เปนแตละเอนแกรม เหนไดจากตารางท 4.1 ดงน

ตารางท 4.1 การแยกสายอกขระตามเอนแกรม 1-5 แกรม

1-แกรม 2-แกรม 3-แกรม 4-แกรม 5-แกรม

อ อ อก อกข อกขร - - ก - กข - กขร - กขระ ก กข กขร กขระ ข ขร ขระ ร ระ ะ

Page 44: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

34

2. ขนตอนเทยบกบสายอกขระเฉพาะ หลงจากทแยกสายอกขระเปนเอนแกรมตางๆ

แลว ขนตอนตอไปเปนการนาสายอกขระทแยกดวยเอนแกรม มาเทยบกบสายอกขระเฉพาะทง

4 ภาษา โดยแยกเทยบกนทง 1-5-แกรม ตามแตละเอนแกรมวาตรงกนหรอไม หากสายอกขระท

นามาทดสอบตรงกบสายอกขระเฉพาะของภาษาใดภาษาหนงเทานน กถอวาคานนเปนภาษา

ตามสายอกขระเฉพาะนนทนท แตหากไมมสายอกขระทตรงกบสายอกขระเฉพาะของภาษาใดๆ

เลย หรอ หากพบวาคานนมสายอกขระตรงกบสายอกขระเฉพาะของภาษาตางๆ มากกวา 1

ภาษา ทาใหยงตดสนไมไดวาเปนคาจากภาษาใด ตวอยางเชน ในคาวา “อกขระ” เมอทดลอง

ดวย 4-แกรม อาจจะพบ สายอกขระ “กขระ” ตรงกบสายอกขระเฉพาะภาษาญปน และพบสาย

อกขระ “อกข“ ตรงกบสายอกขระเฉพาะคาไทย ทาใหตดสนไมไดวาเปนคาไทยหรอมาจาก

ภาษาญปน ระบบจงไมระบวาคานนเปนภาษาอะไร และขามไประบคาถดไป ดงนน ผลการ

ทดลองจะไดเฉพาะคาทสามารถระบภาษาไดดวยสายอกขระเฉพาะเทานน ซงในทนผวจยเปน

ผตรวจสอบผลการระบภาษาของคาเองวา ถกตองหรอไม

ในขนตอนการเปรยบเทยบกบสายอกขระเฉพาะน ระบบทผวจยพฒนาจะทดสอบเพยง

ครงเดยว คอ หลงจากทรบคาททดสอบแลวแยกเปนสายอกขระดวยเอนแกรม 1-5-แกรม แลว

ระบบจะนาสายอกขระททดสอบ 1-แกรม มาเทยบกบสายอกขระเฉพาะ 1-แกรมในแตละภาษา

กอน ถายงไมพบวาตรงกน ระบบกจะนาสายอกขระททดสอบ 2-แกรม มาเทยบกบสายอกขระ

เฉพาะ 2-แกรมในแตละภาษา หากเปรยบเทยบกนแลว ยงไมตรงกนอกกจะทางานแบบนตอไป

ใน 3 4 และ 5-แกรม ตามลาดบ และหากวาระบบนาสายอกขระททดสอบเปรยบเทยบกบสาย

อกขระเฉพาะจนถง 5-แกรมแลวยงไมพบวาตรงกน ระบบกจะขามไปทดสอบคาตอไปเลย

4.3 ผลการทดลอง

จากการทดสอบโปรแกรมระบภาษาของคาไทยและคาทบศพทแสดงใหเหนผลของ

ระบบระบภาษาของคาดวยสายอกขระเฉพาะ 1-5 ตว ผลทไดม 3 ผลการทดลองคอ ผลการ

ตดสนภาษาไดถกตอง ผลการตดสนภาษาผดพลาด และผลการตดสนภาษาไมได โดยเหนได

จาก ตารางท 4.2

ผลการตดสนภาษาไดถกตอง หมายถงระบบสามารถระบภาษาของคาไดถกตอง

ผลการตดสนภาษาผดพลาด หมายถงระบบระบภาษาของคาผดพลาด

ผลการตดสนภาษาไมได หมายถงระบบไมสามารถตดสนภาษาของคานนได

Page 45: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

35

ตารางท 4.2 ผลการตดสนภาษาไดถกตอง ผลการตดสนภาษาผดพลาด และผลการตดสนภาษา

ไมได ดวยสายอกขระเฉพาะ 1-5 ตว โดยผลในตาราง คอ จานวนคา สวนทอยในเครองหมาย

วงเลบคอจานวนเปอรเซนต

จานวนการตดสนภาษาดวยสายอกระเฉพาะ 1-5 ตวอกษร คา (เปอรเซนต)

ภาษา ตดสนภาษาถกตอง ตดสนภาษาผดพลาด ตดสนภาษาไมได

1 1414 (14.14%) 0 2 756 (7.56%) 2 (0.02%) 3 2104 (21.04%) 274 (2.74%) 4 651 (6.51%) 164 (1.64%)

คาไทย

5 133 (1.33%) 23 (0.23%)

รวม 5058 (50.58%) 463 (4.63%) 4479 (44.79%)

1 0 2 (0.02%) 2 122 (1.22%) 14 (0.14%) 3 2018 (20.18%) 264 (2.64%) 4 1769 (17.69%) 277 (2.77%)

คาทบศพทภาษาองกฤษ

5 962 (9.62%) 81 (0.81%)

รวม 4871 (48.71%) 638 (6.38%) 4491 (44.91%)

1 0 0 2 160 (1.6%) 7 (0.07%) 3 3392 (33.92%) 186 (1.86%) 4 1683 (16.83%) 168 (1.68%)

คาทบศพทภาษาญปน

5 174 (1.74%) 38 (0.38%)

รวม 5409 (54.09%) 399 (3.99%) 4192 (41.92%)

1 0 0 2 0 1 (0.10%) 3 57 (5.70%) 122 (12.20%) 4 101 (10.10%) 99 (9.90%)

คาทบศพทภาษา ฝรงเศส

5 46 (4.60%) 34 (3.40%)

รวม 204 (20.40%) 256 (25.60%) 540 (54%)

ตารางท 4.2 แสดงผลดงน คอ ผลการตดสนภาษาไดถกตองดวยสายอกขระเฉพาะ 1-5

ตว ผลการตดสนภาษาผดพลาด และผลการตดสนภาษาไมได

Page 46: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

36

จากการดผลการตดสนภาษาไดถกตองดวยสายอกขระเฉพาะในแตละภาษา เหนวา

เมอระบภาษาของคาไทย คาทบศพทภาษาองกฤษ และญปน ดวยสายอกขระเฉพาะ 3-ตว

ใหผลการระบภาษาทถกตองสงทสด คอ คาไทย 21.04% คาทบศพทภาษาองกฤษ 20.18%

และคาทบศพทภาษาญปน 33.92% แตในการระบภาษาของคาทบศพทภาษาฝรงเศส ดวย

สายอกขระเฉพาะ 4-ตว ใหผลดทสด คอ 10.1% สวนการระบภาษาดวยสายอกขระเฉพาะ

1-ตว สามารถใชระบภาษาไดถกตองไดเฉพาะในคาไทยเทานน

นอกจากน จากตารางท 4.2 ยงแสดงใหเหนผลโดยรวมของระบบการใชสายอกขระได

โดยจะตองดในชอง ”รวม” เนองจากในการทางานของระบบการใชสายอกขระเฉพาะจะเปนการ

ทางานทละตว โดยเรมจากอกขระเฉพาะ 1 ตว กอน พอไมผานจงมาท 2 3 4 และ 5-ตว

ตามลาดบ ดงนนหากคดผลการทดลองของทงระบบการใชสายอกขระเฉพาะ จงตองคดรวมผล

ทงหมด 1-5 ตว เชน จากตารางท 4.2 เมอตองการดผลการระบของคาไทยจะแสดงผลทละตว

และนามารวมกนดงน 14.14 + 7.56+ 21.04 + 6.51 + 1.33 = 50.58% ผลลพธทไดกคอ คา

ความถกตองจากการตดสนภาษาของคาไทยดวยการใชระบบสายอกขระเฉพาะตงแต 1-5 ตว

โดยผลในชองรวม แสดงใหเหนวา วธการใชสายอกขระเฉพาะมผลตอโปรแกรมระบคาประมาณ

50% โดยสายอกขระเฉพาะมผลตอการระบคาทบศพทภาษาญปนมากทสด คอ 54.09%

รองลงมาคอ คาไทย 50.58% และคาทบศพทภาษาองกฤษ 48.71% โดยอาจเปนเพราะ

ภาษาญปนเปนภาษาทพบสายอกขระเฉพาะมากทสด หรอ เปนภาษาใชสายอกขระซาๆ กน

มาก ไมมการผสมสระมากเทาภาษาอนๆ ซงจะอภปรายเหตผลทแตละภาษาไดผลการทดสอบ

แตกตางกนตอไป ในสวนวเคราะหผลการทดสอบในหวขอ 4.4

จากการดผลการตดสนภาษาผดพลาด พบวาคาทบศพทภาษาองกฤษผดพลาดมากทสด

ถง 6.38% ซงในสวนของผลการตดสนภาษาของคาทผดพลาดนนจะกลาวอยางละเอยดในหวขอ

4.5

และเมอดผลการตดสนภาษาของคาไมได พบวา หลงจากใชสายอกขระเฉพาะแลว ยง

เหลอคาทระบบยงตดสนภาษาไมไดอกประมาณ 41-45% คาไทยเหลอ 44.79% คาทบศพท

ภาษาองกฤษเหลอ 44.91% คาทบศพทภาษาญปนเหลอ 41.92% และคาทบศพทภาษาฝรงเศส

เหลอ 54% คาทตดสนภาษาไมไดเหลาน เปนคาทไมมสายอกขระใดๆ ตรงกบสายอกขระเฉพาะ

1-5 ตวเลย ดงนน คาทเหลอเหลานจงตองนาไปตดสนภาษาดวยวธอนตอไป โดยในทนนาไป

ตดสนภาษาตอไปดวยแบบจาลองภาษา 2-5 แกรม (ซงกลาวถงในบทท 6 การระบภาษาของคา

ดวยสายอกขระเฉพาะ 1-5 ตวรวมกบแบบจาลองภาษา 2-5 แกรม)

Page 47: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

37

4.4 วเคราะหผลการทดสอบ

จากการทดสอบดวยสายอกขระเฉพาะแตละภาษา ผวจยพบวาทกภาษาททดสอบ เมอ

ระบดวยสายอกขระเฉพาะ 3-ตว จะใหผลดทสด แตเราไมสามารถตดสนไดวาการใชสายอกขระ

เฉพาะตวใดมประสทธภาพดทสด เพราะระบบการทางานของสายอกขระเฉพาะจะเรมจาก 1-ตว

กอนเสมอและทางานตอไป 2 3 4 และ 5 ตามลาดบ

4.4.1 ผลการตดสนภาษาจากสายอกขระเฉพาะคาไทย

ผลจากการระบคาไทยดวยสายอกขระเฉพาะ เมอระบคาไทยดวยสายอกขระเฉพาะ

3-ตวใหผลถกตองดทสดคอ 21.04% และผลจะตาลงเมอใชสายอกขระ 4-ตว (6.51%) และ 5-ตว

(1.33%) ตามลาดบ และเมอเปรยบเทยบผลระหวางภาษาพบวา สายอกขระเฉพาะ 1 ตว มผล

เฉพาะระบคาไทยเทานน เพราะ คาไทยมการใชพยญชนะทภาษาอนไมใช คอพยญชนะทมา

จากภาษาบาล สนสกฤต ไดแก ฆ ญ ฌ ฎ ฏ ฒ ณ ธ ภ ศ ษ ฤ ซงในภาษาอนใชพยญชนะตว

อนแทนเสยงเหลาน ทาใหพยญชนะเหลานไมปรากฏในภาษาอน และเมอระบดวยสายอกขระ

เฉพาะ 2-ตว ใหผลถกตองมากกวาภาษาอนๆ คอ 7.56%

4.4.2 ผลการตดสนภาษาจากสายอกขระเฉพาะคาทบศพทภาษาองกฤษ

ผลจากการระบคาไทยดวยสายอกขระเฉพาะ เมอระบคาทบศพทภาษาองกฤษดวย

สายอกขระเฉพาะ 3 ตว ใหผลถกตองดทสดคอ 20.18% และผลจะตาลงเมอระบดวยสายอกขระ

เฉพาะ 4-ตว และ 5-ตว ตามลาดบ และเมอเปรยบเทยบผลระหวางภาษาพบวา เมอระบภาษา

ดวยสายอกขระเฉพาะ 4 และ 5-ตว จะใหผลถกตองมากกวาภาษาอน คอ 17.69% และ 9.62%

และเมอระบดวยสายอกขระเฉพาะ 2 และ 3-ตว ใหผลตากวาภาษาอนมาก คอ 1.22% และ

20.18% อาจเปนเพราะวา ภาษาองกฤษเปนภาษาทเขยนขนดวยอกขระยาวๆ เหนไดจากมการ

ใชสายอกขระเฉพาะยาวๆ ในระบบมาก เชนสายอกขระเฉพาะ เตอร เบอร เลอร เปนตน

Page 48: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

38

4.4.3 ผลการตดสนภาษาจากสายอกขระเฉพาะคาทบศพทภาษาญปน

ผลจากการระบคาไทยดวยสายอกขระเฉพาะ เมอระบคาทบศพทภาษาญปนดวย

สายอกขระเฉพาะ 3-ตว ใหผลถกตองดทสดคอ 33.92% และผลจะตาลงเมอระบดวยสายอกขระ

เฉพาะ 4-ตว และ 5-ตว ตามลาดบ และเมอเปรยบเทยบผลระหวางภาษาพบวา เมอระบภาษา

ดวยสายอกขระเฉพาะ 3-ตว ใหผลถกตองมากกวาภาษาอน อาจเปนเพราะภาษาญปนเปน

ภาษาทเขยนดวยคาเดยวๆรวมกน ไดแก อะ อ อ เอะ โอะ เชน คาวา อคยะ อย คโยะ เปนตน

4.4.4 ผลการตดสนภาษาจากสายอกขระเฉพาะคาทบศพทภาษาฝรงเศส

ผลจากการระบคาไทยดวยสายอกขระเฉพาะ พบวาสายอกขระเฉพาะ 2-ตว ไมมผลตอ

การระบคาทบศพทภาษาฝรงเศส และเมอระบคาทบศพทภาษาฝรงเศสดวยสายอกขระเฉพาะ

4-ตว ใหผลถกตองดทสดคอ คอ 10.1% โดยผลการทดลองระบคาทบศพทภาษาฝรงเศสอาจไม

ใหผลทแนนอนเนองจากใชคลงขอมลนอย แตอาจกลาวไดวา หากใชขนาดของคลงขอมลนอย

จานวนของสายอกขระเฉพาะทพบและผลการใชสายอกขระเฉพาะในการระบภาษาของคากจะ

นอยดวย

4.5 ปญหาการตดสนคาผดพลาดทเกดขนจากการใชสายอกขระเฉพาะ 1-5 ตว

จากผลการทดสอบระบบ พบวามการระบภาษาผดพลาดจากการใชสายอกขระเฉพาะ

1-5 ตว โดยทคาภาษาหนงถกตดสนผดพลาดใหเปนอกภาษาหนง เชน คาไทย “ตะนอย” ถก

ตดสนผดพลาดเปนคาทบศพทภาษาองกฤษ ขอผดพลาดในสวนนแมจะคดเปนเปอรเซนตไม

มาก แตกนาสนใจศกษาวา โปรแกรมระบภาษาคาโดยวธการใชสายอกขระเฉพาะนไดตดสน

ผดพลาดจากภาษาใดเปนภาษาใดบาง ซงแสดงไวในตาราง 4.3 ดงน โดยแสดงผลทตดสน

ผดพลาด เปน จานวนคา และ เปอรเซนตจากคาทดสอบทงหมด

Page 49: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

39

ตารางท 4.3 ผลการตดสนภาษาของคาผดพลาดจากการใชสายอกขระเฉพาะ 1-5 ตว

ตดสนผดเปน วธ

คาททดสอบ ไทย องกฤษ ญปน ฝรงเศส รวม

ไทย 0 0 0 0

องกฤษ 2 (0.02%) 0 0 0 2 (0.02%)

ญปน 0 0 0 0

สายอกขระ 1 ตวอกษร

ฝรงเศส 0 0 0 0

ไทย 0 2 (0.02%) 0 0 2 (0.02%)

องกฤษ 10 (0.1%) 0 4 (0.04%) 0 14 (0.14%)

ญปน 4 (0.04%) 3 (0.03%) 0 0 7 (0.07%)

สายอกขระ 2 ตวอกษร

ฝรงเศส 1 (0.10%) 0 0 0 1 (0.10%)

ไทย 0 154 (1.54%) 106 (1.06%) 14 (0.14%) 274 (2.74)%

องกฤษ 139 (1.39%) 0 94 (0.94%) 31 (0.31%) 264 (2.64%)

ญปน 88 (0.88%) 92 (0.92%) 0 6 (0.06%) 186 (1.86%)

สายอกขระ 3 ตวอกษร

ฝรงเศส 22 (2.20%) 90 (9%) 10 (1%) 0 122 (12.2%)

ไทย 0 87 (0.87%) 63 (0.63%) 14 (0.14%) 164 (1.64%)

องกฤษ 86 (0.86%) 0 116 (1.16%) 75 (0.75%) 277 (2.77%)

ญปน 61 (0.61%) 102 (1.02%) 0 5 (0.05%) 168 (1.68%)

สายอกขระ 4 ตวอกษร

ฝรงเศส 12 (1.20%) 76 (7.60%) 11 (1.10%) 0 99 (9.90%)

ไทย 0 12 (0.12%) 10 (0.10%) 1 (0.01%) 23 (0.23%)

องกฤษ 11 (0.11%) 0 25 (0.25%) 45 (0.45%) 81 (0.81%)

ญปน 10 (0.10%) 28 (0.28%) 0 0 38 (0.38%)

สายอกขระ 5 ตวอกษร

ฝรงเศส 0 34 (3.40%) 0 0 34 (3.40%)

ไทย 0 255 (2.55%) 179 (1.79%) 29 (0.29%) 463 (4.63%)

องกฤษ 248 (2.48%) 0 239 (2.39%) 151(1.51%) 638 (6.38%)

ญปน 163 (1.63%) 225 (2.25%) 0 11 (0.11%) 399 (3.99%)

รวมสายอกขระ 1-5 ตวอกษร

ฝรงเศส 35 (3.50%) 200 (20%) 21 (2.10%) 0 256(25.60%)

จากตารางท 4.3 แสดงใหเหนขอผดพลาดในการตดสนภาษา ซงผวจยไดวเคราะห

ขอผดพลาดในแตละภาษาไวดงน

Page 50: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

40

4.5.1 ขอผดพลาดจากการระบคาไทย

จากขอมลการระบภาษาของคาไทยทผดพลาดจากการใชสายอกขระเฉพาะ สวนใหญ

โปรแกรมตดสนภาษาผดพลาดวาเปนคาภาษาองกฤษและภาษาญปน โดยตดสนผดวาเปน

ภาษาองกฤษมากทสด (2.55%) เชน คาวา ลอเลยน ถกตดสนวาเปนคาภาษาองกฤษจากสาย

อกขระเฉพาะ “อเลย” และ ตะนอย ถกตดสนผดวาเปนคาภาษาองกฤษจากสายอกขระเฉพาะ

“นอย” เปนเพราะบงเอญในคลงขอมลการฝกภาษาองกฤษมคาวา กรอเลยร เอเลยน อลลนอยส

และในคลงขอมลการฝกภาษาไทยไมมคาทมอกขระนอย

4.5.2 ขอผดพลาดจากการระบคาทบศพทภาษาองกฤษ

จากขอมลการระบภาษาของคาไทยทผดพลาดดวยสายอกขระเฉพาะ สวนใหญโปรแกรม

ตดสนภาษาผดพลาดวาเปนคาไทย คาภาษาญปนและภาษาฝรงเศส โดยตดสนผดวาเปนคา

ไทยมากทสด (2.48%) เชน คาวา เกยร ถกตดสนวาเปนคาไทยจากสายอกขระเฉพาะ “กยร”

และ คาวา ลอการทม ถกตดสนวาเปนคาไทยจากสายอกขระเฉพาะ “อการ” เปนเพราะบงเอญ

ในคลงขอมลการฝกคาไทยมคาวา เกยรตคณ เกยรตประวต หอการคาและสอการศกษา เปนตน

แตในคลงขอมลการฝกภาษาองกฤษไมมสายอกขระน

4.5.3 ขอผดพลาดจากการระบคาทบศพทภาษาญปน

จากขอมลการระบภาษาของคาไทยทผดพลาดดวยสายอกขระเฉพาะ สวนใหญโปรแกรม

ตดสนภาษาผดพลาดวาเปนคาภาษาองกฤษ และคาไทย โดยตดสนผดวาเปนคาภาษาองกฤษ

มากทสด (2.25%) เชนคาวา เซนทะ ถกตดสนวาเปนคาภาษาองกฤษจากสายอกขระเฉพาะ

“ซนท” เปนเพราะบงเอญในคลงขอมลการฝกภาษาองกฤษมคาวา เซนทรอยด และเซนท

เปนตน แตในคลงขอมลการฝกภาษาญปนไมมสายอกขระน

Page 51: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

41

4.5.4 ขอผดพลาดจากการะบคาทบศพทภาษาฝรงเศส

จากขอมลการระบภาษาของคาไทยทผดพลาดดวยสายอกขระเฉพาะ สวนใหญ

โปรแกรมตดสนภาษาผดพลาดวาเปนคาไทย คาภาษาองกฤษและภาษาญปน โดยตดสนผดวา

เปนคาภาษาองกฤษมากทสด (20%) เชนคาวา อาเนต ถกตดสนวาเปนคาภาษาองกฤษจาก

สายอกขระเฉพาะ “เนต” และคาวา เฟรยา ถกตดสนวาเปนคาภาษาองกฤษจากสายอกขระ

เฉพาะ “เฟร” เปนเพราะบงเอญในคลงขอมลการฝกภาษาองกฤษมคาวา ลามเนต คารบอเนต

เดลเฟรช และ เฟรชช เปนตน แตในคลงขอมลการฝกภาษาฝรงเศสไมมสายอกขระน

เหตผลทโปรแกรมตดสนภาษาผดพลาดหรอตดสนภาษาไมได เปนเพราะ คลงขอมล

การฝกอาจมขนาดไมมากพอทจะทาใหพบสายอกขระเฉพาะทครอบคลมทงภาษา ดงจะเหนได

ชดเจนในกรณของคาทบศพทภาษาฝรงเศสทตดสนผดพลาดถง 25.6% นอกจากน จากผล

ขอผดพลาดทแสดงในตารางท 4.3 เราอาจกลาวไดวา คาทบศพทภาษาญปนมลกษณะเฉพาะ

ของสายอกขระทชดเจนมากกวาคาไทย และคาทบศพทภาษาองกฤษ เพราะมขอผดพลาด

เพยง 3.99% ในขณะทคาทบศพทภาษาองกฤษดจะมลกษณะเฉพาะของสายอกขระทนอยกวา

ดงจะเหนไดจากขอผดทพบ 6.38% และจากการทคาทบศพทภาษาญปนและคาไทยกถก

ตดสนผดเปนคาทบศพทภาษาองกฤษมากทสด

นอกจากขอผดพลาดดงกลาว กมประเดนทนาสนใจวาสายอกขระเฉพาะทกตวทพบใน

แตละภาษา สามารถนามาใชจรงไดหรอไม และแตละภาษามการใชสายอกขระเฉพาะใดมาก

เปนพเศษ ดงนนผวจยจงไดนาเสนอสายอกขระเฉพาะทพบวาใชจรงในระบบและจานวนครง

ทใช

4.6 สายอกขระเฉพาะทใชจรงในระบบ

จากสายอกขระเฉพาะ 1-5 ตวในแตละภาษาทพบจากคลงขอมลการฝก ผวจยพบวา

สายอกขระเฉพาะเหลานไมไดถกนามาใชจรงในระบบทกตว และจานวนการใชสายอกขระเฉพาะ

แตละตวจะไมเทากน ดงนน ผวจยจงเสนอตารางการเปรยบเทยบจานวนสายอกขระเฉพาะทพบ

ในคลงขอมลการฝกและจานวนของสายอกขระเฉพาะทใชจรงในแตละภาษา เหนไดจากตารางท

4.4 เพอแสดงประสทธภาพของสายอกขระเฉพาะ เชน อกขระเฉพาะทพบจานวนมาก แตถก

นามาใชนอย หรอในทางกลบกน อกขระเฉพาะทพบจานวนนอย แตสามารถใชระบภาษาไดมาก

Page 52: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

42

โดยในคอลมนทสองจะแสดงจานวนสายอกขระเฉพาะทพบในคลงขอมลการฝก ตวเลขในวงเลบ

คอ จานวนเปอรเซนตจากสายอกขระทพบในคลงขอมลการฝกทงหมด 1-5 ตว และในคอลมนท

สามแสดงจานวนสายอกขระเฉพาะทใชจรงในระบบ ในวงเลบคอจานวนเปอรเซนตคดจากสาย

อกขระเฉพาะทพบในคลงขอมลการฝก

ตาราง 4.4 การเปรยบเทยบจานวนสายอกขระเฉพาะทพบในคลงขอมลการฝกและจานวนของ

สายอกขระเฉพาะทใชจรงในแตละภาษา

สายอกขระเฉพาะ (ตวอกษร)

จานวนสายอกขระเฉพาะทพบในคลงขอมลการฝก

จานวนสายอกขระเฉพาะทใชจรงในระบบ

1 16 (0.13%) 13 (81.25%)

2 542 (4.39%) 173 (31.92%)

3 5736 (46.5%) 872 (15.13%)

4 5522 (44.76%) 389 (7.05%)

คาไทย

5 520 (4.22%) 70 (13.46%)

1 0 0 2 119 (0.76%) 22 (18.49%) 3 5247 (33.5%) 781 (14.88%) 4 8944 (57.10%) 903 (10.10%)

คาทบศพทภาษาองกฤษ

5 1353 (8.64%) 335 (24.76%)

1 0 0 2 105 (0.95%) 32 (30.48%) 3 3537 (31.82%) 781 (22.08%) 4 6726 (60.51%) 864 (12.85%)

คาทบศพทภาษาญปน

5 747 (6.72%) 107 (14.32%)

1 0 0 2 14 (0.49%) 0 3 679 (23.91%) 36 (5.3%) 4 1785 (62.85%) 68 (3.81%)

คาทบศพทภาษา ฝรงเศส

5 362 (12.75%) 28 (7.73%)

จากตารางท 4.4 พบวาสายอกขระทใชจรงในระบบทกภาษาสวนใหญ เปนสายอกขระ

เฉพาะทพบมากในคลงขอมลการฝก แตนาไปใชไดจรงนอย คอไมถง 50% ของสายอกขระเฉพาะ

ในคลงขอมลการฝกทงหมด เชน ในสายอกขระเฉพาะคาทบศพทภาษาองกฤษ ถกนาไปใชจรง

Page 53: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

43

ในระบบสงสดแค 24.76% ในสายอกขระเฉพาะ 5-ตว ในสายอกขระเฉพาะคาทบศพท

ภาษาญปน ถกนาไปใชจรงในระบบสงสดแค 30.48% ในสายอกขระเฉพาะ 2-ตว ยกเวนกรณ

ของสายอกขระเฉพาะคาไทย ซงพบขอมลสายอกขระเฉพาะ 1-ตวในคลงขอมลการฝกเพยงแค

16 ตว แตนาไปใชจรงในระบบถง 13 ตวหรอ 81.25% ไดแก ษ ผ ฐ ฤ ใ ณ ฑ ภ ฎ ฏ ฆ ฬ ฒ

ซงสายอกขระเฉพาะเหลานเปนอกขระทมาจากคายมภาษาบาลและสนสกฤต อาจเปนเพราะ

ภาษาไทยมการยมคาจากบาลและสนสกฤตมาใชเปนจานวนมาก ดงนนคาสวนใหญจงใชสาย

อกขระเฉพาะเหลาน สวนกรณของคาทบศพทภาษาฝรงเศส สายอกขระเฉพาะถกนาไปใชจรง

สงสดแค 7.73% ในสายอกขระเฉพาะ 5-ตว ซงนอยทสดเมอเทยบกบภาษาอน เปนเพราะใช

ขนาดของคลงขอมลนอยทสด

นอกจากนจากการวเคราะหสายอกขระเฉพาะทใชจรงในระบบ ผวจยพบวามประเดนท

นาสนใจ เชน สายอกขระใดทใชบอกภาษาไดดทสด ดงนนผวจยจงแสดงตวอยางสายอกขระท

ใชจรงในระบบทนาสนใจไวบางสวน สวนรายการสายอกขระเฉพาะทใชจรงทงหมดจะกลาวไวใน

ภาคผนวก สายอกขระคาไทยทถกนามาใชในระบบการใชสายอกขระเฉพาะ โดยทผลในตารางคอ

จานวนครงทใชระบภาษาไดถกตอง สวนตวเลขในวงเลบคอจานวนเปอรเซนตเมอคดจาก

จานวนรวมของสายอกขระ 1-5 ตวทใชระบภาษาถกตองทงหมด คอ 5058 คา

สายอกขระเฉพาะคาไทย 1-ตว (จานวนครงทระบภาษาไดถกตองทงหมด 1414 ครง)สายอกขระ จานวนครงทใช

ระบภาษาไดถกตอง

(เปอรเซนต) ษ 298 (5.89%) ผ 176 (3.48%) ฐ 127 (2.51%)

ฤ 125 (2.47%) ใ 118 (2.33%) ณ 110 (2.17%) ฑ 104 (2.06%) ภ 93 (1.84%) ฏ 92 (1.82%) ฎ 57 (1.13%)

ฆ 65 (1.29%) ฬ 32 (0.63%) ฒ 17 (0.34%)

จากสายอกขระเฉพาะ 1-ตว เหนไดวา สายอกขระเฉพาะ 1-ตวใชตดสนภาษาไดมาก

เมอเทยบกบสายอกขระเฉพาะขนาดอนๆ โดยเฉพาะ ษ ใชตดสนภาษาไดมากทสดถง 5.89%

Page 54: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

44

สายอกขระเฉพาะคาไทย 2 ตว (จานวนครงทระบภาษาไดถกตองทงหมด 756 ครง) สายอกขระเฉพาะ

จานวนครงทใชระบภาษาไดถกตอง

(เปอรเซนต) ส- 35 (0.69%) ภ-า 32 (0.63%)

-ด 23 (0.45%) ภ- 22 (0.43%) า-ณ 21 (0.42%) อ- 21 (0.42%) ศ-า 21 (0.42%) ภ- 20 (0.4%)

ร-ภ 19 (0.38%) ข-อ 19 (0.38%) ร-ศ 16 (0.32%) ศ-ร 15 (0.3%) น- 13 (0.26%) เ-ภ 13 (0.26%)

ม- 12 (0.24%) ณ-ะ 11 (0.22%) -ภ 11 (0.22%) ถ- 10 (0.2%) ถ-ว 10 (0.2%) ช-ฌ 10 (0.2%)

จากสายอกขระเฉพาะ 2-ตว สงเกตเหนวา ไมมลกษณะใดเดนชด แตพบวามสาย

อกขระเฉพาะทถกนาไปใชมากกวาสายอกขระเฉพาะอนๆ คอ ส- (0.69%) ภ-า (0.63%)

สายอกขระเฉพาะคาไทย 3 ตว (จานวนครงทระบภาษาไดถกตองทงหมด 2104 ครง) สายอกขระเฉพาะ

จานวนครงทใชระบภาษาไดถกตอง

(เปอรเซนต) บ-ร-ร 39 (0.77%) -า-ง 34 (0.67%) จ- -า 31 (0.61%) -ท-ธ 27 (0.53%) ก-ล- 20 (0.4%) า-ร-ย 19 (0.38%) -า-ม 18 (0.36%) -ต-ร 18 (0.36%)

น-า-ย 17 (0.34%) อ-ร-ร 15 (0.3%) -ย-ง 15 (0.3%) ห-ล-ว 14 (0.28%) ร- -อ 14 (0.28%) -ญ-ช 14 (0.28%) ห-ล- 12 (0.24%) ว-ร-ร 10 (0.2%) ล- -ย 10 (0.2%) พ-จ-น 10 (0.2%) เ-ห-ล 10 (0.2%) - -ม 10 (0.2%)

-ว-ห 10 (0.2%) -อ-ย 10 (0.2%) ส- -ม 9 (0.18%) ป-ร-ะ 9 (0.18%) เ-ฟ- 9 (0.18%) ะ-พ-ร 8 (0.16%) ห- -ว 8 (0.16%) ค-ร- 8 (0.16%) -า-ย 8 (0.16%) า-ธ-ร 7 (0.14%) ะ-ท- 7 (0.14%) ล- - 7 (0.14%)

ม-ต- 7 (0.14%) บ-ป-ร 7 (0.14%) น-ห-า 7 (0.14%) ช- -า 7 (0.14%) ค-น-ธ 7 (0.14%) โ-ห-ม 7 (0.14%) -า-ว 7 (0.14%) -ว-ป 7 (0.14%) -ด-ต 7 (0.14%) า-ย-ต 6 (0.12%) า-ค-ม 6 (0.12%) ะ-ก-ร 6 (0.12%)

จากสายอกขระเฉพาะทใชจรง 3-ตว พบขอสงเกตคอ มการใชสายอกขระเฉพาะท

ประกอบดวย ตวอกษรใดกตาม + ร หน หรอ _รร เชนสายอกขระเฉพาะ บรร อรร วรร ซง

ลกษณะแบบนแสดงถงการใชภาษาไทย

Page 55: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

45

สายอกขระเฉพาะคาไทย 4 ตว (จานวนครงทระบภาษาไดถกตองทงหมด 651 ครง) สายอกขระเฉพาะ

จานวนครงทใชระบภาษาไดถกตอง

(เปอรเซนต) ก-ร-ะ-โ 16 (0.32%) น-ท-ร- 12 (0.24%) ก-ร-ะ-ด 12 (0.24%) -ต-น- 11 (0.22%) ก-ร-ะ-ส 9 (0.18%)

เ-ต- -า 9 (0.18%) -ม-พ- 9 (0.18%) อ-า-ร- 7 (0.14%) เ-ส-น-า 5 (0.1%) เ-พ-ล- 5 (0.1%) -ม-พ- 5 (0.1%) ส-ม- -ย 4 (0.08%) ร-า-ล- 4 (0.08%) พ- -น-ท 4 (0.08%)

ต-ะ-ก-ร 4 (0.08%) ง-ก-ร-า 4 (0.08%) ค-ร-อ-ง 4 (0.08%) ก- -น-แ 4 (0.08%) ก-ร-ะ-ต 4 (0.08%) ก-ร-ะ-ซ 4 (0.08%) า-ม- -ย 3 (0.06%) อ-น- -ก 3 (0.06%) อ-ด-อ-อ 3 (0.06%)

ว-า-ม-เ 3 (0.06%) ว-ร-า-ช 3 (0.06%) ร-ะ-ต- 3 (0.06%) ร-ะ-เ-ห 3 (0.06%) ร-ส- -ม 3 (0.06%) ม- -ล- 3 (0.06%) พ- -ร- 3 (0.06%) พ- -ต-ร 3 (0.06%) พ- -น-ธ 3 (0.06%)

จากสายอกขระเฉพาะคาไทย 4-ตว พบขอสงเกต คอ มการใช กระ+ตวอกษรใดกตาม

หรอ กระ_ ในการตดสนภาษาไดมาก เชน กระโ กระด กระส กระต เปนตน เปนเพราะคาไทยม

การใช ร ควบกลารวมกบ สระอะ บอย

สวนสายอกขระเฉพาะคาไทย 5 ตว (จานวนครงทระบภาษาไดถกตองทงหมด 133

ครง) ซงไมคอยมอะไรเดน เนองจากแตละสายอกขระเฉพาะมการใชจรงแค 1-7 ครงเทานน

สายอกขระคาทบศพทภาษาองกฤษทถกนามาใชในระบบการใชสายอกขระเฉพาะ โดย

ทผลในตารางคอ จานวนครงทใชระบภาษาไดถกตอง สวนตวเลขในวงเลบคอจานวนเปอรเซนต

เมอคดจากจานวนรวมของสายอกขระ 1-5 ตวทใชระบภาษาถกตองทงหมด คอ 4871 คา

สายอกขระเฉพาะภาษาองกฤษ 2 ตว (จานวนครงทระบภาษาไดถกตองทงหมด 122 ครง) สายอกขระเฉพาะ

จานวนครงทใชระบภาษาไดถกตอง

(เปอรเซนต) - ไ 23 (0.47%) -ค 22 (0.45%)

ฟ-ต 11 (0.23%) -ป 10 (0.21%) ฮ-ฟ 7 (0.14%) -ค 7 (0.14%) ฟ-ด 6 (0.12%)

-ป 5 (0.1%) ฟ – 4 (0.08%) พ-ฟ 2 (0.04%) ธ- 2 (0.04%) -ส 2 (0.04%)

จากสายอกขระเฉพาะ 2-ตว พบขอสงเกตคอ มการใช - ตามดวยตวอกษรใดกตาม

เชน -ค -ป และ - ตามดวยตวอกษร เชน -ค -ป -ส เปนตน

Page 56: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

46

สายอกขระเฉพาะภาษาองกฤษ 3 ตว (จานวนครงทระบภาษาไดถกตองทงหมด 2018 ครง) สายอกขระเฉพาะ

จานวนครงทใชระบภาษาไดถกตอง

(เปอรเซนต) น-ด- 113 (2.32%) อ-ล-ล 31 (0.64%) - -ล 28 (0.57%) -เ-ว 28 (0.57%) แ-อ-น 20 (0.41%) อ-ล- 18 (0.37%) ล-ล- 18 (0.37%)

-อ-ค 18 (0.37%) ส-เ-ป 17 (0.35%) -ส-ซ 14 (0.27%) ส-ส- 13 (0.27%) บ-ล-ล 13 (0.27%) เ-จ-อ 13 (0.27%) ฟ-ฟ- 12 (0.25%) บ-อ-ล 12 (0.25%) ค-ว-อ 12 (0.25%) -โ-ม 12 (0.25%) - -ด 11 (0.23%)

อ-ล-ต 10 (0.21%) ส-ล- 10 (0.21%) ว-ท- 10 (0.21%) ม-ม- 10 (0.21%) -ส-ค 10 (0.21%) -ล-ด 10 (0.21%) -บ-า 10 (0.21%) ว-ย- 9 (0.19%) ล-ล- 9 (0.19%) ซ-ช- 9 (0.19%) ไ-ล-เ 9 (0.19%)

โ-ฟ-ล 9 (0.19%) เ-อ-ล 9 (0.19%) -อ-ป 9 (0.19%) -ค-ท 9 (0.19%) ท-ร- 8 (0.16%) ท-ต- 8 (0.16%) ท-ช- 8 (0.16%) ค-อ-ร 8 (0.16%) -อ-ต 8 (0.16%) ว-ส-ต 7 (0.14%) พ-ล-ย 7 (0.14%)

จากสายอกขระเฉพาะ 3-ตว จะสงเกตเหนรปแบบของภาษา คอ มการใช _ _ มาก เชน

นด อล สส ฟฟ วย ลล เปนตน โดยเฉพาะ นด ใชตดสนภาษาได 2.32% ซงสงทสดเมอเทยบ

กบสายอกขระเฉพาะขนาดอนๆ และพบสายอกขระเฉพาะ -อ_ เชน -อ-ป -อ-ค -อ-ต เปนตน

สายอกขระเฉพาะภาษาองกฤษ 4 ตว (จานวนครงทระบภาษาไดถกตองทงหมด 1769 ครง) สายอกขระเฉพาะ

จานวนครงทใชระบภาษาไดถกตอง

(เปอรเซนต) เ-อ- -ก 33 (0.68%) ท-อ-ร- 31 (0.64%) อ-ร- -ก 16 (0.33%) เ-น- -ต 16 (0.33%) อ-ร- -ส 12 (0.25%) เ-ม-ต-ร 11 (0.23%) ส-ต-า-ร 10 (0.21%)

-ต- - 10 (0.21%) อ-ม-ม- 9 (0.18%) -ล-ล- 9 (0.18%) -ร- -น 9 (0.18%) ล- -ย- 8 (0.16%) ม- -ล-ล 8 (0.16%) ค-เ-ต-อ 8 (0.16%) -เ-ต-อ 8 (0.16%) -เ-บ- 8 (0.16%) า-เ-น- 7 (0.14%) อ-ร- -ส 7 (0.14%)

อ-เ-ร-ส 7 (0.14%) พ-า-ร- 7 (0.14%) พ-ร- -เ 7 (0.14%) บ-ร-อ-ด 7 (0.14%) อ-ป-ป- 6 (0.12%) ส-โ-ต-น 6 (0.12%) ล- -เ-ว 6 (0.12%) ม- -ย-ม 6 (0.12%) ม-น-เ-ด 6 (0.12%) บ-อ-ด- 6 (0.12%) น-น- - 6 (0.12%)

น-เ-ด- 6 (0.12%) ค-อ-ม-เ 6 (0.12%) ค-ล- -น 6 (0.12%) เ-ว-อ-ล 6 (0.12%) เ-ว-โ-ล 6 (0.12%) เ-ม-ต- 6 (0.12%) เ-ด- -น 6 (0.12%) -เ-อ-ร 6 (0.12%) -น-ส- 6 (0.12%) ฮ-า-ร- 5 (0.1%) อ-ร- -ส 5 (0.1%)

จากสายอกขระเฉพาะ 4-ตว ไมมลกษณะเดนของภาษาใหเหนชดเจน แตสงเกตไดวา ม

สายอกขระเฉพาะบางตวทใชไดจรงมากกวาสายอกขระอนๆ อยางเหนไดชด คอ เ-อ- -ก

(0.68%) และ ท-อ-ร- (0.64%)

Page 57: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

47

สายอกขระเฉพาะภาษาองกฤษ 5 ตว (จานวนครงทระบภาษาไดถกตองทงหมด 962 ครง) สายอกขระเฉพาะ

จานวนครงทใชระบภาษาไดถกตอง

(เปอรเซนต) ส-เ-ต-อ-ร 30 (0.62%) เ-ต-อ-ร- 27 (0.55%) เ-ล-อ-ร- 21 (0.43%) ล-เ-ล-อ-ร 21 (0.43%) เ-บ-อ-ร- 20 (0.41%) ฟ-อ-ร- -ด 16 (0.33%) ฟ-อ-ร- -เ 14 (0.29%) น-เ-ซ-อ-ร 14 (0.29%)

ก-เ-ต-อ-ร 13 (0.27%) เ-ซ-อ-ร- 13 (0.27%) ฟ-อ-ร- -ม 12 (0.25%) เ-ช-อ-ร- 12 (0.25%) ว-อ-ร- -เ 11 (0.23%) บ-อ-ร- -เ 11 (0.23%) เ-ป-อ-ร- 11 (0.23%) อ-ร- -เ-ก 10 (0.21%) ว-อ-ร- -ซ 10 (0.21%) ม-เ-ม-อ-ร 10 (0.21%) ค-อ-ร- -เ 10 (0.21%) -น-เ-ด-อ 10 (0.21%)

ต-อ-ร- -เ 9 (0.18%) ว-อ-ร- -ด 8 (0.16%) ฟ-อ-ร- -แ 8 (0.16%) ซ-อ-ร- -เ 8 (0.16%) ค-า-ร- -เ 8 (0.16%) อ-ร- -เ-ม 7 (0.14%) อ-ร- -เ-ช 7 (0.14%) อ-เ-ว-อ-ร 7 (0.14%) ล- -ก-ซ- 7 (0.14%) ค-า-ร- -โ 7 (0.14%) เ-ร- -ย-ม 7 (0.14%) อ-อ-ร- -แ 6 (0.12%)

ด-ด- - -ง 6 (0.12%) ก-เ-ก- -ต 6 (0.12%) อ- -น-ด- 5 (0.1%) อ-ร- -ร- 5 (0.1%) อ-ร- -ต- 5 (0.1%) อ-ร- -แ-ม 5 (0.1%) ว-เ-ซ-อ-ร 5 (0.1%) ม-อ-ร- -เ 5 (0.1%) ม-เ-ป-อ-ร 5 (0.1%) ป-อ-ร- -ม 5 (0.1%) ป-อ-ร- -เ 5 (0.1%) บ-อ-ร- -ร 5 (0.1%)

จากสายอกขระเฉพาะ 5-ตว จะสงเกตเหนรปแบบของภาษา คอการใช เ_อร เชน เตอร

เบอร เลอร เซอร เชอร เปนตน การใช_อร_ เชน ฟอรด วอรเ บอรเ วอรซ ตอรเ เปนตน และ

_เ_อร เชน สเตอร นเซอร กเตอร นเซอร มเปอร เปนตน

สายอกขระคาทบศพทภาษาญปนทถกนามาใชในระบบการใชสายอกขระเฉพาะ โดยท

ผลในตารางคอ จานวนครงทใชระบภาษาไดถกตอง สวนตวเลขในวงเลบคอจานวนเปอรเซนต

เมอคดจากจานวนของสายอกขระ 1-5 ตวทใชระบภาษาถกตองทงหมด คอ 5409 คา

สายอกขระเฉพาะภาษาญปน 2 ตว (จานวนครงทระบภาษาไดถกตองทงหมด 160 ครง) สายอกขระเฉพาะ

จานวนครงทใชระบภาษาไดถกตอง

(เปอรเซนต) ฮ-ะ 58 (1.07%) -ฮ 16 (0.3%)

-ฉ 12 (0.22%) -ท 8 (0.15%) -จ 6 (0.11%) ะ-ฌ 5 (0.09%) ด-ะ 5 (0.09%) ช-จ 5 (0.09%)

-ย 5 (0.09%) -ฮ 4 (0.07%) ง- 3 (0.06%) ไ-ง 3 (0.06%) -ฮ 3 (0.06%) -ช 3 (0.06%)

ท-ฮ 2 (0.04%) ช-ห 2 (0.04%) ง-ญ 2 (0.04%) โ-ฌ 2 (0.04%) -อ 2 (0.04%) -ท 2 (0.04%)

จากสายอกขระเฉพาะ 2-ตว จะสงเกตเหนรปแบบของภาษา คอการใช เ_ะ เชน ฮะ ดะ

โดยท ฮะ ใชตดสนภาษา และ - _ เชน -จ -ย -ฮ -ช

Page 58: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

48

สายอกขระเฉพาะภาษาญปน 3 ตว (จานวนครงทระบภาษาไดถกตองทงหมด 3392 ครง) สายอกขระเฉพาะ

จานวนครงทใชระบภาษาไดถกตอง

(เปอรเซนต) ม- -ช 7 (0.13%) ท-ส- 7 (0.13%) ซ-ค- 7 (0.13%) ช- -เ 7 (0.13%) จ- -ช 7 (0.13%) ง- -ว 7 (0.13%) ค- -ซ 7 (0.13%) โ-ค-ย 7 (0.13%) เ-ร-ะ 7 (0.13%) -ท-ะ 7 (0.13%) -ต-ะ 7 (0.13%) -ไ-ก 7 (0.13%) -โ-ง 7 (0.13%) -ย-ร 7 (0.13%) ฮ- -ง 6 (0.11%)

อ- -ว 6 (0.11%) อ-ะ-อ 6 (0.11%) ย-จ- 6 (0.11%) ม-ะ-ส 6 (0.11%) น-ะ-ซ 6 (0.11%) ท-อ- 6 (0.11%) ญ- -ค 6 (0.11%) ซ- -ม 6 (0.11%) ง-ญ- 6 (0.11%) ง-โ-ง 6 (0.11%) ค- -จ 6 (0.11%) ค-า-อ 6 (0.11%) ค-ะ-ส 6 (0.11%) ก-า-ค 6 (0.11%) ก-ะ-ม 6 (0.11%) ไ-ด-จ 6 (0.11%) โ-ฮ-ก 6 (0.11%) โ-ม-จ 6 (0.11%) -ง- 6 (0.11%)

-ม- 6 (0.11%) -บ- 6 (0.11%) -ค- 6 (0.11%) -ด-ะ 6 (0.11%) -ง-ญ 6 (0.11%) า-ก- 5 (0.09%) ะ-ฉ- 5 (0.09%) อ- -ร 5 (0.09%) อ- -ค 5 (0.09%) ส- -ซ 5 (0.09%) ส- -โ 5 (0.09%) ส-ะ-ค 5 (0.09%) ว-โ-ด 5 (0.09%) น-ะ-ค 5 (0.09%) ท-ะ-ซ 5 (0.09%) ท-ค-ะ 5 (0.09%) ต-โ-ฮ 5 (0.09%) ซ-ะ-ว 5 (0.09%) ซ-ย- 5 (0.09%)

ง- -โ 5 (0.09%) ง-ง-ะ 5 (0.09%) ง-โ-ญ 5 (0.09%) ค- -ย 5 (0.09%) ค-ะ-อ 5 (0.09%) ก-า-โ 5 (0.09%) โ-ย-ญ 5 (0.09%) โ-ค-ก 5 (0.09%) เ-น-ง 5 (0.09%) เ-ท-ะ 5 (0.09%) เ-ซ-ะ 5 (0.09%) เ-ก-โ 5 (0.09%) -น-ย 5 (0.09%) -ค- 5 (0.09%) -โ-จ 5 (0.09%) -เ-อ 5 (0.09%) -ญ- 5 (0.09%) -ง-ง 5 (0.09%) -โ-บ 5 (0.09%)

จากสายอกขระเฉพาะ 3-ตว พบวามการใชภาษาทสวนใหญประกอบดวยสระเสยงสน

เหนไดจาก สายอกขระเฉพาะทใชเสยงเอะ หรอ เ_ะ เชน เระ เทะ เซะ เปนตน สายอกขระ

เฉพาะทใชเสยง อโอ หรอ _ โ_ เชน สโ งโ _ โง _ โจ เปนตน และ สายอกขระเฉพาะทใชเสยง

ออะ หรอ _ _ะ เชน _ ทะ _ ตะ เปนตน

สายอกขระเฉพาะภาษาญปน 4 ตว (จานวนครงทระบภาษาไดถกตองทงหมด 1683 ครง) สายอกขระเฉพาะ

จานวนครงท ใชระบภาษา ไดถกตอง

(เปอรเซนต) เ-ค-อ- 33 (0.61%) ช- -น-โ 19 (0.35%) ม- -ร-ะ 16 (0.3%) ค- -โ-ย 14 (0.26%)

ก- -ร-ะ 14 (0.26%) อ-ะ-ร- 13 (0.24%) ช- -ค- 13 (0.24%) ก- -ช- 13 (0.24%) อ- -จ- 11 (0.2%) เ-ส-ง-เ 11 (0.2%) ฮ-า-ร-า 9 (0.17%)

ช- -ม- 9 (0.17%) ฮ- -ร-ะ 8 (0.15%) ท-า-ก-า 8 (0.15%) ช- -ต-ะ 8 (0.15%) -น-จ- 8 (0.15%) ะ-ช- -โ 7 (0.13%) ร- -โ-น 7 (0.13%)

ร- -น-โ 7 (0.13%) ร- -ค-ค 7 (0.13%) ร-ะ-ค- 7 (0.13%) ช- -ก- 7 (0.13%) โ-อ-โ-ม 7 (0.13%) อ- -ร-า 6 (0.11%) อ- -ว-า 6 (0.11%)

Page 59: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

49

อ- -โ-ม 6 (0.11%) อ-า-ช- 6 (0.11%) ส- -เ-ก 6 (0.11%) น- -น-เ 6 (0.11%) ค- -น- 6 (0.11%) ค- -เ-ร 6 (0.11%) เ-ค-โ-อ 6 (0.11%) -ม-บ- 6 (0.11%) ะ-โ-ค-โ 5 (0.09%) ะ-เ-ค-ะ 5 (0.09%) อ- -จ- 5 (0.09%) ร- -ค- 5 (0.09%) ม-ะ-เ-น 5 (0.09%)

บ- -ค-ค 5 (0.09%) น-ะ-ก-ะ 5 (0.09%) น-เ-ง- 5 (0.09%) ด-า-ช- 5 (0.09%) ซ-า-ก- 5 (0.09%) ซ-า-โ-ย 5 (0.09%) จ- -ร- 5 (0.09%) ค- -ว-โ 5 (0.09%) ค-า-โ-ต 5 (0.09%) เ-ร-ค- 5 (0.09%) -ช- -ม 5 (0.09%) -ต-โ-ต 5 (0.09%) า-ม-า-ก 4 (0.07%)

ะ-อ- -ช 4 (0.07%) ะ-อ- -โ 4 (0.07%) ะ-ค- -ส 4 (0.07%) ะ-ค- -น 4 (0.07%) อ- -ก-ะ 4 (0.07%) อ- -โ-ย 4 (0.07%) อ- -โ-ต 4 (0.07%) อ- -โ-ซ 4 (0.07%) อ-ซ-า-ก 4 (0.07%) ส- -ร-ะ 4 (0.07%) ส- -ช- 4 (0.07%) ว-า-ก-า 4 (0.07%) ร- -ช- 4 (0.07%)

ร-ะ-ก- 4 (0.07%) ม- -ร-า 4 (0.07%) ม- -ก-า 4 (0.07%) ม-า-ซ- 4 (0.07%) ม-า-เ-อ 4 (0.07%) ม-บ- -น 4 (0.07%) ม-บ- -ง 4 (0.07%) น-เ-ค- 4 (0.07%) ช- -น-ค 4 (0.07%) ช- -โ-ก 4 (0.07%) ง- -ก-ก 4 (0.07%) ค- -ร- 4 (0.07%)

จากสายอกขระเฉพาะ 4-ตว พบวามการใชภาษาทประกอบดวยสระสยงสนเหนไดจาก

สายอกขระเฉพาะทใชเสยง ออ เชน ชค ชม ชก อจ รค จร เปนตน เสยง อโอ เชน คโย อโม อ

โย อโต อโซ ชโก เปนตน เสยง ออะ เชน ฮระ ชตะ อกะ เปนตน และเสยง ออ เชน กช อจ สช

คร เปนตน นอกจากนยงพบวามสายอกขระเฉพาะทใชตดสนภาษาไดดกวาสายอกขระเฉพาะ

อน คอ เคอ (0.61%)

สายอกขระเฉพาะภาษาญปน 5 ตว (จานวนครงทระบภาษาไดถกตองทงหมด 174 ครง) สายอกขระเฉพาะ

จานวนครงทใชระบภาษาไดถกตอง

(เปอรเซนต) เ-ร- -ย-ะ 10 (0.18%) ค- -ย-ว-เ 6 (0.11%) -น-เ-ซ-น 5 (0.09%) ม- -น-โ-ต 4 (0.07%) -อ- -น-ไ 4 (0.07%)

อ-ะ-ม- -ด 3 (0.06%) ร- -ย-ว-ร 3 (0.06%) ร- -ย-ว-เ 3 (0.06%) ก- -ย-ว-ไ 3 (0.06%) เ-ม- -ย-ว 3 (0.06%) เ-ค-น-เ-ซ 3 (0.06%) า-น-า-ม- 3 (0.06%) า-ต-า-ร- 2 (0.04%) ฮ- -น-โ-ด 2 (0.04%)

อ- -ร- -น 2 (0.04%) อ- -เ-ซ-อ 2 (0.04%) อ-ะ-โ-ร-ง 2 (0.04%) ว-า-น-า-ม 2 (0.04%) ม- -น-โ-น 2 (0.04%) ม-ะ-โ-ร-น 2 (0.04%) บ-า-ย-า-ช 2 (0.04%) น- -ย-ว-ไ 2 (0.04%) น- -โ-อ-เ 2 (0.04%)

น-า-ก-า-ช 2 (0.04%) น-า-ก-า-โ 2 (0.04%) น- -น-ไ-ด 2 (0.04%) น-บ- -ร- 2 (0.04%) ช- -ร-า-เ 2 (0.04%) ช- -น-เ-ซ 2 (0.04%) ค- -ย-ว-ซ 2 (0.04%) ค- -ย-ว-ไ 2 (0.04%) ค- -น-เ-ท 2 (0.04%)

จากสายอกขระเฉพาะ 5-ตว สงเกตเหนวามการใชภาษาทใชเสยง เอยว หรอ _ ยว_มาก

เชน คยวเ รยวร เรยวเ เมยว นยวไ คยวไ เปนตน

Page 60: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

50

สายอกขระคาทบศพทภาษาฝรงเศสทถกนามาใชในระบบการใชสายอกขระเฉพาะ โดย

ทผลในตารางคอ จานวนครงทใชระบภาษาไดถกตอง สวนตวเลขในวงเลบคอจานวนเปอรเซนต

เมอคดจากจานวนรวมของสายอกขระ 1-5 ตวทใชระบภาษาถกตองทงหมด คอ 204 คา

เนองจากสายอกขระเฉพาะในคาทบศพทภาษาฝรงเศสทถกนาไปใชจรงมแคสายอกขระเฉพาะ

3-5 ตว และแตละตวกถกนาไปใชจานวนนอย เปนเพราะคลงขอมลนอย ทาใหไมคอยพบสาย

อกขระทใชจรงในระบบ ดงนนผวจยจงวเคราะหสายอกขระเฉพาะ 3-5 ตวเพยงคราวๆ เทานน

อาจไมสามารถนาไปวเคราะหเพอหาลกษณะของการใชภาษาได

สายอกขระเฉพาะ 3 ตว (จานวนครงทระบภาษาไดถกตองทงหมด 57 ครง) สายอกขระเฉพาะ

จานวนครงทใชระบภาษาไดถกตอง

(เปอรเซนต) ง-ป-า 5 (2.45%) -แ-ย 4 (1.96%)

-แ-ต 4 (1.96%) ง-แ-ฟ 3 (1.47%) -แ-ต 3 (1.47%) อ-แ-ต 2 (0.98%) ต- -ร 2 (0.98%)

ด- -ช 2 (0.98%) ด-อ-โ 2 (0.98%) แ-ต-เ 2 (0.98%) -ต- 2 (0.98%) -ด-ง 2 (0.98%)

จากสายอกขระเฉพาะ 3-ตว สงเกตไดวา สายอกขระทใชจรงสวนใหญประกอบดวย “แ”

เปนสวนประกอบในสายอกขระเฉพาะ

สายอกขระเฉพาะ 4 ตว (จานวนครงทระบภาษาไดถกตองทงหมด 101 ครง) สายอกขระเฉพาะ

จานวนครงทใชระบภาษาไดถกตอง

(เปอรเซนต) อ-ง-เ-บ 4 (1.96%) ว-า-ล-อ 3 (1.47%) ต- -เ-ย 3 (1.47%)

ซ- -ง-โ 3 (1.47%) ก-า-บ-า 3 (1.47%) เ-บ-ร-อ 3 (1.47%) า-แ-ค-เ 2 (0.98%) อ-ง-เ-ซ 2 (0.98%) ว-า-ล- 2 (0.98%) ล-อ-ง-ช 2 (0.98%)

ม-อ-ง-ต 2 (0.98%) ม-อ-ง-ด 2 (0.98%) ฟ-อ-ง-แ 2 (0.98%) ต-า-ส- 2 (0.98%) ซ-เ-ว-อ 2 (0.98%) ง-ช-า-ร 2 (0.98%) ก-า-ส-ซ 2 (0.98%)

ก- -อ-ง 2 (0.98%) ก-ร- -ว 2 (0.98%) โ-ร-ต- 2 (0.98%) เ-ล-อ-เ 2 (0.98%) เ-ต-ส-ก 2 (0.98%) เ-ต-ร-อ 2 (0.98%) เ-ซ-ล- 2 (0.98%)

จากสายอกขระเฉพาะ 4-ตว สงเกตไดวามการใชภาษาทประกอบดวยเสยง ออง มาก

เชน ลองช มองต มองด ฟองแ และเสยง เออ เชน เบรอ ซเวอ เลอเ เตรอ เปนตน

Page 61: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

51

สายอกขระเฉพาะ 5 ตว (จานวนครงทระบภาษาไดถกตองทงหมด 46 ครง)สายอกขระเฉพาะ

จานวนครงทใชระบภาษาไดถกตอง

(เปอรเซนต) ร- -เ-ล-อ 5 (2.45%) -ร- -เ-น 4 (1.96%) ก-า-ร- -ก 3 (1.47%)

า-ร- -โ-ต 2 (0.98%) า-ต-า-ล-อ 2 (0.98%) ร-า-เ-บ-อ 2 (0.98%) ป- -เ-อ-ต 2 (0.98%) บ- -ร- -เ 2 (0.98%) บ-ร- -ก-อ 2 (0.98%) ท-ร- -อ-า 2 (0.98%)

แ-ว-ร- -ด 2 (0.98%) -เ-อ-ต- 2 (0.98%) า-ว-า-ร- 1 (0.49%) า-ร- -น-า 1 (0.49%) อ-ม-แ-บ-ร 1 (0.49%) อ-ง-ท-ร-า 1 (0.49%) ล-อ-ง-เ-ก 1 (0.49%)

ม-า-เ-ล-อ 1 (0.49%) ป- -เ-อ-ม 1 (0.49%) บ-ร- -ซ-โ 1 (0.49%) ซ-อ-ร- -บ 1 (0.49%)

จากสายอกขระเฉพาะ 5-ตว สงเกตไดวา มการใชภาษาทประกอบดวย เสยง อา และ

เออ มาก เชน รเลอ การก าตาลอ ราเบอ มาเลอ กาบาส เปนตน

จากสายอกขระเฉพาะทใชจรงเหลาน สามารถแสดงใหเหนลกษณะสาคญของแตละ

ภาษาได เชน สายอกขระเฉพาะคาไทย 3-ตว ทใชบอย คอ บรร กรร อรร สรร ทาใหวเคราะหได

วา ภาษาไทยมการใช ร หน บอย จนเปนลกษณะทเกดเฉพาะในภาษาไทย ซงลกษณะเฉพาะ

ของแตละภาษาเหลานจะแสดงตอไปใน หวขอ 4.7 การวเคราะหสายอกขระเฉพาะ

นอกจากน จากการศกษาสายอกขระเฉพาะทใชจรงยงพบขอสงเกตบางอยาง เชน ถา

สงเกตในภาษาไทย อกขระตวเดยวสามารถใชระบภาษาได เมอเปนอกขระ 2 ตวอกษรอยาง

ษ ผ ฐ ฤ ใ จะไมปรากฏในสายอกขระแบบ 2 ตวอกษร แตบางตวอกษรอยาง ณ ภ กลบยงพบ

ในสายอกขระแบบ 2 อกษร แตไมพบใน 3 4 และ 5 ตวอกษร เพราะวา โดยหลกแลวเมอ

ตวอกษรอยาง ษ ใชตดสนเปนคาไทยไดแลว กจะไมพบใน 2 ตวอกษรแลว สวน ณ_ หรอ

ณ+ ตวอะไรกตาม ใน 2 อกขระ กจะไมพบใน 3-5 ตวอกษรแลว ซงกเปนจรง ทงหมดนเปน

ขอสงเกต ซงจะกลาวโดยละเอยดในหวขอ 4.7

4.7 การวเคราะหสายอกขระเฉพาะ

เนองจากในการทดลองทาใหเหนการปรากฏของสายอกขระเฉพาะในคาไทย คาทบศพท

ในภาษาองกฤษ ภาษาญปนและภาษาฝรงเศส และสายอกขระเฉพาะสามารถใชในการระบ

ภาษาไดมากกวา 50% ในบทนผวจยจงสนใจทจะวเคราะหสายอกขระเฉพาะเหลาน ทงตาแหนง

ทปรากฏของสายอกขระและดานการใชภาษา โดยผวจยทาการวเคราะหดานรปและเสยง เพอ

เปนขอมลสนบสนนวาทาไมสายอกขระเฉพาะเหลานจงใชในการระบภาษาได

Page 62: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

52

หลงจากทดลองโปรแกรมใชคลงขอมลแตละภาษาเพอสรางสายอกขระเฉพาะ ผลจาก

การทดลองทไดคอ คลงขอมลสายอกขระเฉพาะทงหมด 4 ภาษา ซงภายในคลงขอมล

ประกอบดวย สายอกขระเฉพาะทมความยาวอกขระหรอตวอกษรตงแต 1-5 ตว จากการใช

เอนแกรม 1-5 แกรม และเนองจากในการทดลองตองทดสอบเพอหาสายอกขระเฉพาะจากชด

ขอมล 5 ชดในแตละภาษา ดงนนสายอกขระเฉพาะทงหมดทได คอ สายอกขระเฉพาะทงหมด

4 ภาษาและภาษาละ 5 ชดสายอกขระ แตเพอใหเหนสายอกขระเฉพาะจรงๆ ในแตละภาษา

สายอกขระเฉพาะทผวจยจะนามาพจารณาคอ เอาสายอกขระเฉพาะจากขอมลคารวมกนทงหมด

มาพจารณาทเดยว เพราะสายอกขระเฉพาะทไดจากการทดลองชดขอมลท 1 อาจไมใชสาย

อกขระเฉพาะทแทจรงในชด 2 3 4 และ 5 กได

จากการรวบรวมคาทบศพทและหาสายอกขระเฉพาะของแตละภาษา ทาใหเหนลกษณะ

สาคญของแตละภาษา เชน ลกษณะทางเสยงของภาษา ทสะทอนใหเหนเมอเขยนดวยอกษรไทย

และยงใหขอสงเกตของภาษาซงไมสามารถอธบายเหตผลได ผวจยจงตองการวเคราะหสาย

อกขระเฉพาะเพอแสดงลกษณะสาคญทางคาไทย คาทบศพทในภาษาองกฤษ ภาษาญปนและ

ภาษาฝรงเศสตามลาดบตอไป

4.7.1 สายอกขระคาไทย

ในการวเคราะหสายอกขระคาไทย ซงผวจยวเคราะหดวยสายอกขระเฉพาะขนาด 1-5

แกรม ทาใหพบวาคาไทยมการใชตวอกษร อกขรวธของการใชคาไทย และขอสงเกตของสาย

อกขระเฉพาะ ซงสงเหลานจะสะทอนใหเหนลกษณะของภาษาไทยทคาภาษาอนไมปรากฏ มดงน

1. การใชตวอกษร ทงพยญชนะ สระ และวรรณยกต การใชตวอกษรกมสวนในการ

สะทอนใหเหนลกษณะของคาไทยได โดยตวอกษรทปรากฏเฉพาะในคาไทย ไดแก ฆ ฎ ฏ ฐ ฑ

ฒ ผ ฤ ษ ฬ ใ –ำ และ วรรณยกตจตวา ซงอกขระหรอตวอกษรเหลานไมปรากฏในคาทบศพท

ภาษาองกฤษ ญปน และฝรงเศส เพราะมการใชอกขระหรอตวอกษรอนแทนเสยงของอกขระ

เหลานอยแลว และถอวามความหมายเดยวกน เชน ในการใชพยญชนะ อกขระ “ฆ” ในภาษาอน

ใช “ค”, อกขระ “ฎ” ในภาษาอนใช “ด”, อกขระ “ฏ” ในภาษาอนใช “ต”, อกขระ “ฐ ฑ ฒ” ใน

ภาษาอนใช “ท ถ”, อกขระ“ผ” ในภาษาอนใช “พ”, อกขระ“ฤ ฬ” ในภาษาอนใช “ร” และ อกขระ

Page 63: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

53

“ษ” ในภาษาอนใช “ส” แตในกรณของคาไทยตวอกษรเหลานมพบใชในคาไทยโดยเฉพาะ

คาทมาจากบาลสนสกฤต

และการใชสระในคาไทย มการใชเสยงจากสระ “ใ” และสระ “–ำ” ซงไมปรากฏในคา

ทบศพทภาษาใดๆเลย เพราะเสยงจากสระ “ ใ” ในคาภาษาอนมกใชเสยงจาก “ไ” แทน เชน

คาวา ไมโคร ไนส เปนตน สวนเสยงจากสระ –ำ ในคาภาษาอนๆ มกใช เสยง อม มาแทน เชน

คาวา บมเปอร(bumper) ปมป(pump) เปนตน

นอกจากน ในเรองของการใชวรรณยกต ซงจรงๆแลว ไมมเกณฑใดๆ ทใหคาทบศพท

สามารถใสวรรณยกตได ผวจยพบวารปสายอกขระ(วรรณยกต) ทปรากฏเมอเขยนทบศพทจาก

ภาษาอนจะมทงรปวรรณยกตเอก โท ตร เชน คาวา โนต เซนทรน จอกกง ปมป เปนตน เปน

เพราะเมอทบศพทแลวคาททบศพทนนมเสยงซากบคาไทย จงใชวรรณยกตเพอใหออกเสยงใน

ภาษาไทยไดและเคยใสวรรณยกตกนมานานจนเปนทยอมรบกนทวไป แตพบวารปวรรณยกต

จตวานนเปนรปทปรากฏในคาไทยเทานน อาจเปนเพราะไมนยมใสเครองหมายจตวา

2. การใช ร หน หรอ รร ในภาษาไทย มการใช _รร เพอแสดงเสยง – น โดยมกพบใน

คามาจากภาษาสนสกฤต ซงจะแตกตางกบคาทบศพทภาษาอนๆ ทใชสายอกขระ “– น”

สายอกขระเดยวเทานน คอใชรปสายอกขระ “– น” แทนเสยง อน เชนคาวา ธนเดอร เปนตน

สายอกขระเฉพาะ _รร ทปรากฏ เชน กรร ครร จรร ดรร ธรร นรร บรร ภรร มรร วรร สรร หรร

อรร เปนตน โดยสายอกขระทปรากฏบอย คอ กรร บรร ธรร วรร อรร แตในสายอกขระ _รร

นกมพบบางในคาทบศพทภาษาองกฤษ (แพรร)

3. การใชเครองหมายการนต แมวาในคาภาษาอนมการใชเครองหมายการนตดวย แต

มเพยงคาในภาษาไทยเทานน ทมการใชเครองหมายวรรณยกตรวมกบอกขระทเปนสระ เชน

สายอกขระ _ จาก ด ต ธ เปนตน โดยเสยงของสายอกขระทปรากฏเดนชด คอ ธ และสาย

อกขระ _ จาก ต ถ ท ธ เปนตน

4. การใชสายอกขระ เ _ เชน เก เข เค เง เจ เฉ เต เถ เท เน เพ เม เร เล เศ เส เห

เอ เปนตน โดยสายอกขระทปรากฏเดนชด คอ เร และ เส โดยในสายอกขระนมาจากสายอกขระ

เ _ อ หรอเสยง เออ ซงเปนเสยงทไมพบในคาทบศพทภาษาอนเลย

5. การใชสายอกขระ _ ซงจรงๆ แลวในภาษาอนมการใชสระ ออ แตเมอสระออปรากฏ

ตามดวยรปวรรณยกต เอก โท ตร จตวา เชน ก ง จ ฉ ช ซ ป ผ พ เปนตน จะเปนสายอกขระ

เฉพาะทเกดขนในภาษาไทยเทานน โดยสายอกขระทปรากฏเดนชด คอ ช ล เชน ในคาวา ชอ

เลอน เกอ เปนตน

Page 64: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

54

6. สายอกขระ _าะ ซงรปแบบของสายอกขระนมาจากเสยง เอาะ ในคาไทย เชน เกาะ

เกราะ เปนตน ซงในภาษาอนไมมเสยงน เพราะภาษาอนตองมเสยงพยญชนะสะกด จงทาให

ไมมการใชรปสายอกขระ เอาะ แตใชรป ออ แทนและทาใหเปนเสยงสนดวยไมไตค เชน ลอต

เปนตน

7. สายอกขระ _ ยบ ซงในคาไทย สายอกขระนมาจากเสยง เ_ ยบ เชน ชยบ ทยบ บยบ

พยบ รยบ เปนตน แตสายอกขระนกมพบบางในคาทบศพทภาษาญปน เชน เฮยบงโดะ และ

เกยบเบทซ

8. การใช ห นา ในภาษาไทยมการใช ห นา เพอทาใหกลายเปนเสยงจตวา และเพอ

เพมความหมาย เชน หรด หวง หงด หยก หร หมดเ เปนตน โดยทการทบศพทภาษาตางๆ ใน

งานนมกไมเขยนดวย ห นา เปนเพราะในคาทบศพทมการใชเสยงจตวาแตไมนยมใช ห นา มา

แทนเสยง จตวา สวนใหญละการใชรป ห นา แตกยงออกเสยงจตวาอย เชน คาวา แกรนต –

แกรหนต คลนก – คลหนก คารบอเนต – คารบอเหนต เปนตน แตมยกเวนบางกรณ เชน คา

ทบศพทภาษาองกฤษ มการใชคาวา ไตหวน อาหรบ เปนตน ซงในเกณฑทบศพทภาษาองกฤษ

ปจจบนไมมการใช ห นา แตคาเหลานทบศพทมาแตเดมจนเปนทยอมรบกนแลว จงอนโลมให

ใชตอไป และในกรณของคาทบศพทภาษาญปน ในคาวา ฟหยคมะ เปนตน ซงเกณฑทบศพท

ภาษาญปนกไมมการใช ห นา แตคานอาจเกดขนเพราะผใชอาจเขยนทบศพทโดยไมคานงถง

กฎเกณฑเชนเดยวกบในภาษาองกฤษ เพยงแคทบศพทตามการออกเสยงในภาษาไทยเทานน

9. ขอสงเกตของการใชสายอกขระคาไทย ในการสรางคาไทยซงเปนการใชสายอกขระ

รวมกน ทาใหพบวาการใชสายอกขระบางสายรวมกนทาใหเกดสายอกขระเฉพาะ ซงแมวาจะ

ไมใชสายอกขระเฉพาะของภาษาไทย แตกเปนสายอกขระทพบมากในภาษาไทย จงนามาแสดง

ไวดงตอไปน

- สายอกขระ _า_ก มาจาก เสยง อา ตามดวยเสยง โอะ ลดรป ตามดวยพยญชนะ

ก เชน ทารก จารก ธารก บาลก ลาดก วาดก ชาลก เปนตน ซงเปนการใชเสยง อา รวมกบเสยง

อก แตกพบบางในภาษาอน เชน คาภาษาองกฤษ (อลาสกา) คาภาษาญปน (อายาดกะ) และ

คาภาษาฝรงเศส (ปาสกาล)

- สายอกขระ _นทร เชน วนทร พนทร เปนตน ซงเปนการใชสายอกขระทเปน

พยญชนะตดกนรวมกบเครองหมายการนต สายอกขระนแสดงใหเหนลกษณะเฉพาะของการใช

ตวการนตทมากกวาหนงตวอกษรของคาไทย เชน ทร เปนตน

Page 65: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

55

4.7.2 สายอกขระคาทบศพทภาษาองกฤษ

ในการวเคราะหสายอกขระคาทบศพทภาษาองกฤษ ซงผวจยวเคราะหดวยสายอกขระ

เฉพาะขนาด 2-5 แกรม ทาใหพบวาคาทบศพทภาษาองกฤษ มการใชตวอกษร อกขรวธของ

ภาษาซงในทนคอการใชเครองหมายการนต และขอสงเกตของภาษาจากสายอกขระเฉพาะ ซง

สงเหลานจะสะทอนใหเหนลกษณะของคาทบศพทภาษาองกฤษ ทคาภาษาอนไมปรากฏ มดงน

1. การใชอกษรทเปนตวสะกด เชน ตวสะกด ล ค ส ฟ เปนตวสะกดทพบมากใน

คาทบศพทภาษาองกฤษ เนองจากในภาษาไทยมการใชเสยงพยญชนะทายหรอตวสะกดเปน

เสยงระเบดไมกองและเสยงนาสกเทานน แตเมอถอดอกษรจากอกษรภาษาองกฤษ l k s และ f

จงปรากฏอกขระ ล ค ส ฟ ในพยญชนะทายในคาทบศพท อาจเปนเพราะผใชตองการออกเสยง

ดวยสาเนยงของภาษาองกฤษ

โดยจากการใชอกขระเหลานเมอปรากฏรวมกบเสยงสระอนๆเชน เสยง “แอ” และ

“ออ” จะทาใหเกดสายอกขระเฉพาะของภาษาองกฤษ ไดแก

- สายอกขระ แ_ค เชน แมค แทค แนค แลค แอค เปนตน

- สายอกขระ แ_ส เชน แจส แพส แวส แอส เปนตน แตสายอกขระนยงพบไดบาง

ในภาษาฝรงเศส เชน แตแรส นารบงแนส มงแตสกเออ เปนตน

- สายอกขระ _อส เชน กอส คอส ลอส เปนตน แตสายอกขระนยงพบไดบางในคา

ไทยแตเปนการมองขามพยางค (หอสมด ซอสามสาย) และในภาษาฝรงเศส (กาซอส ปลวยอส)

- สายอกขระ _อฟ เชน คอฟ ซอฟ ทอฟ มอฟ เปนตน แตสายอกขระนยงพบได

บางในภาษาฝรงเศส เชน กอฟแฟรง ออฟฟซเยส เปนตน

และยงพบตวสะกดทพบมากในภาษาองกฤษ คอ ต เชน สายอกขระ เ_ ต เชน

เดต เนต เรต เลต เปนตน แตตวสะกดนกมบางในภาษาอน เชน คาไทย (ภเกต) ภาษาญปน

(เทตสยะ) และในภาษาฝรงเศส (กมเบตตา)

2. การใชเครองหมายการนต ซงจะตางกบคาในภาษาอนตรงท ในภาษาอนจะไมมการ

ใชเครองหมายการนตในลกษณะดงตอไปน

- สายอกขระ เ_น _ เชน เชนส เรนต เรนส เปนตน สายอกขระนเกดขนเพราะ

คาเหลานเมอถอดอกษรเปนคาทบศพทภาษาองกฤษแลว จะปรากฏเสยง เ_น_ ซงในคาไทย

ออกเสยงแค เอน เทานน ดงนนจงมการใชเครองหมายการนตในพยญชนะทายทไมออกเสยงใน

ภาษาไทย เชน ในภาษาองกฤษ lens จะถกทบศพทเปน เลนส จงมการใสการนตบน ส เพอ

ตดเสยง ส ออกไป

Page 66: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

56

- สายอกขระ เ_อร เชน เชอร เคอร เจอร เบอร เปอร เลอร เปนตน สายอกขระน

เกดขนเพราะ ในภาษาองกฤษมการใช er ทายพยางค และเมอถอดอกษรทบศพทเปนไทยแลว

จะเปน เออร แตในภาษาไทยไมออกเสยง ร ดงนนจงตองใสเครองหมายการนต เพอตดเสยง ร

ออกไป แตสายอกขระนยงพบไดบางในภาษาฝรงเศส เชน เมอซเออร กรมาเยอร เปนตน

- สายอกขระ _ _ _ เชน กตส กยร คยร จยร เปนตน คาเหลานเมอถอดอกษร

เปนคาทบศพทภาษาองกฤษแลวเปนพยญชนะตวสดทายเปนพยญชนะทไมออกเสยง จงตองใส

เครองหมายการนตกากบ โดยสายอกขระนพบมากใน เ _ _ _ เชน คาวา เกยร (gear) เบยร

(bear) เปนตน

3. ขอสงเกตของการสรางคาทบศพทภาษาองกฤษ ในการสรางคาทบศพท

ภาษาองกฤษ เปนการใชสายอกขระรวมกนทงพยญชนะและสระ ดงนน ทาใหพบวาการใชสาย

อกขระบางสายรวมกนทาใหเกดสายอกขระ ซงแมวาจะไมใชสายอกขระเฉพาะของคา

ภาษาองกฤษ แตกเปนสายอกขระทพบมากในคาภาษาองกฤษในขณะทไมพบในภาษาอนหรอ

พบนอยกวามาก ดงนนจงนามาแสดงไวดงตอไปน

- สายอกขระ _ ไ เชน คไ ซไ ดไ ตไ เปนตน

- สายอกขระ _ _ไ เชน รสไ รคไ ทซไ ลดไ เปนตน

- สายอกขระ เ_เ เชน - เมเ - เรเ - เลเ - เอเ เปนตน

- สายอกขระ แ_ _ เชน แกร แคร แทร แบร แพร แฟร แมร เปนตน แตในสาย

อกขระนยงพบบางในภาษาอน เชน คาไทย (กญแจผ) และภาษาฝรงเศส (แดกย บแตอ)

- สายอกขระ แ_ _ เชน แมน แคน แวล เปนตน แตในสายอกขระนยงพบบางใน

ภาษาฝรงเศส เชน อาแชกร เปนตน

- สายอกขระ าเ_เ เชน -าเชเ -าเดเ เปนตน แตในสายอกขระนยงพบบางในภาษา

อน เชน ภาษาฝรงเศส (กาเปเตยง) และภาษาญปน (คาเคเมะ)

- สายอกขระ าเ_ เชน -าเซ -าเท -าเบ -าเย -าเว เปนตน แตในสายอกขระนยงพบ

บางในคาไทย เชน ราเรง ปลาเงนปลาทอง

- สายอกขระ เ_เ เชน - เคเ - เนเ - เรเ - เลเ - เอเ เปนตน แตในสายอกขระนยง

พบบางในภาษาญปน เชน นเซเอะ จดซรเสเรยวก เปนตน

- สายอกขระ เ_ _เ เชน เซนเ เอนเ เปนตน แตในสายอกขระนยงพบบางใน

ภาษาญปน เชน เคฮเอนเงก โยบเซนเคยะ เปนตน

- สายอกขระ โ_เ เชน - โคเ - โทเ - โรเ เปนตน แตในสายอกขระนยงพบบางใน

ภาษาญปน เชน เซนชโชเตน เปนตน

Page 67: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

57

- สายอกขระ _ _ ม เชน รซม ลซม รทม เปนตน แตในสายอกขระนยงพบบางใน

ภาษาญปน เชน คะมซมยะ โคะอซม เปนตน

- สายอกขระ _ เ_ เชน ซเอ ลเน ลเว ดเต เปนตน แตในสายอกขระนยง

พบบางในภาษาฝรงเศส เชน ตาปซเยร เปนตน

- สายอกขระ อ_เ_อ เชน อกเตอ อนเดอ อนเนอ อมเมอ เปนตน แตในสายอกขระ

นยงพบบางในภาษาอน เชน ภาษาฝรงเศส (ชองเตอล อองเลอองส) และภาษาญปน (เองเคอ)

- สายอกขระ _เ_ อ เชน งเกอ ตเตอ นเดอ นเนอ มเปอ ลเลอ เปนตน แต

ในสายอกขระนยงพบบางอนๆ เชน ภาษาญปน (ซงเคอ นนเซอ) และภาษาฝรงเศส (กทเธอรน

ตสเตอแวง)

4.7.3 สายอกขระคาทบศพทภาษาญปน

ในการวเคราะหสายอกขระคาทบศพทภาษาญปน ซงผวจยวเคราะหดวยสายอกขระเฉพาะ

ขนาด 2-5 แกรม ทาใหพบวาคาทบศพทญปน มการใชอกขรวธของภาษาและขอสงเกตของ

ภาษาจากสายอกขระเฉพาะ ซงสงเหลานจะสะทอนใหเหนลกษณะของคาทบศพทภาษาญปน

ดงน

1. สายอกขระ ทซ และ ทส สายอกขระนสะทอนใหเหนการใชพยญชนะของ

ภาษาญปนรวมกบเสยง อ โดยทบศพทมาจาก ttsu และ tsu ซงจากเกณฑทบศพท ttsu และ

tsu จะถอดเสยงเปน ตส แตอาจนยมถอดเสยงเพยนเปน ทส หรอ ทซ ได

2. ขอสงเกตของการสรางคาทบศพทภาษาญปน จากการทภาษาญปนมสระเดยว

นอยกวาคาไทย คอ ม 10 สระ ไดแก อะ อา เอะ เอ อ อ โอะ โอ อ อ ในขณะทคาไทยม 18 สระ

ไดแก อะ อา อ อ อ ออ อ อ เอะ เอ แอะ แอ โอะ โอ เอาะ ออ เออะ เออ ดงนน ทาใหรปแบบ

ภาษาญปนอาจมสระเดยว 10 ตวนตอเนองกนคอนขางมากกวาภาษาอน เปนเหตใหพบ

สายอกขระเหลานในภาษาญปนคอนขางมาก ในขณะทพบในภาษาอนนอยหรออาจไมพบเลย

โดยสายอกขระเหลานไดแก

- สายอกขระ ะโ_เ เชน ะโปเ ะโรเ ะโอเ เปนตน แตในสายอกขระนยงพบบางในคา

ภาษาองกฤษ เชน นโปเลยน อะโรเมตกส เปนตน

- สายอกขระ _า _ เชน มาร นาชร ราอ เปนตน แตในสายอกขระนยงพบบาง

ในภาษาองกฤษ เชน ดกากส ยคาลปตส เปนตน

Page 68: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

58

- สายอกขระ เ_ะ_ะ เชน เซะงะ เบะระ เมะคะ เนะงะ เปนตน แตในสายอกขระน

ยงพบบางในคาไทย เชน ระเกะระกะ เปนตน

- สายอกขระ _ ทซ และ _ ทส เชน คทส จทซ จทส ซทซ นทซ บทซ มทซ มทส

รทโ รทช รทซ รทส อทโ อทซ อทส เปนตน ซงเปนสายอกขระเฉพาะทประกอบดวยสระอ

รวมกบพยญชนะ 2 ตวตดกน แตสายอกขระนยงพบบางใน ภาษาอนๆ เชน คาไทย (สนทสนม)

คาภาษาองกฤษ (วทสเลอร ฮทซ เฮทซ)

- สายอกขระ _ นง เชน คนง มนง ยนง อนง เปนตน แตในสายอกขระนยงพบบาง

ในคาไทย เชน หนงอก เปนตน

- สายอกขระ า_ _ะ เชน าบระ าอตะ ากระ าขสะ เปนตน แตในสายอกขระนยง

พบบางในคาไทย เชน สาธสะ เปนตน

- สายอกขระ เ_ เชน - เก - เค - เม เปนตน แตในสายอกขระนยงพบบางในคา

ไทย เชน ทเรยน เปนตน

นอกจากนยงพบสายอกขระทพบเฉพาะในคาทบศพทภาษาญปน โดยมดงน

- สายอกขระ าเ_ะ เชน าเกะ าเคะ เปนตน

- สายอกขระ า_ะโ เชน -าตะโ –ามะโ เปนตน

- สายอกขระ า_ โ เชน -าซโ –ารโ เปนตน

- สายอกขระ _ เ เชน คเ ซเ สเ เปนตน

- สายอกขระ _ โ เชน กโ ซโ สโ เปนตน

- สายอกขระ - เ_ะ เชน - เกะ - เคะ – เทะ เปนตน

- สายอกขระ - โ_ะ เชน - โกะ - โยะ - โดะ - โนะ เปนตน

- สายอกขระ เ_ะ เชน - เกะ - เคะ เปนตน

- สายอกขระ เ_โ เชน - เคโ - เรโ - เอโ เปนตน

- สายอกขระ โ_เ เชน – โยเ – โรเ เปนตน

- สายอกขระ _ เ เชน - รเ - วเ เปนตน

- สายอกขระ _ โ เชน - รโ - ยโ เปนตน

- สายอกขระ _ เ เชน - สเ - รเ - คเ - สเ เปนตน

- สายอกขระ เ_ะ เชน - เกะ - เคะ - เนะ เปนตน

- สายอกขระ เ_ ะ_ เชน เกะร เคะร เนะค เมะอ เอะร เปนตน

- สายอกขระ โ_ _ เชน - โมก – โรก – โยอ – โรค เปนตน

- สายอกขระ _ะ_ เชน - ระม – ตะม – กะร เปนตน

Page 69: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

59

4.7.4 สายอกขระคาทบศพทภาษาฝรงเศส

ในการวเคราะหสายอกขระคาทบศพทภาษาฝรงเศส ซงผวจยวเคราะหดวยสายอกขระ

เฉพาะขนาด 2-5 แกรม ทาใหพบวาในการเขยนทบศพทภาษาฝรงเศส มการใชอกขรวธ และ

ขอสงเกตของภาษา ซงสามารถสะทอนใหเหนลกษณะของคาทบศพทภาษาฝรงเศสได แต

สงทสะทอนใหเหนในภาษานมกปรากฏใหเหนนอยกวาภาษาอนๆ เพราะผวจยใชคลงขอมล

คาทบศพทภาษาฝรงเศสนอยกวาในภาษาอน ซงแสดงไวดงน

1. การใชสายอกขระทมเสยง ออ ซงเสยง ออ (aur, am, an, aon, em) เปนเสยงทพบ

มากในภาษาน แตกพบมากในภาษาอนดวย เชน ในคาไทย (ขอ พอ) คาทบศพทภาษาองกฤษ

(เมนทอล) คาทบศพทภาษาญปน (คอนจ) แตในกรณทเสยง ออ น ตามหลงดวยเสยง อ เหนได

จาก สายอกขระ _อ_ เชน ชอน ฟอร ลอป เปนตน แตสายอกขระนยงพบบางในภาษาองกฤษ

เชน เดอลกซ ออกสต เปนตน

2. การใชสายอกขระทมเสยง อง นาหนา ซงเสยง อง (om) เปนเสยงทพบมากใน

ภาษานแตพบในภาษาอนดวย เชน คาไทย (กงจกร) คาทบศพทภาษาญปน (บงโอโดร) แตเมอ

เสยง อง ตามดวยเสยง อง ทาใหเกดสายอกขระเฉพาะ _ง _ง เชนคาวา องบง ดาลองซง

บรยองซง ลงฟง เปนตน แตสายอกขระนยงพบบางในภาษาอน เชน คาไทย (หงองแหงง)

คาภาษาองกฤษ (ฮองกง) และภาษาญปน (เตงบง)

3. ขอสงเกตของการสรางคาทบศพทฝรงเศส จากการสรางคาทบศพทภาษาฝรงเศส

มการใชสระทมเสยง อ ออง แอ และ โอ มากในภาษา จงทาใหเกดสายอกขระเฉพาะทพบมาก

ในคาทบศพทภาษาฝรงเศส ในขณะทภาษาอนพบนอย ไดแก

- สายอกขระ โ_ _ อง เชน โกลอง โตบอง โบมอง โวบอง เปนตน

- สายอกขระ - รแ_ เชน - รแค - รแน เปนตน แตสายอกขระนยงพบบางใน

ภาษาองกฤษ เชน มรแลนด เปนตน

4.8 สรปผลการใชวธสายอกขระเฉพาะ

จากผลการตดสนภาษาไดถกตองดวยสายอกขระเฉพาะในแตละภาษาเมอมองแตภาษา

หลกทใชจานวนคลงขอมลการฝกเทากน พบวาวธการใชสายอกขระเฉพาะมผลตอโปรแกรมระบ

คาประมาณ 50% คอ คาทบศพทภาษาญปน 54.09% คาไทย 50.58% และคาทบศพท

ภาษาองกฤษ 48.71% โดยสายอกขระเฉพาะมผลตอการระบคาทบศพทภาษาญปนมากทสด

Page 70: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

60

อาจเปนเพราะภาษาญปนเปนภาษาทพบสายอกขระเฉพาะมากทสด และตดสนภาษาผดพลาด

นอยทสด หรอหากมองในเชงภาษาศาสตร ภาษาญปนเปนภาษาทใชสายอกขระซาๆ กนมาก

ไมมการผสมสระมากเทาภาษาอนๆ สวนวธสายอกขระเฉพาะมผลตอการระบคาไทยมากถง

50% อาจเปนเพราะคาไทยถกตดสนภาษาดวยสายอกขระเฉพาะ 1-ตวถง 14.14% ซงในภาษา

อนไมมการใชสายอกขระเฉพาะ 1-ตวน

Page 71: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

61

บทท 5

การระบภาษาของคาดวยแบบจาลองภาษา

ในบทนผวจยจะกลาวถงอกระบบหนงทผวจยพฒนาเพอใชรวมกบการใชสายอกขระเฉพาะ

คอ การระบภาษาของคาดวยแบบจาลองภาษา 2-5 แกรม โดยแสดงถงภาพรวมของระบบ

การระบภาษาโดยใชแบบจาลองภาษา ผลการทดสอบระบบ ผลเปรยบเทยบการใชขนาดของ

เอนแกรมตางกน และขอผดพลาดทเกดขน

5.1 การสรางแบบจาลองภาษา (Language model)

การสรางแบบจาลองภาษาในงานวจยนเปนเพยงการเกบคาทางสถตของชดอกขระท

เกดขนในคลงขอมลดวยวธเอนแกรมทง 2-5 แกรม โดยจะใชงานในชวงเวลาขณะทตองการจะ

ทดสอบระบบ ผลลพธทไดประกอบดวยแบบจาลองภาษาทงหมด 4 ภาษา คอแบบจาลองคาไทย

คาทบศพทภาษาองกฤษ ภาษาญปนและภาษาฝรงเศส เหนไดจากภาพท 5.1 โดยในแบบจาลอง

แตละภาษากแยกเปน 2-แกรม 3-แกรม 4-แกรม และ 5-แกรม เพอทดลองเปรยบเทยบวาวธ

เอนแกรมขนาดใดใหประสทธภาพดกวา

ภาพท 5.1 ลกษณะของแบบจาลองภาษาเอนแกรม

Page 72: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

62

ตอไปจะกลาวถงโปรแกรมระบภาษาของคาดวยแบบจาลองภาษา โดยจะอธบายโครงสราง

ของโปรแกรมระบภาษาของคาดวยแบบจาลองภาษาทพฒนาและขนตอนของโปรแกรมทงหมด

ทละขนตอน

5.2 โปรแกรมระบภาษาของคาดวยแบบจาลองภาษา

โปรแกรมระบภาษาของคาดวยแบบจาลองภาษา แบงออกเปน 2 ขนตอน ไดแก

1. ขนตอนรบคาเขา 2. ขนตอนระบภาษาดวยแบบจาลองภาษา เหนไดจากภาพท 5.2

ภาพท 5.2 ขนตอนการทางานของโปรแกรมระบภาษาของคาดวยแบบจาลองภาษา

Page 73: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

63

1. ขนตอนรบคาเขา เปนขนตอนทรบคาเขามาแลวแยกคาๆ นน ออกเปนสายอกขระ

ดวยเอนแกรมทง 2-5 แกรม เชน คาทรบเขามา คอ คาวา “อกขระ” เพอผานระบบเอนแกรม จะ

แยกเปนแตละเอนแกรม เหนไดจากตารางท 5.1 ดงน

ตารางท 5.1 การแยกสายอกขระตามเอนแกรม 2-5 แกรม

2-แกรม 3-แกรม 4-แกรม 5-แกรม

อ อก อกข อกขร

- ก - กข - กขร - กขระ

กข กขร กขระ

ขร ขระ

ระ

2. ขนตอนระบภาษาดวยแบบจาลองภาษา เปนขนตอนทนาสายอกขระทแยกมา

คานวณหาคาความนาจะเปนทเกดขนในคลงขอมล เชน เมอหาความนาจะเปนของคาวา อกขระ

โดยใช 4-แกรม เรากประมาณคาโดยนาความนาจะเปนของแตละสายอกขระมาคณกนดงน

P(อ) P(– | อ) P(ก|อ) P(ข | อก) P(ร | – กข) P(ะ | กขร) ในขนตอนนใชวธเอนแกรมตงแต 2-5

แกรมพรอมกบวธปรบคาไมใหเปนศนย (smoothing) โดยการเพมคา 0.00000001 ในกรณท

ทดลองแลวไมพบสายอกขระในขอมลการฝก

ในขนตอนระบภาษาของคาดวยแบบจาลองภาษา จะทดสอบระบบทละแกรม คอ คาท

รบเขามาตองตดสนผานภาษาเรมจาก 2-แกรม พอตดสนไดแลวกจะนาคานนตดสนตอไปใน

3-แกรมอก ระบบจะทาลกษณะแบบนจนถง 5-แกรม โดยจะทาเชนนกบทกแบบจาลองภาษา

(คาไทย คาทบศพทภาษาองกฤษ คาทบศพทภาษาญปนและคาทบศพทภาษาฝรงเศส)

ตวอยางผลการทดลองทไดคาความนาจะเปนจากการใชแบบจาลอง 4-แกรม เหนได

จากตารางท 5.2 ดงน

Page 74: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

64

ตารางท 5.2 ตวอยางผลการทดลองทไดจากแบบจาลองภาษา

คาความนาจะเปนจาก 4-แกรม

คาททดสอบ

จากแบบจาลอง

ภาษา

คาไทย

ภาษาองกฤษ

ภาษาญปน

ภาษาฝรงเศส

สนเชอ 0.079547 0.00000008 0.0001125 0.0004389

แจกเกต 0.0004527 0.23293787 0.0046872 0.035714

ทาเกจ 0.0045454 0.00011531 0.0571847 0.0296052

ซองตราล 0.1150739 0.0244702 0.000025 0.2577250

หลงจากนนทไดคาความนาจะเปนของแบบจาลองภาษาแลวระบบกจะตดสนวาเปนคา

จากภาษาใดโดยเลอกจากแบบจาลองภาษาทใหคาความนาจะเปนสงทสด ซงจากตวอยางน

คาวา “สนเชอ” จะถกตดสนวาเปนคาไทย คาวา “แจกเกต” ตดสนวาเปนคาทบศพทภาษาองกฤษ

คาวา “ทาเกจ” ตดสนวาเปนคาทบศพทภาษาญปน และคาวา “ซองตราล” ตดสนวาเปนคา

ทบศพทภาษาฝรงเศส โดยหลงจากการทดลองระบภาษาดวยโปรแกรมแลว ผวจยเปนผนา

คานนตรวจสอบความถกตองเองวาระบบระบภาษาของคาไดถกตองหรอไม เพอเปนตรวจสอบ

ความถกตองและทนทานของระบบ

5.3 สรปผลการทดลอง

จากการทดสอบโปรแกรมระบภาษาของคาไทยและคาทบศพทแสดงใหเหนผลของ

ระบบระบภาษาดวยแบบจาลอง 2-5 แกรม และเนองจากระบบนจะทดสอบทละเอนแกรม คอ

ระบบจะเรมตดสนภาษาคาทกคาทแบบจาลอง 2- แกรม กอน พอระบบทางานเสรจ กนาคาทก

คาทตดสนภาษาแลว ผานมายงแบบจาลองภาษา 3-แกรมเพอตดสนภาษาอกซงจะตดสนเปน

ภาษาทตางกนได โดยทาลกษณะแบบนจนถง 5-แกรม ดงนน ผลการทดลองทแสดงใน

ตาราง 5.3 คอ คาความถกตอง ทแยกกนในแตละขนาดของเอนแกรมนน ผลการทดสอบทได

จงใหทละแกรมแยกจากกน เหนไดจาก ตารางท 5.3 โดยผลการทดสอบระบบทไดคอ คา

ความถกตอง ซงหมายถง ระบบสามารถระบภาษาของคาไดถกตอง

Page 75: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

65

ตารางท 5.3 ผลการตดสนภาษาของคาไดถกตองดวยแบบจาลอง 2-5 แกรม

โดยผลการทดลอง คอ จานวนคาทระบภาษาไดถกตอง ในวงเลบคอจานวนเปอรเซนต จานวนการระบภาษาของคาไดถกตอง

จานวนภาษาละ 10000 คา 1000 คา

ภาษา

วธ ไทย องกฤษ ญปน ฝรงเศส

2 9077 (90.77%) 8463 (84.63%) 9502 (95.02%) 759 (75.90%)

3 9370 (93.70%) 9145 (91.45%) 9510 (95.10%) 537 (53.70%)

4 9145 (91.45%) 8944 (89.44%) 9441 (94.41%) 597 (59.70%)

แบบจาลองภาษา 2-5

แกรม

5 8844 (88.44%) 8457 (84.57%) 9219 (92.19%) 590 (59%)

จากตารางท 5.3 แสดงใหเหนวา เมอระบภาษาของคาแตละภาษาดวยแบบจาลองภาษา

3-แกรม ใหคาความถกตองดทสด ยกเวนเมอระบภาษาของคาทบศพทภาษาฝรงเศส สวนการ

ระบภาษาดวย 5-แกรมใหผลแยทสด แตในทางกลบกนเมอระบคาทบศพทภาษาฝรงเศสใหผลด

ทสด

นอกจากน ผลการทดลองของแตละภาษาทมลกษณะคลายกน คอยงใชแกรมสงผลจะ

ตาลงอาจเปนเพราะในแตละภาษาไทย องกฤษ ญปน จะเดาตวอกษรทสามไดตองเหนมากอน

สองตวอกษร ดงนนแบบจาลอง 3-แกรม จงไดผลมากทสดในทกภาษา แตเมอเพมเปน

4-แกรม ผลถกตองลดลง อาจเปนเพราะเมอขยายขนาดเอนแกรมมากขน ทาใหจานวนปรมาณ

เอนแกรมทพบในขอมลการฝกไมมากพอทาใหผลไมดนก ซงยนยนไดจากภาษาฝรงเศสซง

ไดผลไมดเลยในทกแกรมเพราะขอมลการฝกมนอยไป สวนภาษาญปน เหนไดวา ภาษาญปน

ในแตละแกรมใหผลสงกวาภาษาอนทงหมด โดยเมอใช 2 และ 3-แกรม จะสงกวาภาษาอนมาก

อาจเปนเพราะ ลกษณะของภาษาญปน มการใชสระเดยวๆ ตดกนมาก และมเพยงสระ อะ อ อ

เอะ โอะ เทานน ทาใหเพยงแคใชแบบจาลองเอนแกรมสนๆ กสามารถระบภาษาไดด และสงเกต

วาผลจากแบบจาลอง 2-4 แกรมในภาษาญปนไมตางกนมาก คอ 95.02% 95.10% และ 94.41%

แสดงวาเหนตวอกษรมากอน 1 ตวกเดาไดงายกวา สวนภาษาองกฤษใหผลตากวาภาษาอน

ทงหมด อาจเปนเพราะลกษณะของภาษาองกฤษมการใชภาษาทมการสรางคาทงคาสนและคา

ยาวๆ ไมเหมอนกบคาไทยทมพนฐานของภาษาเปนคาโดดหรอคาสนๆ หรอภาษาญปนทใชแต

คาสนๆ

Page 76: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

66

นอกจากนเรายงสามารถเปรยบเทยบผลของการใชแบบจาลองภาษาตางได ดงน

แผนภมท 5.3 การเปรยบเทยบการใชแบบจาลองของแตละภาษา 90

.77%

84.6

3% 95.0

2%

75.9

0%

93.7

0%

91.4

5%

95.1

0%

53.7

0%

91.4

5%

89.4

4%

94.4

1%

59.7

0%

88.4

4%

84.5

7% 92.1

9%

59.0

0%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

คาไทย องกฤษ ญปน ฝรงเศส

แบบจาลองภาษา

คาคว

ามถก

ตอง

2345

จากแผนภมท 5.3 แสดงการเปรยบเทยบการใชแบบจาลองของแตละภาษา สงเกตเหน

วา ระบบระบภาษาของคาใชแบบจาลองภาษาขนาด 3-แกรม ไดคาความถกตองสงทสดและคา

ความถกตองเรมตาลงใน 4 และ 5-แกรม ตามลาดบ ยกเวนการระบคาทบศพทภาษาฝรงเศส

จะใหคาความถกตองสงทสดเมอระบภาษาดวย 2-แกรม นอกจากน จากการเปรยบเทยบการใช

ขนาดของเอนแกรมตางๆกน ในกรณทใชคลงขอมลเทากน คอ พจารณาเฉพาะคาไทย คา

ทบศพทภาษาองกฤษและญปน กอาจสรปไดวา ขนาดของเอนแกรมมผลตอการตรวจสอบ

ลกษณะเฉพาะของคา (sparse data) โดยเมอขนาดของเอนแกรมมากกวา 3 โอกาสทจะเจอ

ลกษณะเฉพาะของคาททดสอบในคลงขอมลการฝกกยงนอยลงทาใหระบภาษาผดพลาด ดงนน

ยงขนาดของเอนแกรมมากขนผลกยงแยลง สงเกตไดจากแผนภมแสดงการเปรยบเทยบขนาด

ของเอนแกรม เมอขนาดเอนแกรมเทากบ 5 คาความถกตองจะนอยลงอยางเหนไดชดในการ

ระบทกภาษา และในกรณของคาทบศพทภาษาฝรงเศสซงมจานวนขอมลการฝกนอยมาก ผลจาก

เอนแกรมตงแต 3-5แกรมจะตากวา 2-แกรม อยางเหนไดชด

Page 77: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

67

5.4 ปญหาการตดสนคาผดพลาดทเกดขนจากแบบจาลองภาษา

จากผลการทดสอบระบบ พบวามการระบภาษาผดพลาดจากการใชแบบจาลองภาษา

2-5 ตว ซงแสดงไวในตาราง 5.4 ดงน โดยแสดงผลทตดสนผดพลาด เปนจานวนคาและ

เปอรเซนตเทยบกบขอมลทงหมด

ตารางท 5.4 ผลการตดสนภาษาของคาผดพลาดจากการใชแบบจาลองภาษา 2-5 แกรม

ตดสนผดเปน วธ

คาททดสอบ ไทย องกฤษ ญปน ฝรงเศส รวม

ไทย 0 464 (4.64%) 264 (2.64%) 195 (1.95%) 923 (9.23)

องกฤษ 362 (3.62%) 0 239 (2.39%) 936 (9.36%) 1537 (15.37%)

ญปน 171 (1.71%) 239 (2.39%) 0 88 (0.88%) 498 (4.98%)

แบบจาลอง 2แกรม

ฝรงเศส 33 (3.30%) 196(19.60%) 12 (1.20%) 0 241(24.10%)

รวม 566 (8.63%) 899 (26.63%) 515 (6.23%) 1219 (12.19%) 3199 (53.68%)

ไทย 0 353 (3.53%) 220 (2.20%) 57 (0.57%) 630 (6.30%)

องกฤษ 289 (2.89%) 0 218 (2.18%) 348 (3.48%) 855 (8.55%)

ญปน 158 (1.58%) 294 (2.94%) 0 38 (0.38%) 490 (4.90%)

แบบจาลอง 3แกรม

ฝรงเศส 58 (5.80%) 384(38.40%) 21 (2.1%) 0 463 (46.3%)

รวม 505 (10.27%) 1031 (44.77%) 459 (6.48%) 443 (4.43%) 2438 (66.05%)

ไทย 0 391 (3.91%) 308 (3.08%) 156 (1.56%) 855 (8.55%)

องกฤษ 262 (2.62%) 0 340 (3.40%) 454 (4.54%) 1056 (10.56%)

ญปน 144 (1.44%) 338 (3.38%) 0 77 (0.77%) 559 (5.59%)

แบบจาลอง 4แกรม

ฝรงเศส 46 (4.60%) 315 (31.5%) 42 (4.20%) 0 403(40.30%)

รวม 452 (8.66%) 1044 (38.79%) 690 (10.68%) 687 (6.87%) 2873 (65%)

ไทย 0 473 (4.73%) 409 (4.09%) 274(2.74%) 1156 (11.56%)

องกฤษ 348 (3.48%) 0 517 (5.17%) 678 (6.78%) 1543 (15.43%)

ญปน 218 (2.18%) 432 (4.32%) 0 131 (1.31%) 781 (7.81%)

แบบจาลอง 5แกรม

ฝรงเศส 49 (4.90%) 299(29.90%) 62 (6.20%) 0 410 (41%)

รวม 615 (10.56%) 1204 (38.95%) 988 (15.46%) 1083 (10.83%) 3890 (75.80%)

Page 78: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

68

จากตารางท 5.4 เมอดผลรวมการระบภาษาผดพลาดจากแบบจาลองภาษาในแตละ

แกรม (แนวตง) ยกเวนในคาทบศพทภาษาฝรงเศสเพราะใชขอมลการฝกไมเทากน พบวาในการ

ระบคาทบศพทภาษาองกฤษดวยแบบจาลองภาษา 2-5 แกรม ใหขอผดพลาดมากทสด คอ

15.37% 8.55% 10.56% และ 15.43% ตามลาดบ และภาษาทถกตดสนผดพลาดนอยทสด คอ

คาทบศพทภาษาญปน 4.98% 4.90% 5.59% และ 7.81% ตามลาดบ และเมอดผลรวมของ

ภาษาทระบผดพลาดในแตละแกรม (แนวนอน) พบวาแบบจาลองภาษาในแตละแกรมสวนใหญ

มกระบผดวาเปนคาทบศพทภาษาองกฤษมากทสด คอ 26.63% 44.77% 38.79% และ 38.95%

ตามลาดบ

นอกจากนเมอเปรยบเทยบกนระหวางแตละแกรม ยกเวนคาทบศพทภาษาฝรงเศส

พบวา เมอระบภาษาทกภาษาดวยแบบจาลอง 5-แกรม ใหผลผดพลาดมากทสด คอ คาไทย

(11.56%) คาทบศพทภาษาองกฤษ (15.43%) และคาทบศพทภาษาญปน (7.81%) จงสรปไดวา

ยงใชขนาดเอนแกรมยงมากผลผดพลาดกยงมากขนดวย สวนการระบคาทบศพทภาษาฝรงเศส

ดวย 3-แกรมใหผลผดพลาดมากทสด คอ 46.3% และเมอเปรยบเทยบขอผดพลาดกบทระบใน

ภาษาอนๆ พบวาในคาทบศพทภาษาฝรงเศสใหขอผดพลาดมากทสด อาจเปนเพราะคลงขอมล

การฝกจานวนนอยกวาภาษาอน

และตารางท 5.4 ในแตละภาษายงแสดงใหเหนขอผดพลาดในการตดสนภาษาผดเปน

ภาษาอน ซงจากตารางจะเหนวาในสามภาษาหลก ไทย องกฤษ และญปน (ไมพจารณาฝรงเศส

เพราะเปนความตางทมาจากขนาดขอมลเปนสาคญ) คาไทยและภาษาองกฤษจะตดสนผดเปน

ภาษาญปนนอยทสดใน 2-3 แกรม และหากเทยบกบภาษาอนแลว ภาษาญปนถกตดสนภาษา

ผดนอยทสด แสดงวามความสบสนระหวางภาษาไทยและภาษาองกฤษมากกวา จงสรปไดวา

สายอกขระ 2-3 ตวของภาษาญปนมลกษณะทตางจากภาษาไทยและภาษาองกฤษ แตพอเปน

4-5 แกรม เรมไมชดเจนแลว อาจเปนเพราะยงแกรมสงขอมลการฝกไมเพยงพอ จงไมไดภาพ

ความสบสนระหวางภาษาแบบทพบในแบบจาลอง 2-5แกรม และจากสาเหตขอมลการฝกไม

เพยงพอ จงเปนเหตผลวาทาไมคาภาษาองกฤษถกตดสนผดพลาดวาเปนคาไทยใน 2-3 แกรม

แตใน 4-5 แกรม คาองกฤษถกตดสนผดวาเปนคาญปน

ในสวนของความสบสนระหวางภาษาไทยและภาษาองกฤษ คาไทยมกตดสนภาษาผด

วาเปนภาษาองกฤษใน 2-5 แกรม เชน คาวา ภเกต คอแรง จามจร นาพ และคาภาษาองกฤษ

มกตดสนผดวาเปนคาไทยใน 2-3 แกรม เชน คาวา วตามน ละตน แกรนต เพราะลกษณะของ

ภาษาอาจมความคลายคลงกน เนองจากการเขยนทบศพทภาษาองกฤษในปจจบน อาจมการ

เขยนคาองกฤษใหตรงกบสาเนยงไทยหรอออกเสยงใหตรงกบระบบเสยงของภาษาไทย เชน ม

Page 79: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

69

การใชตวอกษร สระ วรรณยกตทเหมอนกบคาไทย ทาใหคาไทยกบองกฤษจงมการเขยนท

คลายกน ซงจะตางกบภาษาญปนทตางกนชดเจน คอมแตการใชคาสนๆเทานน

อยางไรกตาม ภาษาญปนถกตดสนผดพลาดนอยสด แตทตดสนผดพลาดสวนใหญ

มกจะตดสนผดวาเปนคาภาษาองกฤษใน 2-5 แกรม เชนคาวา โคโมง ราเมง เซนเบอ คานอช

อาจเปนเพราะขนาดของคลงขอมลการฝกไมเพยงพอตอการแสดงลกษณะของภาษาญปนให

ชดเจน

5.5 สรปการใชแบบจาลองภาษาเอนแกรม

เหตผลทระบบทใชแบบจาลองเอนแกรมตดสนผดพลาดเปนเพราะคลงขอมลอาจไม

เพยงพอตอการแสดงลกษณะของภาษา หรอแตละภาษามความคลายคลงกนมากจนอาจตองใช

คลงขอมลมากกวาน อยางไรกตาม จากการทดสอบระบบระบภาษาของคาดวยแบบจาลอง

ภาษาเอนแกรม ไดผลการทดสอบมากกวา 90% จงสรปไดวา เมอเทยบกบระบบสายอกขระ

เฉพาะ วธการใชแบบจาลองภาษาเอนแกรมมประสทธภาพและความทนทานของระบบดกวา

เพราะระบบสายอกขระเฉพาะไดผลความถกตองนอยกวา คอ คาไทย 50.58% คาทบศพท

ภาษาองกฤษ 48.71% คาทบศพทภาษาญปน 54.09% และคาทบศพทภาษาฝรงเศส 20.40%

ในขณะทระบบทใชแบบจาลอง 3-แกรม ไดผลความถกตองมากกวา คอ คาไทย 93.70%

คาทบศพทภาษาองกฤษ 91.45% คาทบศพทภาษาญปน 95.10% และคาทบศพทภาษาฝรงเศส

53.70% แตระบบเอนแกรมน มขอเสยคอ ใชเวลาในการประมาณผลชากวา ผวจยจงนาทง 2

ระบบผสมผสานกนเปนระบบระบภาษาของคาดวยการใชสายอกขระเฉพาะและแบบจาลอง

ภาษาซงจะกลาวตอไปในบทท 6

Page 80: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

บทท 6

โปรแกรมระบภาษาของคา

ในบทนผวจยจะกลาวถงระบบทผวจยพฒนา คอ โปรแกรมระบภาษาของคาดวยการ

ใชสายอกขระเฉพาะ 1-5 ตวรวมกบการใชแบบจาลองภาษาเอนแกรม 2-5 แกรม รวมทง

รายงานและวเคราะหผลการทดสอบระบบทพฒนารวมกน โดยจะอธบายภาพโดยรวมของระบบ

กอน เพอใหเขาใจถงแนวคดและวธการสรางโปรแกรมระบภาษาของคาดวย 2 ระบบน

6.1 ภาพโดยรวมของระบบ

โปรแกรมระบภาษาของคา คอ โปรแกรมทใชระบทมาภาษาของคาซงพฒนาโปรแกรม

ดวยภาษาเพรล(Perl) ทงหมด แนวคดของการพฒนาโปรแกรมระบภาษาของคาน คอ รบขอมล

คาทตองการตรวจสอบเขามาแลวตรวจหาสายอกขระเฉพาะ โดยนาคาทตองการตรวจสอบเขามา

แยกเปนสายอกขระกอน แลวจงนาไปเทยบกบสายอกขระเฉพาะของแตละภาษา ถาเทยบแลว

ตรงกบสายอกขระเฉพาะของภาษาใด กจะระบวาเปนคาภาษานน แตถาเทยบแลวไมตรงกน คอ

ระบคาไมไดวาเปนภาษาอะไร จงนาคาทตองการตรวจสอบนนหาความนาจะเปนภาษาหนงๆ

โดยเทยบกบแบบจาลองภาษาในแตละภาษา เหตผลทเลอกพฒนาระบบในลกษณะนเพราะ การ

ระบภาษาดวยสายอกขระเฉพาะจะทางานไดเรวกวาการใชแบบจาลองเอนแกรมมาก และ

สามารถระบภาษาไดถกตองแลวประมาณ 50% โดยมขอผดพลาดประมาณ 5% (ดผลการ

ทดลองบทท 4) จงไดกาหนดใหเปนสวนแรกของโปรแกรมทพฒนา ในกรณทไมสามารถตดสน

จากสายอกขระเฉพาะไดวาเปนภาษาใด จงจะใชแบบจาลองภาษาเปนตวตดสนวาคาทรบเขามา

นนใกลเคยงกบภาษาใดมากทสด ซงในการทดลองนกจะทดลองกบแบบจาลองภาษาตงแต 2-5

แกรมเพอยนยนอกครงวาควรใชแบบจาลองภาษาทเอนแกรมใด และสาหรบแนวคดและภาพรวม

ของวธการหาสายอกขระเฉพาะ และการสรางแบบจาลองภาษาของแตละภาษา ผวจยได

นาเสนอและอธบายไวแลวในบทท 4 และ 5 ดงนนผวจยจงตองการแสดงขนตอนของระบบ

ตอไป

Page 81: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

71

6.2 โปรแกรมระบภาษาของคา

โปรแกรมระบภาษาของคา แบงออกเปน 3 ขนตอน ไดแก 1. ขนตอนรบคาเขา 2. ขนตอน

เทยบกบสายอกขระเฉพาะและ 3. ขนตอนระบภาษาดวยแบบจาลองภาษา เหนไดจากภาพท

6.1

ภาพท 6.1 ขนตอนการทางานของโปรแกรมระบภาษาของคา

1. ขนตอนรบคาเขา เปนขนตอนทรบคาเขามาแลวแยกคาๆ นน ออกเปนสายอกขระ

ดวยเอนแกรมทง 1-5 แกรม เชน คาทรบเขามา คอ คาวา “อกขระ” เพอผานระบบเอนแกรม

จะแยกเปนแตละเอนแกรม

Page 82: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

72

2. ขนตอนเทยบกบสายอกขระเฉพาะ หลงจากทแยกสายอกขระเปนเอนแกรมตางๆ

แลว ขนตอนตอไปเปนการนาสายอกขระทแยกดวยเอนแกรมแลว มาเทยบกบสายอกขระเฉพาะ

ทง 4 ภาษา โดยแยกเทยบกนทง 1-5-แกรม ตามแตละเอนแกรมวาตรงกนหรอไม หากสาย

อกขระทนามาทดสอบตรงกบสายอกขระเฉพาะของภาษาใดภาษาหนงเทานน กถอวาคานนเปน

ภาษาตามสายอกขระเฉพาะนนทนท โดยไมจาเปนตองผานขนตอนเปรยบเทยบกบแบบจาลอง

ภาษา แตหากไมมสายอกขระทตรงกบสายอกขระเฉพาะของภาษาใดๆ เลย กใหนาคานนเทยบ

กบแบบจาลองภาษาทง 4 ภาษาในขนตอนตอไป แตหากพบวาคานนมสายอกขระตรงกบสาย

อกขระเฉพาะของภาษาตางๆ มากกวา 1 ภาษา ทาใหยงตดสนไมไดวาเปนคาจากภาษาใด

กจะเปรยบเทยบกบแบบจาลองภาษาเหลานน ตวอยางเชน ในคาวา “อกขระ” เมอทดลองดวย

4-แกรม อาจจะพบ สายอกขระ “กขระ” ตรงกบสายอกขระเฉพาะภาษาญปน และพบสายอกขระ

“อกข“ ตรงกบสายอกขระเฉพาะคาไทย ทาใหตดสนไมไดวาเปนคาไทยหรอมาจากภาษาญปน

ดงนนระบบจะเปรยบเทยบคานนกบแบบจาลองภาษาญปนและแบบจาลองคาไทยเทานน เพอ

ตดสนวานาจะเปนคาในแบบจาลองใดมากกวากน

ในขนตอนการเปรยบเทยบกบสายอกขระเฉพาะน ระบบทผวจยพฒนาจะทางานเพยง

ครงเดยว เชนเดยวกบระบบระบภาษาดวยสายอกขระเฉพาะ 1-5 ตว ในบทท 4 และหากวา

ระบบนาสายอกขระททดสอบเปรยบเทยบกบสายอกขระเฉพาะจนถง 5-แกรมแลวยงไมพบวา

ตรงกน ระบบกจะทดลองตอไปในขนตอนระบภาษาดวยแบบจาลองภาษา

3. ขนตอนระบภาษาดวยแบบจาลองภาษา เปนขนตอนสดทายสาหรบระบภาษา โดย

จะใชในกรณทสายอกขระทแยกดวยเอนแกรมไมตรงกบสายอกขระเฉพาะใดๆเลย หรอสายอกขระ

ททดลองตรงกบสายอกขระเฉพาะมากกวา 1 ภาษา ในขนตอนนจะทดลองใชวธเอนแกรม 2-5

แกรม เชนเดยวกบระบบระบภาษาดวยแบบจาลองภาษาในบทท 5

หลงจากนนทไดคาความนาจะเปนของแบบจาลองภาษาของภาษาตางๆ แลวระบบกจะ

เลอกผลจากภาษาทมคาความนาจะเปนสงทสดเปนคาตอบทถกตอง หลงจากการทดลองระบ

ภาษาดวยโปรแกรมแลว ผวจยเปนผนาคานนตรวจสอบความถกตองเองวาระบบระบภาษา

ของคาไดถกตองหรอไม เพอเปนตรวจสอบประสทธภาพของระบบ

Page 83: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

73

6.3 สรปผลการทดลอง

จากการทดลองโปรแกรมระบภาษาของคาทบศพทและคาไทย แสดงใหเหนผลของ

ระบบระบภาษาดวยการสงเกตจากสายอกขระเฉพาะ (1-5 สาย) และแบบจาลองภาษาทกภาษา

ดวยเอนแกรม (2-5 แกรม) โดยหลงจากทผานการระบภาษาของคาดวยสายอกขระเฉพาะแลว

ซงเปนขนตอนท 2 ของระบบ พบวาสายอกขระเฉพาะสามารถแกไขปญหาระบคาไดประมาณ

50% ยงมคาเหลออกประมาณ 50% ทระบบการใชสายอกขระเฉพาะไมสามารถตดสนภาษาได

จงสงมายงขนตอนตอไป คอการระบภาษาของคาดวยแบบจาลองภาษา ในขนตอนนระบบจะ

ทางานแยกกนในแตละเอนแกรม คอ คาทยงไมไดตดสนอก 50% กจะผานมายง แบบจาลอง

ภาษา 2-แกรมทงหมด พอระบบทางานเสรจ กนาคาทยงไมไดตดสนอนเดยวกนน 50% ผาน

มายงแบบจาลองภาษา 3-แกรมอก โดยทาลกษณะแบบนจนถง 5-แกรม ดงนน ผลการทดลองท

แสดงในตารางคอ คาความถกตองทแยกกนในแตละขนาดของเอนแกรม หากตองการจะดผล

ของทง 2 ระบบรวมกน จะตองนาผลทไดจากสายอกขระเฉพาะในชอง “รวม” ซงเปนผลทดสอบ

ทรวมการใชสายอกขระเฉพาะทงหมด 1-5 ตว มารวมกบผลจากแบบจาลองภาษาทละแกรม

เพราะในการทางานของระบบการใชสายอกขระเฉพาะจะเปนการทางานเพยงครงเดยว ดงนน

หากคดผลการทดลองของทงระบบ จะตองนาผลจากการใชสายอกขระทง 1-5 ตว มารวมกน

กอน

ตวอยางการดผลของระบบโดยรวม เชน หากเราตองการวเคราะหผลการระบภาษาของ

คาไทย เรากนา ผลการทดสอบจากสายอกขระเฉพาะรวมตงแต 1-5 ตว 50.58% + ผลทดสอบ

จากแบบจาลองภาษา 2-แกรม 39.83% คาตอบทได คอ 90.41% (ในชอง ”รวมถก”) ซงเปนผล

โดยรวมของระบบระบหลงจากผานสายอกขระเฉพาะและแบบจาลองภาษา 2-แกรม หรอหาก

ตองการรผลโดยรวมเมอใชแบบจาลองภาษา 3-แกรม เรากนาผลจากสายอกขระเฉพาะรวมตงแต

1-5 ตว 50.58% + ผลทดสอบจากแบบจาลอง 3-แกรม 41.33% ผลทไดคอ 91.91% ซงผล

โดยรวมทงหมดแตละเอนแกรม ผวจยไดรวมไวในชอง “รวมถก” และแยกแตละภาษาและ

เอนแกรมไว เหนไดจากตาราง 6.1

Page 84: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

74

ตารางท 6.1 ผลการตดสนภาษาของคาไดถกตองดวยโปรแกรมระบคา (สายอกขระเฉพาะ 1-5

ตว และแบบจาลอง 2-5 แกรม) โดยผลการทดลอง คอ จานวนคาทระบภาษาไดถกตอง

(เปอรเซนต) ภาษา ผลการระบภาษาของคาไดถกตอง

จานวนคาททดสอบ 10,000 คา 1,000 คา

วธ คาไทย ภาษาองกฤษ ภาษาญปน ภาษาฝรงเศส

ถก ผด ถก ผด ถก ผด ถก ผด

1 1414 (14.14%) 0 0 2 0 0 0 0

2 756 (7.56%) 2 122 (1.22%) 14 160 (1.6%) 7 0 3

3 2104 (21.04%) 274 2018 (20.18%) 264 3392 (33.92%) 186 57( 5.7%) 122

4 651 (6.51%) 164 1769 (17.69%) 277 1683 (16.83%) 168 101 (10.1%) 99

ผลจากส

ายอก

ขระ

เฉพา

5 133 (1.33%) 23 962 (9.62%) 81 174 (1.74%) 38 46 (4.60%) 34

รวม 5058 (50.58%) 463 4871 (48.71%) 638 5409 (54.09%) 399 204 (20.40%) 258

ถก รวม

ถก

ผด ถก รวม

ถก

ผด ถก รวม

ถก

ผด ถก รวม

ถก

ผด

2 3983 9041

(90.41

%)

496 3728 8599

(85.99

%)

763 3903 9312

(93.12

%)

289 410 614

(61.40

%)

128

3 4133 9191

(91.91

%)

346 4036 8907

(89.07

%)

455 3898 9307

(93.07

%)

294 286 490

(49%)

252

4 4012 9070

(90.7

%)

467 3876 8747

(87.47

%)

615 3833 9242

(92.42

%)

359 319 523

(52.30

%)

219

ผลจากแ

บบจาลอ

งภาษ

5 3849 8907

(89.07

%)

630 3569 8440

(84.4

%)

922 3720 9129

(91.29

%)

472 333 537

(53.70

%)

205

จากผลการทดลองเมอเปรยบเทยบกนในแตละภาษา เหนวา ระบบระบภาษาของคา

ภาษาญปนใหผลดทสดในทกๆแกรม คอ 93.12% 93.07% 92.42% และ 91.29% และระบบ

ระบภาษาของคาภาษาองกฤษใหผลแยทสด ในทกๆ แกรม คอ 85.09% 89.07% 87.47% และ

84.4% และเมอพจารณาในแตละภาษา จะพบวาในภาษาไทย องกฤษและญปน ระบบทเลอกใช

แบบจาลองภาษา 3-แกรมจะใหผลดทสด

Page 85: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

75

นอกจากนจากผลการทดลองซงเปนระบบทประยกตนาวธสายอกขระเฉพาะและ

แบบจาลองภาษาเขาดวยกน เมอนาไปเปรยบเทยบกบระบบการใชสายอกขระเฉพาะ (บทท4)

และระบบการใชแบบจาลองภาษา (บทท5) ไวในตารางท 6.2

ตารางท 6.2 ผลการเปรยบเทยบคาความถกตองของระบบสายอกขระเฉพาะ ระบบแบบจาลอง

ภาษา และระบบทประยกตทง 2 ระบบ โดยระบบสายอกขระเฉพาะ คอ UN1-5 ระบบ

แบบจาลองภาษา คอ LM 2-5 และ ระบบทประยกตทง 2 ระบบ คอ UN-LM จานวน 10000 คา จานวน 1000 คา

ภาษา คาไทย ภาษาองกฤษ ภาษาญปน ภาษาฝรงเศส

ระบบ UN1-5 LM 2-5 UN+LM UN1-5 LM 2-5 UN+LM UN1-5 LM 2-5 UN+LM UN1-5 LM 2-5 UN+LM

90.77% 90.41% 84.63% 85.99% 95.02% 93.12% 75.5% 61.40% 93.70% 91.91% 91.45% 89.07% 95.10% 93.07% 53.7% 49% 91.45% 90.70% 89.44% 87.47% 94.41% 92.42% 59.7% 52.30%

ผลการท

ดลอง

50.58%

88.44% 89.07%

48.71%

84.57% 84.40%

54.09%

92.19% 91.29%

20.40%

59% 53.70%

จากการเปรยบเทยบพบวา ระบบทประยกตทง 2 ระบบรวมกน (UN+LM) ดกวาระบบ

การใชสายอกขระเฉพาะ (UN) อยางเหนไดชด เพราะ ผลจากระบบสายอกขระเฉพาะประมาณ

50% แต ผลจากระบบทประยกตทง 2 ระบบ (UN+LM) ใหผลมากกวา 90%

สวนกรณเมอนาระบบทประยกตทง 2 ระบบรวมกน ไปเปรยบเทยบกบระบบทใช

แบบจาลองภาษาเอนแกรม (LM) พบวาระบบทใชแบบจาลองเอนแกรมไดผลดกวาในทกๆ

แกรม ยกเวนแคในการระบคาทบศพทภาษาองกฤษดวย 2-แกรม ผลจากระบบประยกตดกวา

เลกนอย

ดงนน ผวจยจงเสนอ 2 แนวทางในการเลอกใชระบบคอ อาจกลบไปใชเฉพาะวธ

เอนแกรมจะดกวาระบบทประยกตทง 2 ระบบ และปรบปรงระบบเอนแกรมใหดขน เพอใหผล

การทดลองใกลเคยง 100% มากทสด อาจทาไดโดยการเพมคลงขอมลการฝกใหมากขนหรอใช

ขอมลการฝกทมการกระจายขอมลมากขน แตอาจมขอเสยคอ การประมาณผลของระบบชามาก

ขน

สวนทางเลอกทสอง คอ อาจใชระบบประยกตทง 2 ระบบเหมอนเดม เพยงแคปรบปรง

ระบบใหดขน ในการปรบปรงสวนของระบบสายอกขระเฉพาะ คอ สรางสายอกขระเฉพาะให

ครอบคลมทงภาษา โดยการเพมคลงขอมลการฝกใหมากขน เพอใหผลผดพลาดทเกดขนนอย

ทสด สวนการปรบปรงระบบแบบจาลองภาษา คอ อาจเพมขนาดของขอมลการฝก ซงจะกลาว

ไวในสวนของขอเสนอแนะ

Page 86: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

บทท 7

สรปผลการวจย อภปรายผลและขอเสนอแนะ

วทยานพนธนไดนาเสนองานเกยวกบการระบภาษาของคาไทย คาทบศพทภาษาองกฤษ

คาทบศพทภาษาญปนและคาทบศพทภาษาฝรงเศส โดยสรปผลการวจยทงหมดไวดงน

7.1 สรปผลการวจย

เนองจากในปจจบนมการใชคาทบศพทภาษาตางประเทศปะปนกบคาไทยจานวนมาก

หากเราตองการพฒนาโปรแกรมทางดานการคนคนสารสนเทศขามภาษา (Cross - Language

Information Retrieval) เชน โปรแกรมถอดอกษรคาทบศพทกลบจากภาษาไทยเปนภาษาตนฉบบ

(backward transliteration) โดยกอนทจะถอดอกษรกลบเปนภาษาตนฉบบ เราจาเปนตองรวา

คาเดมนนเปนคาในภาษาอะไร จงตองมการระบภาษาของคาในขอความ กอนทจะนาไปใชกฎ

การถอดอกษร (transliteration) ในแตละภาษา นอกจากน ยงพบวาเคยมผวจยทางานในลกษณะ

แบบน เชน การใชแบบจาลองภาษาเอนแกรม และการใชสายอกขระเฉพาะ โดยผวจยเหนวา

แบบจาลองภาษาเอนแกรมใหผลถกตองสงและเรยบงายมากทสด และวธการใชสายอกขระ

เฉพาะสามารถประยกตใชกบงานแบบนได

ดงนน วตถประสงคทตองการจะทา คอ ตองการหาสายอกขระเฉพาะสาหรบใชในการ

ระบภาษาของคาโดยใชคลงขอมลคาไทย คาทบศพทภาษาองกฤษ ญปนและภาษาฝรงเศส

และพฒนาระบบการระบภาษาของคาไทยและคาทบศพทภาษาตางประเทศโดยใชแบบจาลอง

เอนแกรมขนาด 1-5 แกรม เพอทดสอบประสทธภาพของเอนแกรมทตางกน

ในการดาเนนการวจย ผวจยเรมจากเกบคลงขอมลภาษาตางๆกอน ในคาไทย คาทบศพท

ภาษาองกฤษ และภาษาญปน เกบภาษาละ 10,000 คา สวนคาทบศพทภาษาฝรงเศสเกบเพยง

1,000 คา โดยผวจยไดแบงสวนของคลงขอมลสาหรบทาขอมลการฝกภาษาละ 80% ไวสาหรบ

ใชในการสรางสายอกขระเฉพาะ 1-5 สายในแตละภาษา และสาหรบสรางแบบจาลองภาษาแตละ

ภาษา สวนอก 20% แบงเปนคลงขอมลทดสอบ เหตทแบงสวนขอมลเพราะตองการใหไดผลทไม

บงเอญขนกบขอมลทใชในการฝกและทดสอบ

ในขนตอนของการทดลองระบบระบภาษาของคา คอ รบขอมล (คา) เขามาแลวตรวจหา

สายอกขระเฉพาะในแตละภาษาถาตรงกนกบสายอกขระเฉพาะใดกตดสนวาเปนภาษานน แต

Page 87: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

77

ถายงตดสนภาษาไมได จงหาความนาจะเปนของภาษาหนงๆ โดยเทยบกบแบบจาลองภาษา

ตางๆ และตดสนผลจากแบบจาลองภาษาทใหคาความนาจะเปนทสงทสด

หลงจากการทดลองผวจยเปนผนาคาทถกตดสนภาษานนมาตรวจสอบความถกตองเอง

วาระบบระบภาษาของคาไดถกตองหรอไม เพอเปนการตรวจสอบความทนทานของระบบ

7.2 อภปรายผลการวจย

ผลการทดลองของ แบงออกเปน 3 ระบบ คอ การระบภาษาของคาดวยสายอกขระ

เฉพาะ 1-5 ตว การระบภาษาของคาดวยแบบจาลองภาษา 2-5 แกรม และการระบภาษาของ

คาดวยสายอกขระเฉพาะรวมกบแบบจาลองภาษา ดงน

7.2.1 การทดลองระบภาษาของคาดวยสายอกขระเฉพาะ 1-5 ตว

สรปไดวาทกภาษาสามารถพบสายอกขระเฉพาะได ซงสายอกขระเฉพาะ 1-ตว พบ

เฉพาะในคาไทยเทานน และในการทดลอง สามารถนาสายอกขระเฉพาะเหลานใชในการระบ

ภาษาได เหนไดจาก ในการระบภาษาของคาไทย คาทบศพทภาษาองกฤษ และญปน ดวยสาย

อกขระเฉพาะ 3-ตว ใหผลการระบภาษาทถกตองสงทสด คอ คาไทย 21.04% คาทบศพท

ภาษาองกฤษ 20.18% และคาทบศพทภาษาญปน 33.92% แตในการระบภาษาของคาทบศพท

ภาษาฝรงเศส ดวยสายอกขระเฉพาะ 4-ตว ใหผลดทสด คอ 10.10% สวนการระบภาษาดวย

สายอกขระเฉพาะ 1-ตว สามารถใชระบภาษาไดถกตองไดเฉพาะในคาไทยเทานน

และเมอดผลรวมของการระบภาษาของคาทถกตองจากการใชสายอกขระเฉพาะทง 1-5

ตว แสดงใหเหนวา วธการใชสายอกขระเฉพาะมผลตอการระบภาษาของคาประมาณ 50% โดย

สายอกขระเฉพาะมผลตอการระบคาทบศพทภาษาญปนมากทสด คอ 54.09% รองลงมาคอ

คาไทย 50.58% คาทบศพทภาษาองกฤษ 48.71% คาทบศพทภาษาฝรงเศส 20.40% อาจเปน

เพราะภาษาญปนเปนภาษาทพบสายอกขระเฉพาะมากทสด หรอ เปนภาษาใชสายอกขระซาๆ

กนมาก ไมมการผสมสระมากเทาภาษาอนๆ

นอกจากน ยงสงเกตไดวา ขนาดของคลงขอมลมผลตอการใชสายอกขระเฉพาะดวย

เหนไดจากการระบภาษาในคาทบศพทภาษาฝรงเศส เมอใชสายอกขระเฉพาะ 1-5 ตว ใหผล

ถกตองแค 20.40% และผลผดพลาดถง 25.60% ซงมากกวาภาษาอนมาก อาจเปนเพราะ หาก

Page 88: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

78

ใชจานวนคลงขอมลการฝกนอย สายอกขระเฉพาะทไดกจะนอย ทาใหสายอกขระเฉพาะทไดไม

ครอบคลมทงภาษา

7.2.2 การทดลองระบภาษาของคาดวยแบบจาลองภาษา

เมอระบภาษาของคาแตละภาษาดวยแบบจาลองภาษา 3-แกรม ใหคาความถกตองด

ทสด ยกเวนเมอระบภาษาของคาทบศพทภาษาฝรงเศส สวนการระบภาษาดวย 5-แกรมใหผล

แยทสด แตในทางกลบกนเมอระบคาทบศพทภาษาฝรงเศสใหผลดทสด เหตผลทคาความ

ถกตองแตกตางกน อาจเปนเพราะลกษณะของขนาดขอมลการฝก เหนไดจากการทดลองระบ

คาทบศพทภาษาฝรงเศสใหผลการทดลองนอยทสดเมอเทยบกบภาษาอน คอ สงสดแค 75.90%

ใน 2-แกรม จงสรปไดวาขนาดของคลงขอมลมผลตอระบบเอนแกรม

และจากการเปรยบเทยบผลการทดลองจากการใชแบบจาลองของแตละภาษา สงเกต

เหนวา ระบบระบภาษาของคาใชแบบจาลองภาษาขนาด 3-แกรม ไดคาความถกตองสงทสดและ

คาความถกตองเรมตาลงใน 4 และ 5-แกรม ตามลาดบ ยกเวนการระบคาทบศพทภาษาฝรงเศส

จะใหคาความถกตองสงทสดเมอระบภาษาดวย 2-แกรม

จากการเปรยบเทยบการใชขนาดของเอนแกรมตางๆกน ในกรณทใชคลงขอมลเทากน

คอ พจารณาเฉพาะคาไทย คาทบศพทภาษาองกฤษและญปน จงสรปไดวา ขนาดของเอนแกรม

มผลตอการตรวจสอบลกษณะเฉพาะของคา โดยเมอขนาดของเอนแกรมมากกวา 3 โอกาสทจะ

เจอลกษณะเฉพาะของคาททดสอบในคลงขอมลการฝกกยงนอยลงทาใหระบภาษาผดพลาด

ดงนน ยงขนาดของเอนแกรมมากขนผลกยงแย เหนไดจากผลการทดลอง เมอใชขนาด

เอนแกรมเทากบ 5 คาความถกตองจะนอยลงอยางเหนไดชด และในกรณของคาทบศพทภาษา

ฝรงเศสซงมจานวนขอมลการฝกนอยมาก ผลจากเอนแกรมตงแต 3-5 แกรมจะตากวา 2-แกรม

อยางเหนไดชด

นอกจากน เมอนาระบบเอนแกรมไปเทยบกบระบบสายอกขระเฉพาะ พบวาวธการใช

แบบจาลองภาษาเอนแกรมมประสทธภาพและความทนทานของระบบดกวา เพราะระบบ

เอนแกรมใหผลความถกตองประมาณ 90% แตระบบสายอกขระเฉพาะไดผลความถกตอง

ประมาณ 50% คอ คาไทย 50.58% คาทบศพทภาษาองกฤษ 48.71% คาทบศพทภาษาญปน

54.09% และคาทบศพทภาษาฝรงเศส 20.40% แตระบบเอนแกรมน มขอเสยคอ ใชเวลาในการ

ประมาณผลชากวา

Page 89: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

79

7.2.3 การทดลองระบบระบภาษาของคาดวยสายอกขระเฉพาะรวมกบแบบจาลอง

ภาษา

จากการทดลองทาใหสรปไดวา ระบบทพฒนาเปนไปตามเปาหมาย คอใหผลคาความ

ถกตองมากกวา 90% โดยเฉพาะใน การระบภาษาของคาไทยดวย 3-แกรม ไดถกตอง 91.91%

และในการระบคาทบศพทภาษาญปนดวย 3-แกรม ไดถกตอง 93.07% แตเมอเทยบระบบนกบ

ระบบทใชสายอกขระเฉพาะ พบวา ผลจากระบบนดกวาระบบสายอกขระเฉพาะมาก เพราะ

ใหผลการทดลองประมาณ 90% แตระบบสายอกขระเฉพาะใหผลแคประมาณ 50% และเมอนา

ระบบนไปเทยบกบระบบเอนแกรม พบวา ผลจากระบบนใหผลแยกวาระบบเอนแกรมในทกๆ

แกรม ยกเวน เมอระบคาทบศพทภาษาองกฤษใน 2-แกรม ใหผลดกวา

7.3 ขอเสนอแนะ

หลงจากการวเคราะหขอผดพลาดของระบบแลว ขอผดพลาดเกดจากทงการใชสาย

อกขระเฉพาะและแบบจาลองภาษา แมวาขอผดพลาดจะเกดขนนอยเมอเทยบกบคาทระบได

ถกตองทงหมดในระบบ แตผวจยตองการใหระบบมประสทธภาพมากทสด ผวจยจงเสนอแนวทาง

ในการพฒนาและแกไขปญหาในทละระบบ ดงน

7.3.1 ระบบสายอกขระเฉพาะ

จากผลการทดลอง เปนทนาสงเกตวาระบบสายอกขระเฉพาะใหผลถกตองแคประมาณ

50% และระบบสายอกขระเฉพาะใหผลผดพลาดบาง แมจะเปนสวนนอย ผวจยจงเสนอแนวทาง

แกไข โดยการเพมขนาดของคลงขอมลการฝกใหมากขน เพอใชสรางสายอกขระเฉพาะให

ครอบคลมทวทงภาษา อยางไรกตาม ในการเพมขนาดคลงขอมลเพอหาสายอกขระเฉพาะ

ผวจยกยงไมไดศกษาวา ขนาดของคลงขอมลควรอยในระดบเทาใด ถงจะเหมาะสมทสดสาหรบ

ใชในการหาสายอกขระเฉพาะ จงเปนแนวทางทนาไปพฒนาระบบตอได

และเนองจากรปแบบของภาษา (pattern) ทกลาวไวในระบบ ผวจยเปนผวเคราะห

หารปแบบเอง ซงอาจจะไมครอบคลมทวทงภาษา จงเสนอแนวทางทจะเพมรปแบบภาษาให

มากขน หรอหารปแบบภาษาทพบบอยๆ ในสายอกขระได โดยเลอกแทนทตวอกษรบางตวดวย

Page 90: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

80

วธ dummy แลวตรวจดวาตรงกบขอมลสายอกขระเฉพาะมากนอยแคไหน เชน ทาใหเราพบวา

ในภาษาองกฤษมรปแบบภาษาทพบบอย คอ แ_ส ดงทเหนในตวอยาง

7.3.2 ระบบเอนแกรม

จากผลการทดลอง เปนทนาสงเกตวาหากตองการใหระบบสามารถระบภาษาของคาไทย

และคาทบศพทภาษาตางประเทศใหไดผลถกตองมากขน กเปนสงทเปนไปไดเพยงแคเพมเตม

ในสวนของขอมลการฝกใหมากขนเพราะจากผลการทดลอง การใชขอมลการฝกมากระบบก

สามารถระบภาษาไดถกตองมากกวาขอมลการฝกจานวนนอย เหนไดจากเมอเทยบกบกรณการ

ระบภาษาของคาทบศพทภาษาฝรงเศส แตการเพมขนาดของขอมลการฝกเมอเพมถงจดหนง

แลว อาจจะไมทาใหผลลพธดขน ดงนนผวจยจงเสนอใหทดลองเพมเตม โดยทดลองใช

คลงขอมลหลายๆ ขนาด และเพมขนาดคลงขอมลการฝกมากขน เพอหาขนาดของคลงขอมลท

เหมาะสมทสด

และถงแมเปนทแนชดแลววาขนาดของเอนแกรม 3-แกรม ใหผลการทดลองดทสด

แตผวจยหวงวาจะสามารถพฒนาระบบไดอก โดยใชขนาดของเอนแกรมมากขนเพอดวาการ

เปลยนแปลงผลการทดลอง หากใชขนาดของเอนแกรมมากขน อาจเปนไปไดวา หากใช

คลงขอมลการฝกมากขนและขนาดเอนแกรมสงๆ ผลการทดลองกอาจจะดขนได

7.3.3 ระบบประยกตทใชระบบสายอกขระเฉพาะรวมกบแบบจาลองเอนแกรม

เนองจากผลจากระบบประยกตนใหผลแยกวาระบบทใชแบบจาลองภาษาเอนแกรม จง

เสนอวา หลงจากทแกปญหาระบบทใชสายอกขระเฉพาะและระบบเอนแกรม ใหผลการทดลอง

ถกตองมากขนแลว จงนาจะนาระบบประยกตนมาประมวลผลอกครงเพอดวา ผลของระบบ

ประยกตนดกวาระบบเอนแกรมหรอไม และใหทดลองประสทธภาพความเรวในการทางานเพอ

หาวา ระบบแบบเอนแกรมอยางเดยวกบระบบแบบผสมทางานดวยความเรวตางกนอยางม

นยยะสาคญหรอไม

นอกจากนอาจนาระบบทพฒนานไปใชระบภาษาของคาทบศพทภาษาตางประเทศอนๆ

ไดอก เพยงแคใชคลงขอมลการฝกของภาษานนเทานน

Page 91: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

รายการอางอง

ภาษาไทย

คณะอนกรรมการปรบปรงศพทเทคนคทางวศวกรรมไฟฟา. 2541. ศพทเทคนควศวกรรมไฟฟา

สอสาร. พมพครงท 4. กรงเทพฯ: สมาคมวศวกรรมสถานแหงประเทศไทยในพระบรม

ราชปถมภ,

ราชบณฑตยสถาน. 2538. พจนานกรม ฉบบราชบณฑตยสถาน พ.ศ. 2525. พมพครงท 5.

กรงเทพฯ: ราชบณฑตยสถาน.

ราชบณฑตยสถาน. 2535. หลกเกณฑการทบศพท ภาษาฝรงเศส ภาษาเยอรมน ภาษาอตาล

ภาษาสเปน ภาษารสเซย ภาษาญปน ภาษาอาหรบ ภาษามลาย. กรงเทพฯ:

ราชบณฑตยสถาน.

ราชบณฑตยสถาน. 2538. หลกเกณฑการทบศพทภาษาองกฤษ. พมพครงท 6. กรงเทพฯ:

ราชบณฑตยสถาน.

ศรไพร ศกดรงพงศากล. 2544. เทคโนโลยคอมพวเตอรและสารสนเทศ. กรงเทพฯ: ซเอดยเคชน.

สมชาย ชยธนะตระกล. 2544. รวมศพทญปน. พมพครงท 2. กรงเทพฯ: สานกพมพเพจพบ -

บลชชง.

ภาษาองกฤษ

Aizawa, A. 2003. Linguistic techniques to Improve the performance of automatic text

categorization. In Proceedings of the Sixth Natural Language Processing Pacific

Rim Symposium (NLPR2001), pp.307-314. Cited in Peng, Schuurmans, Wang

and Huang. Text classification in Asian languages without word segmentation.

In Proceedings of The Sixth International Workshop on Information Retrieval

with Asian Languages (IRAL 2003). Association for Computational Linguistics,

July 7. Sapporo, Japan.

Cavnar, W. and Trenkle, J. 1994. N-gram-based text categorization. In Proceedings

of Third Annual Symposium on Document Analysis and Information Retrieval

(SDAIR). (11-13 April 1994): pp.161-175. Las Vegas, USA.

Page 92: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

82

Chen, S.F. and Goodman, J.T. 1998. An Empirical study of smoothing techniques for

language modeling. In Proceedings of Thirty-Fourth Annual Meeting of the

Association for Computational Linguistics, pp.310-318.

Churcher Gavin. 1994. Distinctive character sequences. Personal communication.

Churcher Gavin, Hayes Judith, Johnson Stephen, and Souter Clive. 1994. Bigraph and

trigraph models for language identification and character recognition. In

Proceedings of 1994 AISB Work-shop on Computational Linguistics for Speech

and Handwriting Recognition, April. University of Leeds.

Combrinck, H.P. and Botha, E.C. 1995. Text-based automatic language identification.

In Proceedings of the Sixth Annual South African Workshop on Pattern

Recognition, November. Rand Afrikaans University.

Dunning, T. 1994. Statistical identification of language. In Technical report CRL MCCS-

94-273, Computing Research Lab, March. New Mexcio State University.

Harbeck, S Ohler, U, Noth, E and Niemann, H. 1999. Information theoretic based

segments for language identification. In Proceeding of the Workshop on Text,

Speech and dialog (TSD’99), pp.189-202. Berlin.

Hayes Judith. 1993. Language recognition using two-and three-letter clusters. Technical

Report. school of computer studies, University of Leeds.

Johnson Stephen. 1993. Solving the problem of language recognition. Technical

report, school of computer studies, University of Leeds.

Peng, F. and Schuurmans D. 2003. Combing naïve bayes and n-gram language

models for text classification. In F. Sebastiani (Eds.): Advances in Information

Retrieval: Proceedings of The 25th European Conference on Information

Retrieval Research (ECIR03), LNCS 2633: pp.335-350. Pisa, Italy.

Peng F., Schuurmans D. and Wang S. 2003. Language and task independent text

categorization with simple language models. In Proceedings of Human

Language Technology Conference and North American Chapter of the

Association for Computational Linguistics (HLT-NAACL'03), (May 27 - June 1

2003): pp.110-117. Edmonton, Canada.

Page 93: ฬาลงกรณ มหาวิทยาลัย 2548 ISBN 974-53-2360-8ling/thesis/2548MA-Akarapol.pdfง อ ครพล เอกวงศ อน : นตการระบ

83

Peng F., Schuurmans D. and Wang S. 2004. Augmenting Naive Bayes text classifier

with statistical language models. Information Retrieval 7 (3-4), pp.317–345.

Peng, F., Schuurmans D., Wang S. and Huang X. 2003. Text classification in Asian

languages without word segmentation. In Proceedings of The Sixth International

Workshop on Information Retrieval with Asian Languages (IRAL 2003).

Association for Computational Linguistics, July 7. Sapporo, Japan.

Piotrowki Michael. 2000. Statistical language identification for NLP-supported full text

retrieval. Master’s Thesis, April 28.

Ponte, M and Bruce Croft. 1998. A Language modeling approach to information

retrieval. In Proceeding of the 21st annual international ACM SIGIR conference

on Research and development in information retrieval, pp.275-281. Australia.

Sibun Penelope and Reynar Jeffrey C. 1996. Language identification: examining the

issues. In 5th symposium on document analysis and information retrieval,

pp.125-135. Las Vegas, USA.

Teahan, W. and Harper, D. 2001. Using compression-based language models for text

categorization. In Proceedings of Workshop on LMIR.

Yang, Y. 1999. An evaluation of statistical approaches to text categorization. Journal

of Information Retrieval 1(1/2), pp.69-90.