การตัดคำภาษาไทยสำหรับข้อความในพิพิธภัณฑ์ปลาน้ำจืด...

10
84 การตัดคำภาษาไทยสำหรับข้อความในพิพิธภัณฑ์ปลาน้ำจืด Thai Word Segmentation For Freshwater Fish Museum สุรศักดิตั้งสกุล 1 * และ ฐาปนี เฮงสนั่นกูล 2 1 ศูนย์วิจัยและฝึกอบรมปัญญาประดิษฐ์และเทคโนโลยีสารสนเทศ มหาวิทยาลัยขอนแก่น วิทยาเขตหนองคาย 2 คณะวิทยาศาสตร์และวิศวกรรมศาสตร์ มหาวิทยาลัยเกษตรศาสตร์ วิทยาเขตเฉลิมพระเกียรติ จังหวัดสกลนคร Surasak Tangsakul 1 * and Thapani Hengsanankun 2 1 Artificial Intelligence and Information Technology Research and Training Center, Khonkaen University, Nongkhai Campus 2 Faculty of Science and Engineering Kasetsart University, Chalermphrakiat Sakon Nakhon Province Campus บทคัดย่อ งานวิจัยนี้ได้นำเสนอการตัดคำภาษาไทยโดยใช้การเทียบสายอักษรและใช้วิธีการสร้างกราฟเพื่อหาการต่อและทับกันของคำทีปรากฏในพจนานุกรม โดยใช้ข้อมูลจากกราฟเพื่อหาขอบเขตของคำที่ปรากฏในพจนานุกรมที่ทับกัน ส่วนคำที่ไม่ปรากฏในพจนานุกรม จะใช้วิธีการระบุชนิดของคำและกฎในการหาขอบเขต ซึ่งจากการวัดประสิทธิภาพในส่วนของการตัดคำที่ไม่ปรากฏในพจนานุกรมพบว่า มีค่าความแม่นยำเท่ากับร้อยละ 75.87 ค่าความครบถ้วนร้อยละ 73.67 และค่าความถูกต้องของการตัดคำเท่ากับร้อยละ 74.75 ส่วน การวัดประสิทธิภาพในส่วนของการตัดคำในระดับพยางค์และระดับคำในเชิงความหมายพบว่ามีค่าความแม่นยำ ค่าความครบถ้วน และค่าความถูกต้องของการตัดคำโดยเฉลี่ยเท่ากับร้อยละ 73.13 67.21 และ 70.33 ตามลำดับ และเมื่อพิจารณาค่าความถูกต้องของ การตัดคำที่ไม่ปรากฏในพจนานุกรมและการตัดคำในระดับพยางค์และระดับคำในเชิงความหมายพบว่ามีค่าความถูกต้องของการตัดคำ ทั้งหมดเฉลี่ยเท่ากับร้อยละ 72.54 คำสำคัญ : การตัดคำ การเทียบสายอักษร โครงสร้างพจนานุกรมแบบทรัย Abstract This paper presents the segmentation Thai words using string matching and graphs to find overlapping words that occur in Thai dictionaries. Unknown words that do not occur in Thai dictionaries had been classified according to the parts of speech and the boundary rule of each word. To measure the efficiency in segmenting unknown words has been found that the figures of precision, recall, and F-measure were as follows: 75.87%, 73.67%, and 74.75% respectively. Regarding average the efficiency of segmentation of words in terms of syllables and semantics, it was found that the figures of precision, recall, and F-measure were as follows: 73.13%, 67.21%, and 70.33%. Considering the overall segmentation of both unknown and known words, the accurate figure of the research paper was equal to 72.54% Keywords : word segmentation, string matching, Trie dictionary structure -------------------------------------------------- *Corresponding author. E-mail: [email protected] สุรศักดิตั้งสกุล และ ฐาปนี เฮงสนั่นกูล / วารสารวิทยาศาสตร์บูรพา. 16 (2554) 1 : 84-93

Upload: others

Post on 08-Jan-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: การตัดคำภาษาไทยสำหรับข้อความในพิพิธภัณฑ์ปลาน้ำจืด Thai ...digital_collect.lib.buu.ac.th/journal/Science/v16n1/84-93.pdf ·

84

การตดคำภาษาไทยสำหรบขอความในพพธภณฑปลานำจด

Thai Word Segmentation For Freshwater Fish Museum

สรศกด ตงสกล1* และ ฐาปน เฮงสนนกล2

1ศนยวจยและฝกอบรมปญญาประดษฐและเทคโนโลยสารสนเทศ มหาวทยาลยขอนแกน วทยาเขตหนองคาย2คณะวทยาศาสตรและวศวกรรมศาสตร มหาวทยาลยเกษตรศาสตร วทยาเขตเฉลมพระเกยรต จงหวดสกลนคร

Surasak Tangsakul1* and Thapani Hengsanankun2

1Artificial Intelligence and Information Technology Research and Training Center, Khonkaen University,

Nongkhai Campus2 Faculty of Science and Engineering Kasetsart University, Chalermphrakiat Sakon Nakhon Province Campus

บทคดยอ

งานวจยนไดนำเสนอการตดคำภาษาไทยโดยใชการเทยบสายอกษรและใชวธการสรางกราฟเพอหาการตอและทบกนของคำท

ปรากฏในพจนานกรม โดยใชขอมลจากกราฟเพอหาขอบเขตของคำทปรากฏในพจนานกรมททบกน สวนคำทไมปรากฏในพจนานกรม

จะใชวธการระบชนดของคำและกฎในการหาขอบเขต ซงจากการวดประสทธภาพในสวนของการตดคำทไมปรากฏในพจนานกรมพบวา

มคาความแมนยำเทากบรอยละ 75.87 คาความครบถวนรอยละ 73.67 และคาความถกตองของการตดคำเทากบรอยละ 74.75 สวน

การวดประสทธภาพในสวนของการตดคำในระดบพยางคและระดบคำในเชงความหมายพบวามคาความแมนยำ คาความครบถวน

และคาความถกตองของการตดคำโดยเฉลยเทากบรอยละ 73.13 67.21 และ 70.33 ตามลำดบ และเมอพจารณาคาความถกตองของ

การตดคำทไมปรากฏในพจนานกรมและการตดคำในระดบพยางคและระดบคำในเชงความหมายพบวามคาความถกตองของการตดคำ

ทงหมดเฉลยเทากบรอยละ 72.54

คำสำคญ : การตดคำ การเทยบสายอกษร โครงสรางพจนานกรมแบบทรย

Abstract

This paper presents the segmentation Thai words using string matching and graphs to find overlapping words

that occur in Thai dictionaries. Unknown words that do not occur in Thai dictionaries had been classified according

to the parts of speech and the boundary rule of each word. To measure the efficiency in segmenting unknown words

has been found that the figures of precision, recall, and F-measure were as follows: 75.87%, 73.67%, and 74.75%

respectively. Regarding average the efficiency of segmentation of words in terms of syllables and semantics, it was

found that the figures of precision, recall, and F-measure were as follows: 73.13%, 67.21%, and 70.33%. Considering

the overall segmentation of both unknown and known words, the accurate figure of the research paper was equal

to 72.54%

Keywords : word segmentation, string matching, Trie dictionary structure

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

*Corresponding author. E-mail: [email protected]

สรศกด ตงสกล และ ฐาปน เฮงสนนกล / วารสารวทยาศาสตรบรพา. 16 (2554) 1 : 84-93

Page 2: การตัดคำภาษาไทยสำหรับข้อความในพิพิธภัณฑ์ปลาน้ำจืด Thai ...digital_collect.lib.buu.ac.th/journal/Science/v16n1/84-93.pdf ·

85

บทนำ

ธรรมชาตของประโยคภาษาไทยประกอบไปดวยการนำ

คำหลายๆ คำมาเชอมตอกนในลกษณะทตดกนโดยไมมการใช

เครองหมายหรอสญลกษณใดเพอบงบอกขอบเขตของคำแตละคำ

แตอาจมการเวนวรรคเปนระยะๆ เพอแยกระหวางประโยค ซงตาง

จากประโยคภาษาองกฤษททกคำจะแยกกนอยางชดเจน เมอเรา

ตองนำประโยคภาษาไทยไปประมวลผลในงานประยกตบางประเภท

เชน ในระบบการสบคนขอมล (Information Retrieval) หรอใน

ระบบของการแปลภาษาไทยเปนภาษาองกฤษ (Thai–English

Machine Translation) เปนตน จำเปนตองมกระบวนการตดคำ

ทถกตองและแมนยำจงจะทำใหระบบดงกลาวสามารถทำงานได

อยางมประสทธภาพ ดงนนการตดคำภาษาไทยจงถอไดวาเปนปจจย

พนฐานทสำคญของระบบทตองเกยวของกบการประมวลผลภาษา

ธรรมชาต (Natural Language Processing)

ปจจบนไดมการนำคำทมาจากภาษาตางประเทศมาใช

รวมกบคำภาษาไทยเปนจำนวนมาก จงทำใหเกดปญหาในเรอง

ชอเฉพาะ คำจากภาษาตางประเทศ คำทบศพท เปนตน วธการหนง

ทใชในการแกไขปญหาดงกลาวคอ วธการตดคำโดยใชพจนานกรม

โดยโครงสรางของพจนานกรมทนยมใชกนมากไดแก โครงสราง

ขอมลแบบบทร (B-Tree) โครงสรางขอมลแบบ ไบนารทร (Binary

Tree Structure) โครงสรางขอมลดบเบลอารเรย (Double-Array

Structure) และโครงสรางขอมลแบบทรย (Trie Structure) ซง

นกวจยหลายทานไดพฒนาวธการตดคำเพอใชกบพจนานกรม

ขนมา วรช ศรเลศลำวาณช (2536) เสนอการตดคำโดยใชการ

เทยบคำทยาวทสด (Longest Matching) และการตดคำโดยเลอก

แบบเหมอนมากทสด (Maximal Matching) ชดชนก เหลอสนทรพย

(2545) เสนอวธการตดคำภาษาไทยโดยใชการเทยบสายอกษร

(String Matching) แตผลลพธทไดยงไมดเทาทควรเนองมาจาก

สาเหตหลก 2 ประการคอ ประการทหนงเกดจากขอความกำกวม

โดยการตดคำสามารถตดคำไดหลายแบบ ทำใหเกดความสบสนขน

วาแบบไหนจะเปนแบบทถกตองทสด และประการทสองเกดจาก

คำทไมปรากฏในพจนานกรม นอกจากจะตดคำทไมปรากฏใน

พจนานกรมผดแลว อาจจะสงผลทำใหคำรอบขางมการตดคำผด

ดวย

งานวจยนมงเนนการพฒนาวธการตดคำจากพจนานกรม

และพฒนาวธการคนหาขอบเขตของคำทไมปรากฏในพจนานกรม

โดยมเปาหมายเปนกลมคำทปรากฏในพพธภณฑปลานำจดบรเวณ

ลมนำโขงในประเทศไทยเปนหลก ทงน เนองจากตองการให

กระบวนการตดคำมประสทธภาพสงขนและสามารถใชเปนพนฐาน

ของระบบงานสบคนหรอในกระบวนการของระบบอตโนมตอนๆ

ทเกยวของกบพพธภณฑปลานำจดของไทย

ทฤษฎและแนวคดทเกยวของ1. ชนดของคำภาษาไทย

พระยาอปกตศลปะสาร (2514) ไดจำแนกชนดของคำ

ภาษาไทยไว 7 ชนด ดงน

1.1 คำนาม เปนคำทใชบอกชอคน สตว สงของ เปนตน

ซงสามารถแบงออกได 5 ชนด ดงน

1) สามานยนาม คอคำนามทเปนชอทวไป เชน คน

บาน เมอง เวลา เปนตน

2) วสามานยนาม คอคำนามทเปนชอเฉพาะทสมมต

ตงขนสำหรบเรยก คน สตว และสงของบางอยาง เพอใหรชดเจน

สงทตองการกลาวถง

3) สมหนาม คอคำนามทเปนชอ คน สตว และ

ส งของทรวมอยมากดวยกน เชน ภกษต งแต 4 รปขนไป

เรยกวา “สงฆ” ชางหลายตวรวมกน เรยกวา “โขลง” และคำท

หมายถงจำนวนมากอนๆ เชน หม คณะ ฝง

4) ลกษณนาม คอคำทใชบอกลกษณะของสามานย-

นามอกทหนง เชน คำเรยกพระวา “รป” เรยกสตววา “ตว” หรอ

เรยกเรอวา “ลำ” เปนตน

5) อาการนาม คอคำนามทเปนชอกรยาอาการ

ซงเกดเนองมาจากคำกรยา หรอคำวเศษณ เชน การกน การอย

ความสวย ความงาม เปนตน

1.2 คำสรรพนาม เปนคำทใชแทนชอตางๆ ซงสามารถ

แบงออกได 5 ชนด ดงน

1) ประพนธสรรพนาม คอคำสรรพนามทใชแทน

นามทตดตอกน เชน “ฉนชอบคนทขยน” ซงคำประพนธสรรพนาม

คอ “ท” โดยคำประพนธสรรพนามทใชกนมากนน คอ คำวา

“ท ผท ซง ผซง” เปนตน

2) วภาคสรรพนาม คอคำสรรพนามทใชแทนนาม

ขางหนา เพอจำแนกนามนนออกเปนสวนๆ ไดแก “ตาง บาง กน”

เชน “ชาวนาบางไถนาบางทำนา”

3) นยมสรรพนาม คอคำสรรพนามทใชแทนนาม

เพอใหรแนชดวาเปนบคคลใด ไดแกคำวา “น นน โนน” เชน

“นของใคร”

4) อนยมสรรพนาม คอคำสรรพนามทใชแทนนามท

ไมระบแนชดวาเปนบคคลใด ไดแกคำวา “ใคร อะไร ไหน ผใดผอน

Surasak Tangsakul and Thapani Hengsanankun / Burapha Sci. J. 16 (2011) 1 : 84-93

Page 3: การตัดคำภาษาไทยสำหรับข้อความในพิพิธภัณฑ์ปลาน้ำจืด Thai ...digital_collect.lib.buu.ac.th/journal/Science/v16n1/84-93.pdf ·

86

ใดๆ อนๆ” เปนตน เชน “ฉนไมเหนใครแลว”

5) ปฤจฉาสรรพนาม คอคำสรรพนามทใชเปนคำถาม

ไดแก ใคร อะไร ไหน เชน “ใครมา?”

1.3 คำกรยา เปนคำทแสดงอาการของคำนามหรอคำ

สรรพนาม เพอใหรวาคำนามหรอคำสรรพนามนนๆ ทำอะไร

หรอเปนอยางไร เชน “นกบน” คำวา “บน” เปนคำกรยา

แสดงอาการของคำนามคอ “นก” แบงได 4 ชนด ดงน

1) อกรรมกรยา คอคำกรยาทมใจความครบบรบรณ

โดยไมตองมคำทเปนกรรมมารองรบ เชน “คนนอน เรามา เขาไป”

คำวา “นอน มา ไป” เปนคำกรยาทมใจความครบบรบรณ

2) สกรรมกรยา คอคำกรยาทมใจความไมครบบรบรณ

โดยตองมคำทเปนกรรมมารองรบ เชน “เขาเหนคน เขาอยากนอน”

เปนตน

3) วกตรรถกรยา คอคำกรยาชนดนไมมเนอความ

ในตวตองอาศยเนอความของคำศพท เชน “เขาคลายกบฉน

เขาเปนหมอ” ซงใจความสำคญนคอ “ฉน หมอ”

4) กรยานเคราะห คอคำกรยาทชวยกรยาอนใหได

ความหมายครบบรบรณ ไดแก “จะ คง ถก อยา” เชน “เขาจะ

ตฉน”

1.4 คำวเศษณ เปนคำทใชประกอบคำอนใหมความหมาย

ตางออกไป ไดแก ด ชว ขาว ดำ เปนตน ซงสามารถแบงได 10 ชนด

ดงน

1) ลกษณวเศษณ คอคำวเศษณทใชประกอบกบ

คำนาม หรอคำสรรพนามเปนพน ซงคำวเศษณชนดนจะนำเอาคำ

ชนดอนมาใชกได เชน ชางปา ซงคำวา “ปา” เปนคำนาม แตเอามาเปน

คำวเศษณประกอบกบคำวา “ชาง” โดยบอกลกษณะวาเปนชาง

อยางไร เปนตน

2) กาลวเศษณ คอคำวเศษณทแสดงเวลาภายหนา

ภายหลง หรอเวลาปจจบน เชน คนโบราณ เวลาเชา

3) สถานวเศษณ คอคำวเศษณทแสดงทอยหรอ

ระยะทาง เชน ไกล ใกล เหนอ

4) ประมาณวเศษณ คอคำวเศษณทแสดงถงจำนวน

เชน มาก นอย ครบ

5) นยมวเศษณ คอคำวเศษณทบอกกำหนดเขตของ

ความหมายชดเจน วาเปนสงนสงนนอยางเดยว เชน น นน ตวอยาง

คนเหลาน คนน เปนตน

6) อนยมวเศษณ คอคำวเศษณแสดงความไมกำหนด

แนนอนลงไป เชน อนๆ คนอนๆ ตวอยาง

7) ปฤจฉาวเศษณ คอคำวเศษณทแสดงความสงสย

หรอใชในคำถาม

8) ประตชญาวเศษณ คอคำวเศษณทแสดงการรบรอง

ในเรองเรยกขานและโตตอบ เชน ขอรบ จา

9) ประตเษธวเศษณ คอคำวเศษณทแสดงการบอก

ความไมรบรอง หรอหาม

10) ประพนธวเศษณ คอคำประพนธสรรพนามทเอามา

ใชเปนคำวเศษณ ไดแก ท ซง อน และคำประสมทเกยวกบคำพวกน

เชน “เปนเวลาอนนานซงประมาณไมได”

1.5 คำบพบท เปนคำสำหรบนำหนาคำนามและคำสรรพ-

นาม

1.6 คำสนธาน เปนคำเชอมคำหรอขอความใหตดกน

ซงสามารถแบงได 7 ชนด ดงน

1) สนธานเชอมความคลอยตามกน เชน ก…จง

เมอ…ก

2) สนธานเชอมความขดแยง เชน แต

3) สนธานเชอมความตางตอนกน เชน ฝาย สวน

อกประการหนง

4) สนธานเชอมความเปนเหตเปนผลกน เชน จง

เพราะฉะนน

5) สนธานเชอมความทเลอกเอา เชน หรอ มฉะนน

หรอมฉะนน

6) สนธานเชอมความแบงรบแบงส เชน ถา…ก

7) สนธานเชอมความเพอความสละสลวย เพอชวย

เนอหาใหสมบรณมากขน เชน กบ อนวา

1.7 คำอทาน เปนคำบอกเสยงตางๆ สามารถแบงได 2

ชนด

1) อทานบอกอาการ คอคำอทานทผพดเปลงออกมา

เพอใหรจดอาการตางๆ ของผพด

2) อทานเสรมบท คอคำอทานทผพดเสรมขนมก

นยมใชแตในภาษาไทย โดยผกลาวไมตองการเนอความของประโยค

2. ประเภทของคำทไมปรากฏในพจนานกรม

คำทไมปรากฏในพจนานกรมสามารถแบงไดเปน 2 ประเภท

ไดแก

2.1 คำท ไมปรากฏในพจนานกรมแบบชดเจน (Ex-

plicit Unknown Word) เปนคำศพททไมปรากฏในพจนานกรม

โดยภายในคำนนจะไมมสวนใดของคำนนทเปนคำทปรากฏใน

พจนานกรม ตวอยางเชน “ฟลม” “โลตล” และ “สนย” เปนตน

2.2 คำทไมปรากฏในพจนานกรมแบบซอนเรน (Hid-

den Unknown Word) เปนคำทไมปรากฏในพจนานกรม

สรศกด ตงสกล และ ฐาปน เฮงสนนกล / วารสารวทยาศาสตรบรพา. 16 (2554) 1 : 84-93

Page 4: การตัดคำภาษาไทยสำหรับข้อความในพิพิธภัณฑ์ปลาน้ำจืด Thai ...digital_collect.lib.buu.ac.th/journal/Science/v16n1/84-93.pdf ·

87

ซงสามารถแบงไดเปน 2 แบบ

1) คำทไมปรากฏในพจนานกรมแบบซอนเรนบางสวน

(Partially Hidden Unknown Word) เปนคำศพททไมปรากฏ

ในพจนานกรมอยางซอนเรนทเกดจากการประกอบกนระหวางคำท

ปรากฏในพจนานกรมและคำทไมปรากฏในพจนานกรม ตวอยางเชน

“สมาน” และ “ลงแซม” เปนตน

2) คำทไมปรากฏในพจนานกรมแบบซอนเรนทงหมด

(Fully Hidden Unknown Word) เปนคำศพททไมปรากฏใน

พจนานกรมอยางซอนเรนทเกดจากการประกอบดวยคำทปรากฏ

ในพจนานกรมทงหมด หรอเปนคำทสรางขนใหมโดยมการนำ

คำศพทตางๆ มาประกอบกน เชน “สงโตนำ เงนคราม” ประกอบดวย

“สงโต” “นำเงน” และ “คราม” เปนตน

3. โครงสรางพจนานกรมแบบทรย (Trie dictionary struc-

ture)

ไพศาล เจรญพรสวสด (2541), ไดเสนอโครงสรางขอมล

แบบทรยซงเปนโครงสรางพจนานกรมชนดหนงทนยมใชในปจจบน

และพรเดช บางเจรญทรพย (2552) ไดใชโครงการน ในการเกบคลง

คำศพทและความถทปรากฏในคลงขอความ โดยโครงสรางจะม

ลกษณะคลายกบโครงสรางขอมลแบบตนไม โดยทโครงสรางขอมล

แบบทรยนแตละโหนดจะจดเกบตวอกษรของคำ ดงตวอยางท

แสดงในภาพท 1 เปนโครงสรางขอมลแบบทรยทจดเกบคำวา กง

กช กฎ กด จะประกอบไปดวยโหนดตางๆ โดยทขอมลภายใน 1

โหนด จะประกอบไปดวยดชนทชไปยงโหนดของตวอกษรถดไป

ซงมจำนวนดชนเทากบจำนวนตวอกขระทจะอนญาตใหมไดใน

พจนานกรมบวกกบอกขระทใชระบเปนตวจบคำศพท (Terminator)

อก 1 ตวอกขระ ซงสญลกษณทใชในทนคอตวอกษร “#” สำหรบ

การสบคนในโครงสรางขอมลแบบทรยนจะทำโดย เรมตนทโหนด 1

ถาตองการคนหาคำศพทกใหนำอกษรทละตวจากคำศพททตองการ

วาภายในโหนด 1 นนมดชนของตวอกษรทตองการไปชโหนดอน

หรอไม ถาไมมแสดงวาคำนนไมมอยในพจนานกรม แตถามดชนท

ชไปโหนดถดไปกใหเลอนดชนไปยงโหนดทดชนนนชไป แลวนำ

ตวอกษรตวถดไปมาทำตามขนตอนแบบเดมจนหมด เมอนำ

ตวอกษรทงหมดจากดชนมาสบคนคำศพทแลว ใหเดนดวยอกษร

“#” แลวดวาดชนมคาเทากบคาวาง (null) หรอไม ถาเทาแสดงวา

ไมมคำศพทนนในพจนานกรม แตถาไมเทากแสดงวามคำศพทนน

อยในพจนานกรม

ภาพท 1 ตวอยางโครงสรางขอมลแบบทรย

วธดำเนนการวจย การวจยนมงเนนพฒนาวธการตดคำภาษาไทยสำหรบ

ขอความในพพธภณฑปลานำจด โดยใชการเทยบสายอกษร และ

การระบชนดของคำในการคนหาขอบเขตการทบของคำทปรากฏ

ในพจนานกรมและการคนหาคำทไมปรากฏในพจนานกรม ซง

กระบวนการตดคำทใชในงานวจยน ประกอบดวย 4 ขนตอนหลก

คอ ขนตอนวธการตดคำโดยใชการเทยบสายอกษร ขนตอนวธการ

สรางกราฟการตอและทบกนของคำ ขนตอนการหาขอบเขตของ

คำททบกน และขนตอนการหาขอบเขตของคำทไมปรากฏใน

พจนานกรม ขนตอนทงหมดแสดงในภาพท 2 และในสวนของ

พจนานกรมทใชในงานวจยนเปนของศนยเทคโนโลยอเลกทรอนกส

และคอมพวเตอรแหงชาต (NECTEC) (2547) โดยขอมลจะ

ประกอบดวย คำศพท ชนดของคำ และตวอยางการใชคำศพท

ภาพท 2 กระบวนการตดคำทใชในงานวจย

7) สนธานเชอมความเพอความสละสลวย เพอชวยเนอหาใหสมบรณมากขน เชน กบ อนวา

1.7 คาอทาน เปนคาบอกเสยงตางๆ สามารถแบงได 2 ชนด

1) อทานบอกอาการ คอคาอทานทผพดเปลงออกมาเพอใหรจดอาการตางๆ ของผพด

2) อทานเสรมบท คอคาอทานทผพดเสรมขนมกนยมใชแตในภาษาไทย โดยผกลาวไมตองการเนอความของประโยค 2. ประเภทของคาทไมปรากฏในพจนานกรม คาทไมปรากฏในพจนานกรมสามารถแบงไดเปน 2 ประเภท ไดแก

2.1 คาทไมปรากฏในพจนานกรมแบบชดเจน (Explicit Unknown Word) เปนคาศพททไมปรากฏในพจนานกรม โดยภายในคานนจะไมมสวนใดของคานนท เปนคาทปรากฏในพจนานกรม ตวอยางเชน “ฟลม” “โลตล” และ “สนย” เปนตน

2.2 คาท ไมปรากฏในพจนานกรมแบบซอนเรน (Hidden Unknown Word) เปนคาทไมปรากฏในพจนานกรม ซงสามารถแบงไดเปน 2 แบบ

1) คาทไมปรากฏในพจนานกรมแบบซอนเรนบางสวน (Partially Hidden Unknown Word) เปนคาศพททไมปรากฏในพจนานกรมอยางซอนเรนทเกดจากการประกอบกนระหวางคาทปรากฏในพจนานกรมและคาท ไมปรากฏในพจนานกรม ตวอยางเชน “สมาน” และ “ลงแซม” เปนตน 2) คาทไมปรากฏในพจนานกรมแบบซอนเรนทงหมด (Fully Hidden Unknown Word) เปนคาศพททไมปรากฏในพจนานกรมอยางซอนเรนทเกดจากการประกอบดวยคาทปรากฏในพจนานกรมทงหมด หรอเปนคาทสรางขนใหมโดยมการนาคาศพทตางๆ มาประกอบกน เชน “สงโตนา เงนคราม” ประกอบดวย “สงโต” “นาเงน” และ“คราม” เปนตน 3. โครงสรางพจนานกรมแบบทรย(Trie dictionary structure) ไพศาล เจรญพรสวสด (2541), ไดเสนอโครงสรางขอมลแบบทรยซงเปนโครงสรางพจนานกรมชนดหนงทนยมใชในปจจบน และพรเดช บางเจรญทรพย (2552) ไดใชโครงการน ในการเกบคลงคาศพทและความถทปรากฏในคลงขอความ โดย

โครงสรางจะมลกษณะคลายกบโครงสรางขอมลแบบตนไม โดยทโครงสรางขอมลแบบทรยนแตละโหนดจะจดเกบตวอกษรของคา ดงตวอยางทแสดงในภาพท 1 เปนโครงสรางขอมลแบบทรยทจดเกบคาวา กง กช กฎ กด จะประกอบไปดวยโหนดตางๆ โดยทขอมลภายใน 1 โหนดจะประกอบไปดวยดชนทชไปยงโหนดของตวอกษรถดไป ซงมจานวนดชนเทากบจานวนตวอกขระทจะอนญาตใหมไดในพจนานกรมบวกกบอกขระทใชระบเปนตวจบคาศพท (Terminator) อก 1 ตวอกขระ ซงสญลกษณทใชในทนคอตวอกษร “#” สาหรบการสบคนในโครงสรางขอมลแบบทรยนจะทาโดย เรมตนทโหนด 1 ถาตองการคนหาคาศพทกใหนาอกษรทละตวจากคาศพททตองการ วาภายในโหนด 1 นนมดชนของตวอกษรทตองการไปชโหนดอนหรอไม ถาไมมแสดงวาคานนไมมอยในพจนานกรม แตถามดชนทชไปโหนดถดไปกใหเลอนดชนไปยงโหนดทดชนนนชไป แลวนาตวอกษรตวถดไปมาทาตามขนตอนแบบเดมจนหมด เมอนาตวอกษรทงหมดจากดชนมาสบคนคาศพทแลว ใหเดนดวยอกษร “#” แลวดวาดชนมคาเทากบคาวาง (null) หรอไม ถาเทาแสดงวาไมมคาศพทนนในพจนานกรม แตถาไมเทากแสดงวามคาศพทนนอยในพจนานกรม

ภาพท 1 ตวอยางโครงสรางขอมลแบบทรย

วธดาเนนการวจย การวจยนมงเนนพฒนาวธการตดคาภาษาไทยสาหรบขอความในพพธภณฑปลานาจด โดยใชการเทยบสายอกษร และการระบชนดของคาในการคนหาขอบเขตการทบของคาทปรากฏในพจนานกรมและการคนหาคาทไมปรากฏในพจนานกรม ซงกระบวนการตดคาทใชในงานวจยน ประกอบดวย 4 ขนตอนหลก คอ ขนตอนวธการตดคาโดยใชการเทยบสายอกษร ขนตอนวธการสรางกราฟการตอและทบกนของคา ขนตอนการหาขอบเขตของคาททบกน และขนตอนการหาขอบเขตของคาทไม

ปรากฏในพจนานกรม ขนตอนทงหมดแสดงในภาพท 2 และในสวนของพจนานกรมทใชในงานวจยนเปนของศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต(NECTEC) (2547) โดยขอมลจะประกอบดวย คาศพท ชนดของคา และตวอยางการใชคาศพท

ภาพท 2 กระบวนการตดคาทใชในงานวจย และเอกสารทนามาใชในการทดลองไดนาเอกสารขอความในพพธภณฑปลานาจด จานวน 27 เอกสาร แตละเอกสารมลกษณะเปนแฟมขอมลขอความ(Text file) ทมจานวนคาไมเกน 500 คา ตวอยางขอมลแสดงดงน

ชอไทย เคาขาว ชอสามญ GREAT WHITE SHEATFISH ชอวทยาศาสตร Wallago attu ถนอาศย พบอยตามแหลงนาขนาดใหญ เชน แมนาเจาพระยา บงบอระเพด แมนาโขง ลกษณะทวไป เปนปลาใหญ ไมมเกลด อยในวงศปลาเนอออน สวนหวและจะงอยปากยน แหลม ปากกวางมาก มฟนแหลมคมอยบนขากรรไกรทงสองขาง มมปากยาวเกนหลงตา ตาเลก มหนวดทรมฝปากยาวถงบรเวณครบกน หวและลาตวตอนหนาแบนขางเลกนอย แตตอนทายแบนขางมาก ครบหลงเลกมปลายแหลม ครบกนเปนแผนยาว ครบอกใหญ ครบหางเวาตน สของลาตวเปนสเงนวาวอมเขยวออนทดานหลง ดานขางลาตวในปลาบางตวมแถบสคลาตามแนวยาว

ทองสจาง ครบตาง ๆ สเหลองออน เปนปลาทแขงแรงบางคราวพง ตวขนเหนอนาและปลอยตวใหตกลงมาทาใหเกดเสยงดง การสบพนธ เพาะพนธโดยการฉดฮอรโมนแลวผสมเทยม โดยรดไขและนาเชอ ไขจะฟก ออกเปนตวประมาณ 23 ชวโมง อาหารธรรมชาต กนปลาขนาดเลก เชน ปลาสรอย 1. ขนตอนวธการตดคาโดยใชการเทยบสายอกษร(String Matching Algorithm) การเทยบสายอกษรเปนขนตอนวธทใชในการคนหาคาโดยจะทาการเปรยบเทยบประโยคหรอขอความกบคาทมในพจนานกรม วฑรย(2540) ซงกาหนดให T คอ ประโยคหรอขอความทตองการแบงคา Ti คอ ตวอกขระของ T ทตาแหนง i Ti, j คอ สวนหนงของประโยคหรอขอความ T ทตาแหนง i ถง j wi คอ คาในพจนานกรมทมตาแหนงเรมตนเทากบตาแหนงของอกขระท i โดย i = 1,2,…,n และ n = ตาแหนงสดทายของประโยคหรอขอความ

ขนตอนการตดคาทาโดยการคนหาคา wi ทพบในพจนานกรม โดยพจารณาเงอนไขตอไปน 1.1) ถา wi เปนคาทยาวทสดทมตาแหนงเรมตนเทากบ Ti กาหนดให i' = i - 1 + (ความยาวของ wi) ดงนน wi = Ti, i'

1.2) wi ตองไมเปนสวนหนงของทกๆ wj เมอ j < i ตวอยาง T = “ปลาบกอาศยอยแตกตางกนตามสภาพในแมนาโขงและแควนยนาน” จะไดผลการตดคาดงแสดงในตารางท 1 ตารางท 1 ตวอยางการตดคาโดยใชวธการเทยบสายอกษร

Surasak Tangsakul and Thapani Hengsanankun / Burapha Sci. J. 16 (2011) 1 : 84-93

Page 5: การตัดคำภาษาไทยสำหรับข้อความในพิพิธภัณฑ์ปลาน้ำจืด Thai ...digital_collect.lib.buu.ac.th/journal/Science/v16n1/84-93.pdf ·

88

และเอกสารทนำมาใชในการทดลองไดนำเอกสารขอความ

ในพพธภณฑปลานำจด จำนวน 27 เอกสาร แตละเอกสารมลกษณะ

เปนแฟมขอมลขอความ (Text file) ทมจำนวนคำไมเกน 500 คำ

ตวอยางขอมลแสดงดงน

1. ขนตอนวธการตดคำโดยใชการเทยบสายอกษร (String

Matching Algorithm)

การเทยบสายอกษรเปนขนตอนวธทใชในการคนหาคำโดยจ

ะทำการเปรยบเทยบประโยคหรอขอความกบคำทมในพจนานกรม

วฑรย (2540) ซงกำหนดให

T คอ ประโยคหรอขอความทตองการแบงคำ

Ti คอ ตวอกขระของ T ทตำแหนง i

Ti, j คอ สวนหนงของประโยคหรอขอความ T ทตำแหนง i

ถง j

wi คอ คำในพจนานกรมทมตำแหนงเรมตนเทากบ

ตำแหนงของอกขระท i

โดย i = 1,2,…,n และ n = ตำแหนงสดทายของประโยค

หรอขอความ

ขนตอนการตดคำทำโดยการคนหาคำ wi ทพบในพจนานกรม

โดยพจารณาเงอนไขตอไปน

1.1) ถา wi เปนคำทยาวทสดทมตำแหนงเรมตนเทากบ Ti

กำหนดให i’ = i - 1 + (ความยาวของ wi) ดงนน wi = Ti, i’ 1.2) wi ตองไมเปนสวนหนงของทกๆ wj

เมอ j < i

ตวอยาง T = “ปลาบกอาศยอยแตกตางกนตามสภาพในแมนำโขง

และแควนยนาน” จะไดผลการตดคำดงแสดงในตารางท 1

ตารางท 1 ตวอยางการตดคำโดยใชวธการเทยบสายอกษร

i Ti wi

0 ปลาบกอาศยอยแตกตางกนตามสภาพในแมนำโขงและแควนยนาน ปลา

3 บกอาศยอยแตกตางกนตามสภาพในแมนำโขงและแควนยนาน บก

6 อาศยอยแตกตางกนตามสภาพในแมนำโขงและแควนยนาน อาศย

11 อยแตกตางกนตามสภาพในแมนำโขงและแควนยนาน อย

15 แตกตางกนตามสภาพในแมนำโขงและแควนยนาน แตกตาง

18 ตางกนตามสภาพในแมนำโขงและแควนยนาน ตางกน

25 ตามสภาพในแมนำโขงและแควนยนาน ตาม

28 สภาพในแมนำโขงและแควนยนาน สภาพ

32 ในแมนำโขงและแควนยนาน ใน

34 แมนำโขงและแควนยนาน แมนำ

40 โขงและแควนยนาน โขง

43 และแควนยนาน และ

46 แควนยนาน แควน

53 นาน นาน

2. ขนตอนวธการสรางกราฟการตอและทบกนของคำ (Over-

lapping Graph)

ฐาปน เฮงสนนกล และพธษด ศรแสงตระกล (2548)

ไดเสนอการตดคำภาษาไทยโดยใชการเทยบสายอกษรโดยคนหา

คำจากพจนานกรม ซงไดประยกตใชการสรางกราฟโดยวธการหา

เสนทางทสนทสดเพอหาเซตของกลมคำทตดไดจากขอความ

นำเขาและประยกตใชการระบชนดของคำตามหลกภาษาไทย เพอ

สรางกฎสำหรบการหาขอบเขตของคำททบกนและขอบเขตของ

คำทไมปรากฏในพจนานกรม เนองจากผลการตดคำโดยใชการเทยบ

สายอกษรจะไดคำทปรากฏในพจนานกรมทงหมด ประกอบดวย

2 สวน คอ สวนของคำทมการทบกนของตวอกษรหรอคำ และ

สวนของคำทมการหายไปบางสวนของตวอกษรคอคำทไมปรากฏ

ในพจนานกรม ซงในการสรางกราฟจะนำสวนคำทมการทบกนของ

ตวอกษรหรอคำมาพจารณาหาคานำหนกของเสนทาง ของกราฟ

แตคำทมการหายไปบางสวนของตวอกษรจะไมนำมาพจารณา

ในการหาคานำหนกของเสนทางของกราฟ ซงกำหนดให G (V, E)

ชอไทย เคาขาว

ชอสามญ GREAT WHITE SHEATFISH

ชอวทยาศาสตร Wallago attu

ถนอาศย พบอยตามแหลงนำขนาดใหญ เชน แมนำเจาพระยา

บงบอระเพด แมนำโขง

ลกษณะทวไป เปนปลาใหญ ไมมเกลด อยในวงศปลาเนอออน

สวนหวและจะงอยปากยน แหลม ปากกวางมาก มฟนแหลมคม

อยบนขากรรไกรทงสองขาง มมปากยาวเกนหลงตา ตาเลก

มหนวดทรมฝปากยาวถงบรเวณครบกน หวและลำตวตอนหนา

แบนขางเลกนอย แตตอนทายแบนขางมาก ครบหลงเลก

มปลายแหลม ครบกนเปนแผนยาว ครบอกใหญ ครบหางเวาตน

สของลำตวเปนสเงนวาวอมเขยวออนทดานหลง ดานขางลำตว

ในปลาบางตวมแถบสคลำตามแนวยาว ทองสจาง ครบตางๆ

สเหลองออน เปนปลาทแขงแรงบางคราวพงตวขนเหนอนำและ

ปลอยตวใหตกลงมาทำใหเกดเสยงดง

การสบพนธ เพาะพนธโดยการฉดฮอรโมนแลวผสมเทยม

โดยรดไขและนำเชอ ไขจะฟก ออกเปนตวประมาณ 23 ชวโมง

อาหารธรรมชาต กนปลาขนาดเลก เชน ปลาสรอย

สรศกด ตงสกล และ ฐาปน เฮงสนนกล / วารสารวทยาศาสตรบรพา. 16 (2554) 1 : 84-93

Page 6: การตัดคำภาษาไทยสำหรับข้อความในพิพิธภัณฑ์ปลาน้ำจืด Thai ...digital_collect.lib.buu.ac.th/journal/Science/v16n1/84-93.pdf ·

89

ภาพท 3 ตวอยางการสรางกราฟการตอและทบกนของคำ

3. ขนตอนการหาขอบเขตของคำททบกน

นำผลลพธจากเซตของ W ท ไดจากขนตอนท 3.2

มาทำการระบชนดของคำ โดยพจารณาชนดของคำจากทฤษฎ

ของหลกภาษาไทยตามทพระยาอปกตศลปะสารไดจำแนกไว

โดยแบงชนดของคำไดเปน 7 ชนด ทงหมดแสดงดงตารางท 3 ซง

ประกอบดวยชนดของคำและสญลกษณยอทใชแทนชนดของคำ

โดยกำหนดให

WA คอ เซตของคำทมเสนทางทสนทสดหลงจากระบชนด

ของคำทมการทบกนของคำ

ตารางท 3 ชนดของคำและสญลกษณ

ชนดของคำ สญลกษณคำนาม N

คำสรรพนาม PRONคำกรยา Vคำบพบท PREPคำสนธาน CONJคำอทาน INTคำวเศษณ ADV

และจากประโยคตวอยางจะได

และจาก WA ทได นำมาพจารณาการหาขอบเขตของคำ

ซงแบงการทบกนไดเปน 2 ลกษณะ คอ การทบกนของคำ

ในระดบตวอกษร และการทบกนในระดบคำ ดวยสมการ wx =

wx(1) wx(2) (A)

เปนกราฟแบบมทศทางและนำหนก

โดยท G คอกราฟการตอและทบกนของคำ

V คอโหนดของคำทไดจากการเทยบสายอกษร (wi)

โดยท wi ≠ φ และ 1 ≤ i ≤ n

E คอเสนทางของ (wi , wj) โดย wi มสวนตอกนพอด

หรอทบกนกบ wj และ i < j

k คอตำแหนงเรมตนทมการทบกนของคำ

โ ด ย ให น ำ เ ส นท า งขอ ง (w i , w j ) ม าพ จ า รณา

คานำหนกของเสนทาง ตามเงอนไขดงตารางท 2 และพจารณา

ตามกรณตอไปน

กรณท 1 คอ คำสองคำตอกนพอด

กรณท 2 คอ คำสองคำทบกนบางสวน แตสวนทไมไดทบกน

ของทงสองคำนนตองเปนคำทปรากฏในพจนานกรม

กรณท 3 คอ คำสองคำทบกน แตตองมอยางนอยหนง

รปแบบในการแบงคำทปรากฏในพจนานกรม

กรณท 4 คอ กรณทมการทบกนแตไมอยในกรณท 2 และ

กรณท 3

จากนนนำแตละสวนของกราฟมาหาเสนทาง โดยคานำหนก

ทไดจะนำมาพจารณาหาเสนทมคานำหนกนอยทสดจาก ซายสดไป

ทางขวาสดของแตละสวนของกราฟ ตามวธการของ John et al.

(2004) ผลลพธทไดคอเซตของคำทตดได ซงกำหนดให W คอ เซต

ของคำทมเสนทางทสนทสด

ตวอยางการสรางกราฟการตอและทบกนของคำจาก

ประโยคตวอยางทแสดงในภาพท 3 ซงประกอบดวย 2 สวนคอ

สวนทมลกศรแสดงคานำหนก จะเปนสวนของคำทปรากฏใน

พจนานกรม และสวนทไมมลกศรจะแสดงสวนของคำทมตวอกษร

หายไป จะได

ตารางท 2 การกำหนดคานำหนกของเสนทางในกราฟ

กรณ เงอนไข นำหนก1 j = i’ + 1 1

2ถา j ≤ i’ และ Ti, j-1,Tj, i’,Ti’+1, j

ทงหมดอยในพจนานกรม10

3ถา j ≤ i’ และ k ท j -1 ≤ k ≤ i’ โดย Ti, k และ

Tk+1, j’ อยในพจนานกรมทงสองคำ100

4 การทบกนในกรณอนๆ 1000

w0, w3, w6, w11, w15, w18, w25, w28, w32,

w34, w40, w43, w46, w53W = { }

w0 w3 w6 w11 w15 w18

w25 w28 w32 w34 w40 w43 w46

w53

ปลา

ตาม

นาน

บก

สภาพ

อาศย

ใน

อย

แมนำ

แตกตาง

โขง และ

ตางกน

แควน

1

1 1 1 1 1 1

1 1 1 10

w0(N),w3(ADJ), w6(V), w11(V), w15(V),

w18(V), w25(ADV), w28(N), w32 (PRER),

w34(N), w40(N), w43(CONJ), w46(N),

w53(ADV)

WA = { }

Surasak Tangsakul and Thapani Hengsanankun / Burapha Sci. J. 16 (2011) 1 : 84-93

Page 7: การตัดคำภาษาไทยสำหรับข้อความในพิพิธภัณฑ์ปลาน้ำจืด Thai ...digital_collect.lib.buu.ac.th/journal/Science/v16n1/84-93.pdf ·

90

โดยท x คอ i หรอ j

wx คอ คำทปรากฏในพจนานกรมตำแหนงท x

wx(1) คอ สวนหนาของคำทมการทบกน

wx(2) คอ สวนทายของคำทมการทบกน

A คอ สวนบงบอกชนดของคำของ wx

และคำทไดจะถกนำมาพจารณาตามกรณตางๆ ดงตอไปน

3.1 กรณการทบกนในระดบคำ

การพจารณาการทบกนของคำในระดบคำ จะพจารณา

เฉพาะกรณท 2 ดงทแสดงในตารางท 2 ซงมลกษณะของคำ 2 คำ

ทมการทบกนของคำบางสวน ใหพจารณาคำทปรากฏในพจนานกรม

ตามกฏตอไปน

กฎท 1 กำหนดให (wi(1) wi(2) (V) , wj(1) wj(2) (N)) = (wi(1) wi(2) (V) ,

wj(2) (V))

กฎท 2 กำหนดให (wi(1) wi(2) (V) , wj(1) wj(2) (V)) = (wi(1) wi(2) (V) ,

wj(2) (V))

กฎท 3 กำหนดให (wi(1) wi(2) (N) , wj(1) wj(2) (N)) = (wi(1) wi(2) wj(2)

(N))

กฎท 4 กำหนดให (wi(1) wi(2) (N) , wj(1) wj(2) (V)) = (wi(1) wi(2) wj(2)

(N))

สำหรบกรณการทบกนของคำในระดบคำทไมเปนตามกฎ

ขางตน ใหนำคตำแหนงของ (wi(A), wj(A)) ทไมเปนไปตามกฎนน

มารวมกนเปนเปนคำคำเดยว

3.2 กรณการทบกนในระดบตวอกษร

การพจารณาการทบกนของคำในระดบตวอกษร

จะพจารณาเฉพาะกรณท 3 ดงทแสดงในตารางท 2 ซงมการ

ทบกนของคำในระดบตวอกษร คำทนำมาพจารณาตองเปนคำท

ไมมตำแหนงหรอสวนของตวอกษรทหายไปในประโยค โดยให

ทำการเลอกคำถดไปภายในประโยค

4. ขนตอนการหาขอบเขตของคำทไมปรากฏในพจนานกรม

ในการพจารณาหาขอบเขตของคำท ไมปรากฏใน

พจนานกรมนน งานวจยนไดพจารณาเฉพาะสวนของคำแบบ

ซอนเรนบางสวนและแบบชดเจน โดยกำหนดให

U = เซตของคำทไมปรากฏในพจนานกรม

M = เซตของตวอกษรทหายไป

m = ตำแหนงเรมตนของตวอกษรทหายไป

พจารณาสำหรบทกคตำแหนง (wi(A), wj(A)) จากกราฟ

การตอและทบกนของคำ ในสวนของคำไมมลกศรแสดงสวนของ

คำทมตวอกษรหายไปดงแสดงในภาพท 3

4.1 ขนตอนการคนหากลมตวอกษรทหายไป

1) พจารณา wi ตวแรกในเซต W โดย ถา i ≠ 1 แลว

เพม T1, i -1 ไวใน M

2) พจารณา (wi, wj) ของเซต W โดยพจารณาในสวน

ของคำไมมลกศรซงแสดงสวนของคำทมตวอกษรหายไป โดย i < j

และ i < m < j เพม Ti’+1, j-1 ไวใน M ดงนนตวอยางในภาพท 3 จะได

M = { ย }

4.2 ขนตอนการหาคำไมปรากฏในพจนานกรม

พจารณาสำหรบทกคตำแหนง (wi(A), wj(A))

จากกราฟการตอและทบกนของคำ ในสวนของคำไมมลกศรแสดง

สวนของคำทมตวอกษรหายไปดงแสดงในภาพท 3 โดยในการ

หาคำทไมปรากฏในพจนานกรม จะพจารณา (wi(A), wj(A))

ตามชนดของคำและเซตของ M ซงสามารถแบงได 5 กรณ ดงน

1) กรณการหายไปของตวอกษรตำแหนงแรกของ

ประโยค พจารณา wi(A) ตวแรกของเซต W ถา wi ≠ w0 และ wi ม

ชนดของคำเปนคำสรรพนามหายทงคำ แตถาไมใช ใหนำมารวมกบ

wi ตวแรกของเซต W ไวใน U

2) กรณการหายไปของตวอกษรตำแหนงสวนหนา

ของคำภายในประโยค พจารณา (wi(A), wj(A)) ทอยตดกบ

ตวอกษรทหาย โดยพจารณาชนดของคำทไดมลกษณะดงแสดง

ในตารางท 4 จะนำตวอกษรทหายไป (M) จะนำไปตอกบตำแหนง

ของสวนหนาของ wj ตวอยางการหาขอบเขตของคำททบกน

แลวเกดการหายไปทตำแหนงสวนหนาของคำ เชน “แควนยนาน”

จะระบขอบเขตของคำไดเปน “แควน”,“นาน” ซงมคำทหายไปคอ

“ย” เมอผานการคนหาคำทหายไปแลวจะได แควน(N), ย(Miss),

นาน(ADV) และเมอพจารณาตามกฏแลวจะไดเปน {แควน, ยนาน}

3) กรณการหายไปของตวอกษรตำแหนงสวนทาย

ของคำภายในประโยค โดยพจารณาชนดของคำทไดมลกษณะ

ดงแสดงในตารางท 5 แลวนำตวอกษรทหายไป (M) จะนำไปตอกบ

ตำแหนงของสวนทายของ wi

ตารางท 4 กฎการหาขอบเขตคำในกรณการหายของตวอกษร

สวนหนาคำ

กฎท (wi(A), wj(A)) กฎท (wi(A), wj(A))1 (wi (V), wj (N)) 6 (wi (CONJ), wj (V))2 (wi (V), wj (V)) 7 (wi (CONJ), wj (N))3 (wi (V), wj (ADJ)) 8 (wi (PRON), wj (N))4 (wi (N), wj (ADJ)) 9 (wi (ADV), wj (V))5 (wi (N), wj (ADV)) 10 (wi (ADJ), wj (V))

สรศกด ตงสกล และ ฐาปน เฮงสนนกล / วารสารวทยาศาสตรบรพา. 16 (2554) 1 : 84-93

Page 8: การตัดคำภาษาไทยสำหรับข้อความในพิพิธภัณฑ์ปลาน้ำจืด Thai ...digital_collect.lib.buu.ac.th/journal/Science/v16n1/84-93.pdf ·

91

ตารางท 5 กฎการหาขอบเขตคำกรณการหายของตวอกษร

สวนทายของคำ

กฎท (wi(A), wj(A)) กฎท (wi(A), wj(A))1 (wi (N), wj (V)) 4 (wi (V), wj (CONJ))2 (wi (ADJ), wj (N)) 5 (wi (ADV), wj (CONJ))3 (wi (N), wj (CONJ)) 6 (wi (N), wj (N))

4) กรณการหายไปของคำทอยภายในประโยค

ใหพจารณา (wi(A), wj(A)) ทมตวใดตวหนงเปนคำบพบท (PREP)

จะนำมาจดเกบใน U ทงคำ

5) กรณการทบกนของคำทไมปรากฏในพจนานกรม

สำหรบ (wi(A), wj(A)) ทมนำหนกเทากบ 1000 ในกรณท 4

จากตารางท 2 โดยตำแหนงทเกดการทบกนของตวอกษรจะนำมา

รวมกนเปนคำเดยว

ผลการวจยและวจารณผล1. ผลการทดลองการตดคำภาษาไทย

การวดประสทธภาพของการตดคำจะใชการหาคา

ความแมนยำ (P=Precision) คาความครบถวน (R=Recall)

และคาความถกตองการตดคำ (F=F-Measure) ซงคาประสทธภาพ

ของการตดคำสามารถแสดงโดยความสมพนธระหวางคาความ

แมนยำและคาความครบถวนโดยใชดงสมการ

โดยประสทธภาพของการตดคำจะวดจากผลการทดลอง

การตดคำ 2 สวน ไดแก ผลการทดลองการตดคำทไมปรากฏใน

พจนานกรมโดยใชการระบชนดของคำและกฎ และผลการทดลอง

การตดคำในระดบพยางคและระดบคำในเชงความหมาย

1.1 ผลการทดลองการตดคำทไมปรากฏในพจนานกรม

โดยใชการระบชนดของคำและกฎ

กำหนดให

คาความแมนยำ คอ คาความถกตองในการตดคำท

ไมปรากฏในพจนานกรมเทยบกบคาความถกตองในการตดคำท

ไมปรากฏในพจนานกรมโดยผเชยวชาญ

คาความครบถวน คอ คาความถกตองในการตดคำ

ทไมปรากฏในพจนานกรมเทยบกบคาความถกตองในการตดคำท

ไมปรากฏในพจนานกรมจากฐานขอมล

จากการทดลองสามารถคำนวณประสทธภาพของ

การตดคำทไมปรากฏในพจนานกรมโดยใชการระบชนดของคำและ

กฎไดเฉลยเทากบรอยละ 74.75 รายละเอยดแสดงดงตารางท 6

ตารางท 6 ประสทธภาพของการตดคำทไมปรากฏในพจนานกรม

โดยใชการระบชนดของคำและกฎ

คาความแมนยำ (%) 75.87คาความครบถวน (%) 73.67คาความถกตอง (%) 74.75

1.2 ผลการทดลองการตดคำในระดบพยางคและระดบ

คำในเชงความหมาย

ผลการทดลองการตดคำในระดบพยางคและระดบคำ

ในเชงความหมายจะพจารณาจากคาประสทธภาพของการตดคำ

โดยแบงเปน 2 ระดบ คอ ประสทธภาพของการตดคำในระดบพยางค

และประสทธภาพของการตดคำในระดบคำในเชงความหมาย

กำหนดให

คาความแมนยำ คอ คาความถกตองในการตดคำทได

เทยบกบคาความถกตองในการตดคำโดยผเชยวชาญ

คาความครบถวน คอ คาความถกตองในการตดคำท

ไดเทยบกบคาความถกตองในการตดคำจากฐานขอมล

จากการทดลองสามารถคำนวณประสทธภาพของ

การตดคำในระดบพยางคและระดบคำในเชงความหมายไดเทากบ

รอยละ 74.92 และรอยละ 65.73 ตามลำดบ รายละเอยดแสดงใน

ตารางท 7

ตารางท 7 ผลการวดประสทธภาพของการตดคำในระดบพยางค

และระดบคำในเชงความหมาย

ระดบระดบ

พยางค

ระดบคำเชง

ความหมายเฉลย

คาความแมนยำ (%) 76.01 70.24 73.13คาความครบถวน (%) 72.65 61.76 67.21คาความถกตอง (%) 74.92 65.73 70.33

สรปผลการวจย การทดลองการตดคำโดยใชขนตอนวธการตดคำโดยใช

การเทยบสายอกษร ขนตอนวธการสรางกราฟการตอและทบกน

ของคำ ขนตอนการหาขอบเขตของคำททบกน และขนตอนการหา

2 X P X R

P + RF =

Surasak Tangsakul and Thapani Hengsanankun / Burapha Sci. J. 16 (2011) 1 : 84-93

Page 9: การตัดคำภาษาไทยสำหรับข้อความในพิพิธภัณฑ์ปลาน้ำจืด Thai ...digital_collect.lib.buu.ac.th/journal/Science/v16n1/84-93.pdf ·

92

ขอบเขตของคำทไมปรากฏในพจนานกรมโดยใชการระบชนดของ

คำและกฎ ตวอยางเชน ประโยค “ปลาบกอาศยอยแตกตางกนตาม

สภาพในแมนำโขงและแควนยนาน” สามารถตดคำไดดงน

T = {ปลา, บก, อาศย, อย, แตกตาง, กน, ตาม, สภาพ, ใน,

แมนำ, โขง, และ, แควน, ยนาน}

U = {ยนาน}

สวนคำทควรตดได คอ T = {ปลาบก, อาศย, อย, แตกตาง,

กน, ตาม, สภาพ, ใน, แมนำโขง, และ, แควน, ยนาน}

ซงสามารถคำนวณคาประสทธภาพในสวนของการตดคำ

ทไมปรากฏในพจนานกรมโดยมคาความแมนยำเทากบรอยละ

75.87 คาความครบถวนรอยละ 73.67 และคาความถกตองของ

การตดคำไดเทากบรอยละ 74.75 และในสวนของการตดคำใน

ระดบพยางคและระดบคำในเชงความหมายสามารถคำนวณคา

ประสทธภาพโดยมคาความแมนยำเฉลยเทากบรอยละ 73.13

คาความครบถวนเฉลยรอยละ 67.21 และคาความถกตองของการ

ตดคำโดยเฉลยไดเทากบรอยละ 70.33 และเมอพจารณาคาความ

ถกตองของการตดคำทไมปรากฏในพจนานกรมและการตดคำใน

ระดบพยางคและระดบคำในเชงความหมายพบวามคาความถกตอง

ของการตดคำทงหมดเฉลยเทากบรอยละ 72.54

วจารณผล การตดคำภาษาไทยนนไมสามารถตดคำไดถกตองทงหมด

เนองจากสาเหตบางประการทสงผลกระทบตอการตดคำภาษาไทย

ไดแก ปญหาทเกดจากคำทไมปรากฏในพจนานกรมแบบซอนเรน

ทงหมด คำกำกวม การทบกนของคำทไมเปนไปตามกฎ และ

กระบวนการสรางรปแบบลำดบชนดของคำ ซงปญหาทพบในการ

ทดลองทงหมดสรปไดดงตอไปน

1. ปญหาทเกดจากคำทไมปรากฏในพจนานกรมแบบซอนเรน

ทงหมด

เนองจากขอความในพพธภณฑปลานำจด มลกษณะเปนคำ

ไมปรากฏในพจนานกรมแบบซอนเรนทงหมด มสวนของคำท

ปรากฏในพจนานกรม และสวนใหญเปนคำเฉพาะเพราะมการ

ตงชอตามลกษณะของปลานำจด หรอตงชอตามแหลงทอยของ

ปลานำจด เชน “กดขาว” เปนคำทปรากฏในพจนานกรมทงหมด

สามารถตดไดเปน “กด” และ “ขาว” แตในเชงความหมายนนเปน

คำเฉพาะ ทำใหประสทธภาพในการตดคำในเชงความหมายลดลง

2. ปญหาทเกดจากคำกำกวม

เนองจากคำกำกวม เปนคำทสามารถตดคำไดหลายแบบ

ทำใหเกดความสบสนของคำขาง และเกดการซอนทบกนบางสวน

ของตวอกษรของคำทปรากฏในพจนานกรม จงทำใหการตดคำเกด

ขอผดพลาดสำหรบการตดคำในเชงความหมาย

3. ปญหาการทบกนของคำทไมเปนไปตามกฎ

สำหรบกฎทสรางขนในงานวจยนไดพจารณาจากการ

ทดลองการตดคำภาษาไทย ดงนนทำใหการหาขอบเขตของคำท

ทบกนจงยงมกฎไมครอบคลมทกกรณทำใหเกดขอผดพลาดขน

ในสวนของการหาขอบเขตของคำทไมปรากฏในพจนานกรม ซง

สงผลใหการตดคำผดพลาดตามไปดวย

4. ปญหากระบวนการสรางรปแบบลำดบชนดของคำ

สาเหตหนงททำใหการตดคำภาษาไทยเกดขอผดพลาดนน

เกดจากลกษณะของประโยคในเอกสารบางประโยคไมครบถวนตาม

หลกภาษาไทย จงทำใหการสรางรปแบบลำดบชนดของคำของ

ประโยคทมคำทไมปรากฏในพจนานกรมไมชดเจน สงผลใหกระบวน

การสรางรปแบบเกดขอผดพลาด ซงทำใหการตดสนใจในการแยก

กลมของคำทไมปรากฏในพจนานกรมไมเปนไปตามกลมทถกตอง

สำหรบแนวทางการพฒนาตอในอนาคตเพอใหการตดคำ

มประสทธภาพเพมขน ซงวธการตดคำทไดนำเสนอนยงไมสามารถ

แกปญหาไดคอ ปญหาคำทไมปรากฏในพจนานกรมแบบซอนเรน

ทงหมด อาจแกไขไดโดยการเพมคำในพจนานกรม หรอสรางกฏ

เพมเตมในสวนของโครงสรางของชอพนธปลา ปญหาคำกำกวม

ทมพนฐานจากการทคำสามารถตดไดหลายแบบนน สามารถ

แกไขไดโดยเพมกระบวนการในการวเคราะหในเชงความหมาย

และความคลมเครอของคำบางกรณ หรออาจเพมกระบวนยอนกลบ

เพอตรวจสอบความหมายของประโยค และสำหรบในสวนของการ

สรางกฎและการสรางตวแบบของคำทไมปรากฏในพจนานกรมนน

ยงไมครอบคลมทกกรณทเกดขน โดยอาจพจารณาเพมกฏในสวน

ของประโยคทไมครบถวนตามหลกภาษาไทย

กตตกรรมประกาศ ขอขอบคณมหาวทยาลยขอนแกน วทยาเขตหนองคายทให

ทนสนบสนนในการทำงานวจย และใหความสะดวกในเรองอปกรณ

การทดลอง หองปฏบตการ ททำใหงานวจยครงนสำเรจดวยด

เอกสารอางองชดชนก เหลอสนทรพย. (2545). Analysis & Design of

Algorithms. กรงเทพมหานคร : School & University

Media.

สรศกด ตงสกล และ ฐาปน เฮงสนนกล / วารสารวทยาศาสตรบรพา. 16 (2554) 1 : 84-93

Page 10: การตัดคำภาษาไทยสำหรับข้อความในพิพิธภัณฑ์ปลาน้ำจืด Thai ...digital_collect.lib.buu.ac.th/journal/Science/v16n1/84-93.pdf ·

93

ฐาปน เฮงสนนกล และ พธษด ศรแสงตระกล. (2548).

การตดคำโดยใชเทคนค Fast and Compact Updating

Algorithm. The 2 nd Joint Conferenceon Computer

Science and Software Engineering, 144-150.

พระยาอปกตศลปะสาร. (2514). หลกภาษาไทย. กรงเทพมหานคร :

ไทยวฒนาพานช.

พรเดช บางเจรญทรพย. (2552). A Machine-Translation based

Approach to Word Boundary Identification: A

Projective Analogy of Bilingual Translation. National

Software Contest (NSC). Available: http://www.

nectec.or.th/nsc.

ไพศาล เจรญพรสวสด. (2541). การตดคำภาษาไทยโดยใช

คณลกษณะ. วทยานพนธปรญญาวศวกรรมศาสตร

มหาบณฑต สาขาวศวกรรมคอมพวเตอร. บณฑตวทยาลย.

จฬาลงกรณมหาวทยาลย.

วฑรย กลยาณวฒน. (2540). ระบบการคนคนขอความภาษาไทย

โ ดย ใช แฟ มข อม ลผกผ น . ว ทย าน พนธ ป รญญา .

วศวกรรมศาสตรมหาบณฑต สาขาวศวกรรมคอมพวเตอร.

บณฑตวทยาลย. จฬาลงกรณมหาวทยาลย.

วรช ศรเลศลำวาณช. (2536). การตดคำภาษาไทยในระบบแปลภาษา.

กรงเทพมหานคร : ศนยเทคโนโลยอเลกทรอนกสและ

คอมพวเตอรแหงชาต. 50-55.

ศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต. (2547).

ฐานขอมลพจนานกรมภาษาไทย. http://lexitron.nectec.

or.th/dnload_data/lexitron-data.zip.

John R. Hubbard and Anita Hyray. (2004). Data Structures

with Java. New Jersey : Pearson Education Inc.

Surasak Tangsakul and Thapani Hengsanankun / Burapha Sci. J. 16 (2011) 1 : 84-93