text mining and thai nlp

33
ปรัชญา บุญขวัญ (อาร์ม) ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ [email protected], [email protected]

Upload: data-science-thailand

Post on 21-Apr-2017

1.480 views

Category:

Data & Analytics


0 download

TRANSCRIPT

ปรชญา บญขวญ (อารม)ศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต

[email protected], [email protected]

¡ รจกกบภาษาไทย¡ ความมหศจรรยแหงภาษาไทย¡ ภาษาไทยในสงคมออนไลน¡ หวขอวจยทนาสนใจ¡ สรป

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 2

¡ ภาษาไทยเปนภาษาคำโดด (analytic language)

§ ลำดบคำแบบประธาน-กรยา-กรรม (SVO) และความหมายหลกของหนวยสราง (constituent) มกจะเปนตวขนตน (head-initial)

§ ลำดบคำตายตว และมผลตอการตความความหมาย

§ ใชคำกรยาวเศษณ (adverb) และคำชวย (auxiliary) เพอบอกหนาททางไวยากรณของคำในประโยค ไมตองผนกรยา (inflection) หรอเตมวภตตปจจย (declension)

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 3

¡ ภาษาไทยผกตดกบวฒนธรรมและระบบความคด

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 4

ระบบความคดแบบปจเจกนยมเนนความโดดเดนของปจเจกบคคลนยมสอความหมายแบบชดแจง

ประเดน

เหตผล 1

เหตผล 2

เหตผล 3

สรปสาระสำคญ

ระบบความคดแบบรวมศนยเนนความสมพนธแนบแนนภายในกลมนยมใชความหมายแฝงทรกนเฉพาะกลม

ขออาง 1

ขออาง 2

ขออาง 3

ขออาง 4 ขออาง 5

ขออาง 6

ขออาง 7

ขออาง 8

ประเดน

¡ ภาษาไทยผกตดกบวฒนธรรมและระบบความคด

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 5

ระบบความคดแบบปจเจกนยมประเดนนำไปสเหตผลสนบสนนเนนเลาเรองตามลำดบและใหเหตผล

ประเดน

เหตผล 1

เหตผล 2

เหตผล 3

สรปสาระสำคญ

ระบบความคดแบบรวมศนยขออางนำไปสประเดน

เนนขอแกตวและการขออภยทมารบกวน

ขออาง 1

ขออาง 2

ขออาง 3

ขออาง 4 ขออาง 5

ขออาง 6

ขออาง 7

ขออาง 8

ประเดน

¡ ภาษาไทยเรยบงายแตสลบซบซอน (simplex) และนยมใชความหมายแฝง (high-context meaning)

§ คำในภาษาไทยมหนวยความหมายขนาดเลก (minimalist semantics) ทำใหตองใชคำจำนวนมากมาประกอบสรางเปนหนวยความหมายทสลบซบซอน

§ สามารถละสรรพนาม (pro-dropping) และละหนวยสราง (ellipsis) ได หากยงสามารถอนมานความหมายไดจากบรบท

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 6

¡ การใชความหมายแฝงทำใหเกดความมหศจรรย

§ ระดบหนวยคำ: “คำคออะไร”

§ ระดบไวยากรณ: “นมนคำประสมหรอหนวยสราง” “ทำไมประโยคถงไดขาดรงรงแบบน”

§ ระดบความหมาย: “จะตความรปแทนความหมายอยางไร”

§ ระดบปรจเฉท: “อานมาตงนาน สาระสำคญอยทไหน”

§ ระดบวจนปฏบต: “ประโยคนหมายความวาอะไรกนแน”28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 7

¡ ภาษาไทยเนนการใชความหมายแฝงทรกนเฉพาะกลม

§ สรรพนามและหนวยสรางอนๆ สามารถละได ตราบเทาทภายในกลมสามารถอนมานไดจากบรบท

§ ความกำกวมทางภาษากเปนทยอมรบไดดวยเหตผลเดยวกน

§ การใชความหมายแฝงกอใหเกดปญหากบการประมวลผลภาษาธรรมชาตดวยคอมพวเตอร

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 8

¡ การแกปญหาความหมายแฝง (context resolution) มลกษณะไมเปนเชงเสน (non-linear) ทำใหการเชอมโยงบรบทเกดภาวะnon-projectivity ซงตองแกปญหาดวย Turing Machine¡ ตวอยาง: การแกปญหาความหมายแฝงดวย Type Logical Grammar

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 9

สมชายฝากปลาทองไวกบเพอนตอนไปทะเล เขาอยากนงตากลมโดยไมตองหวงเจาตากลม√ เขา.proเขา.n

ตา|กลม|√ ตาก|ลม|

√ ตา|กลม|ตาก|ลม|

np\a1 np\a3 np\a2a1 a2 a3

¡ การแกปญหาความหมายแฝงดวยกฎโดยใช Turing Machine มความซบซอนแบบ Exponential จงเปนปญหาททนรอไมได (intractable problem)

¡ ปจจบนนเราสามารถใชวธการประมาณ (approximate) เพอแกปญหานได โดยใชแบบจำลองทางสถต (เชน NB, HMM, MEMM, และ CRF) หรอแบบจำลองเชงตวเลข (เชน SVM และ PCA) แตกตองยอมแลกกบความแมนยำ

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 10

¡ คำถาม 1: คำคออะไร

§ ภาษาไทยพอมเกณฑคราวๆ ของขอบเขตคำ

▪ บางเชอวาขอบเขตคำอยทคำมลทรวมกนแนน▪ บางเชอวาขอบเขตคำอยทคำประสมทเปลยนความหมายไป▪ บางกเชอวาขนอยกบการนำหนวยความหมายของคำไปใชงาน

§ ถงจะกำหนดเกณฑคราวๆ ได แตนกภาษาศาสตรกยงถกเถยงกนอยเสมอเมอพบความลกลนของกฎเกณฑ

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 11

¡ รวมกรณการตดคำทขดแยงกบสญชาตญาณ (counter-intuitive)

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 12

เกณฑ ตวอยาง กรณทขดแยงกบสญชาตญาณ

องตามคำมลฉน|นำ|ดอก|ไม|ไป|ไหว|

ศาล|พระ|ภม|ท|โรง|เรยน|ประจำ|ดอก|ไม| ศาล|พระ|ภม| โรง|เรยน|

ตดแยกใหเปนคำมลทงหมด

องตามคำมล ทรวมกนแนน

ฉน|นำ|ดอกไม|ไป|ไหว|ศาลพระภม|ท|โรงเรยน|ประจำ|

ดอก|จก| (กลวย) เลบ|มอ|นาง| ตดแยก เพราะมความถการเกดรวมไมเพยงพอ

องตามคำประสมเปลยนความหมาย

ฉน|นำ|ดอก|ไม|ไป|ไหว|ศาล|พระภม|ท|โรง|เรยน|ประจำ|

ดอก|ไม| แม|นำ| โรง|เรยน| ตองตดแยก เพราะยงไมเปลยนความหมาย

องตาม หนวยความหมาย

ฉน|นำ|ดอกไม|ไป|ไหว|ศาลพระภม|ท|โรงเรยนประจำ|

การออกกำลงกาย| หมอแปลงไฟฟา|ตองตดรวมเพราะมคำทตรงกนในภาษาองกฤษ

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 13

เกณฑ จดประสงค ความลกลน ความกำกวม ตวอยาง

องตามคำมลวเคราะหโครงสรางหนวยคำ

ขอบเขตคำมล ทบซอนกน

ตำสด N/A

องตามคำมล ทรวมกนแนน

วเคราะหโครงสรางไวยากรณ

เมอไหรจงจะถอวา รวมกนแนน

ปานกลางThai National Corpus (TNC)

องตามคำประสมทเปลยนความหมาย

วเคราะหโครงสรางไวยากรณ

เมอไหรจงจะถอวาเปลยนความหมาย

ปานกลาง BEST 2010

องตาม หนวยความหมาย

ใชเพอสอนระบบ แปลภาษาอตโนมต

ไมมหนวยความหมาย กลางใหเปนหลกยด

สง ORCHID

¡ คำถาม 2: นมนคำประสมหรอหนวยสราง (กรณชดแจง)

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 14

หมอหงขาวN

หมอ หง ขาวN V N

VP

S

NP

หมอหงขาวN

ไฟฟาN

NP

หมอ หงN JV

JVP

NP

NP

ขาวN

ไฟฟาN

NPหมอหงขาว

N

ซอมมอN

NP

หมอ หงN JV

JVP

NP

NP

ขาวN

ซอมมอN

NP

1

3 4

หบ ประดบ มรกตN JV N

JVP

NP

NP

2

หบประดบมรกตN

××

××

(รวมกนแนน)

(รวมกนแบบหลวม)

(‘ซอมมอ’ ขยาย ‘หมอ’ ไมได)(‘ไฟฟา’ ขยาย ‘หมอ’ ได)

¡ คำถาม 2: นมนคำประสมหรอหนวยสราง (กรณไมชดแจง)

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 15

คนขบรถN

คน ขบ รถN V N

VP

S

NP

คนขบรถN

บรรทกJV

NP

คน ขบN V

VP

S

NP

รถN

บรรทกV

NP

คน ขบN JV

JVP

NP

NP

รถN

บรรทกV

NP

1

2

คนขบรถบรรทกN× ×

(ไมรวมกนแนน)

(‘บรรทก’ ขยาย ‘คน’ ไมได)

¡ คำถาม 3: ทำไมประโยคถงไดขาดรงรงแบบน

§ สรรพนามและหนวยสรางวลบางชนดสามารถละได หากวาภายในกลมยงสามารถอนมานจากบรบทได

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 16

สมชายฝากปลาทองไวกบแมกอนไปทะเล เพราะ φ1 อยากพกผอนโดยไมตองหวง φ2

np\a1 np\a2a1 a2 a3

because he wants to relax without worrying about it .

¡ คำถาม 4: จะตความรปแทนความหมายอยางไร

§ เราสามารถถอดรปแทนความหมายระดบตนจากไวยากรณได โดยใช Categorial Grammar และ Lambda Calculus

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 17

คำศพท Categorial Grammar Lambda Calculus

แม, นอง, ผา :- np mom’, sister’, clothes’

วาน :- s\np1/(s\np2)/np2 λx2 λf λx1.ask’(x1, x2, f(x2))

เกบ :- s\np1/np2 λx2 λx1.collect’(x1, x2)

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 18

แม วาน นอง เกบ ผา

np : mom’

s\np1/(s\np2)/np2: λx2 λf λx1.ask’(x1, x2, f(x2))

np : sister’

s\np1/np2: λx2 λx1.collect’(x1,x2)

np : clothes’

s\np1/(s\np2) : λf λx1.ask’(x1, sister’, f(sister’))

s\np1: λx1.collect’(x1, clothes’)

s\np1: λx1.ask’(x1, sister’, collect’(sister’ , clothes’))

s: ask’(mom’, sister’, collect’(sister’, clothes’))

¡ คำถาม 4: จะตความรปแทนความหมายอยางไร (ตอ)

§ การใชความหมายแฝงทำใหเราไมสามารถระบนพจนสโกเลม

(Skolem’s term) และตวบงปรมาณ (quantifier) ลงใน รปแทนความหมายได

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 19

แม วาน นอง เกบ ผา : ask’(mom’, sister’, collect’(sister’, clothes’))

✍ ความกำกวม 1. ‘นอง’ ทวาหมายถงนองคนไหน: sister1’, sister2’, sister3’ … ฯลฯ

✍ ความกำกวม 2. ‘ผา’ ทวาหมายถงผาทกผนหรอผาบางผน: ∀x. หรอ ∃x. clothes’(x)

¡ คำถาม 5: อานมาตงนาน สาระสำคญอยทไหน

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 20

ระบบความคดแบบรวมศนยนยมใชความหมายแฝงทรกนเฉพาะกลม เนนขอแกตวและการขออภยทมารบกวน

ขออาง 1

ขออาง 2

ขออาง 3

ขออาง 4 ขออาง 5

ขออาง 6

ขออาง 7

ขออาง 8

ประเดน

ระบบความคดในสอสารมวลชนบางชนดอาจใชความหมายแฝงเพอหลกเลยงการอางอง

ไมจำเปนตองมประเดนทชดเจน

ขออาง 1

ขออาง 2

ขออาง 3

ขออาง 4 ขออาง 5

ขออาง 6

ขออาง 7

ขออาง 8

ประเดน

?

¡ คำถาม 6: ประโยคนหมายความวาอะไรกนแน

§ ความหมายของประโยคจะขนอยกบสถานการณดวย ซงตองใชความรทางโลก (world knowledge) และสามญสำนก

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 21

ตอนเชาๆ คณพอเพงตนนอนคณพอถามลกสาววา “กโมงแลว”

ลกสาวตอบวา “แปดโมงยสบคะ”

¡ คำถาม 6: ประโยคนหมายความวาอะไรกนแน

§ ความหมายของประโยคจะขนอยกบสถานการณดวย ซงตองใชความรทางโลก (world knowledge) และสามญสำนก

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 22

ณ เวลาตสองสสบหานาท ลกสาวเมากลบเขาบานคณพอถามลกสาววา “กโมงแลว”

ลกสาวตอบวา “ตสองกวาคะพอ”

¡ ภาษาไทยในปจจบนไดรบอทธพลจากอนเตอรเนตและสงคมออนไลน

§ มคำและความหมายเกดใหมตลอดเวลา ทงทเกดจากการเทยบเคยงจากสถานการณ การสะกดผดโดยรเทาไมถงการณ ความผดพรองในการพมพ และการพมพผดอยางจงใจ

§ มแหลงขอมลขนาดใหญซงสามารถคนคนได เชน Facebook,

Twitter, Instagram, หนงสอพมพ และสอออนไลนอนๆ

§ ไมมนคง มพลวตสงมาก เปลยนแปลงตามสถานการณไดอยางรวดเรว

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 23

¡ การศกษาแนวโนมการใชภาษาในสอออนไลน

§ ศกษาจากการระบหวเรองดวย hashtag เชน #รองไหหนกมาก

§ เครองมอทชวยศกษาภาษาไทยในสอออนไลน http://pop.ssense.in.th

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 24

¡ การวเคราะหความคดเหน (sentiment analysis)

§ เราสามารถวเคราะหขว (polarity) และอารมณ (emotion) ของความคดเหนไดโดยพจารณาจากการใชรปคำและบรบท

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 25

โทรศพท XXXXXXX เตมเปยมไปดวยความพรเมยมทยอดเยยมกวาเคย

ไมมการตดตอกลบมาใดๆ จนผมตองเปนฝายอเมลไปถามวาเรองถงไหนแลว

+ + +

- - - -

1

2

¡ การวเคราะหความคดเหน (sentiment analysis) (ตอ)

§ ความคดเหนแบบการประชด (sarcasm) มความหมายลกมขวตรงกนขามกบความหมายผว (ambivalence)

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 26

ราน XXXXX บรการสดประทบใจ ไปทานอาหารสองครง ออรเดอรหายทงสองครง+ -

แถมครงสดทายทไป เดกเสรฟยงคดคาอาหารผด ไปรวมออรเดอรทหายไวในบล- - -

¡ หวขอวจย§ ระดบคำ: การตดคำ การระบคำประสม การกำกบชนดของคำ

§ ระดบไวยากรณ: การระบกอนหนวยสราง การวเคราะหโครงสรางประโยค การแกปญหาการละในระดบไวยากรณ

§ ระดบความหมาย: การกำกบบทบาทความหมาย การถอดรปแทนความหมาย การตความนพจนสโกเลมและตวบงปรมาณ การตความคำเกดใหม

§ ระดบปรจเฉท: การวเคราะหโครงสรางเอกสาร การสรปเอกสารอตโนมต

§ ระดบวจนปฏบต: การแกปญหาความหมายแฝง การประมวลผลความรทางโลก (เทรนดปจจบนคอ ontology) การวเคราะหความคดเหนและการประชด

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 27

¡ ขอแนะนำ

§ ความรเบองตนสำหรบภาษาไทย: ไวยากรณไทย (นววรรณ พนธเมธา, พ.ศ. 2558 พมพครงท 7)

§ ฝกใช machine learning และเทคนคทเกยวของ

§ ความแมนยำของระบบขนอยกบการออกแบบ “บรบท” เพอแทนความหมายแฝง เชน คำกอนหนา (n-gram) คำแวดลอม (surrounding n-gram) โหนดแมในตนไมไวยากรณ ฯลฯ

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 28

¡ ภาษาไทยมความมหศจรรย 5 ระดบ ซงเปนผลมาจากกรอบความคดแบบรวมศนยและการใชความหมายแฝง

¡ การใชกฎผสมกบ machine learning และการออกแบบรปแทนบรบทจะชวยแกปญหาความหมายแฝงได

¡ กรณาปรกษาหวขอวจยกบอาจารยทปรกษาของทาน

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 29

30

ทมา: เพจมกหรอเปลอกหมอย

¡ ความรเบองตนสำหรบภาษาไทย

§ ไวยากรณไทย (นววรรณ พนธเมธา, พ.ศ. 2558 พมพครงท 7)

§ โครงสรางภาษาไทย: ระบบไวยากรณ (วจนตน ภาณพงศ, พ.ศ. 2520)

§ หลกภาษาไทย (กำชย ทองหลอ, 2515)

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 31

¡ Machine Learning

§ A First Course in Machine Learning (Simon Rogers and Mark Girolami, 2011) [เขาใจงาย]

§ Pattern Recognition and Machine Learning(Christopher Bishop, 2007) [ยากระดบกลาง]

§ Information Theory, Inference, and Learning Algorithms (David MacKay, 2003) [ยากและละเอยด]

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 32

¡ Natural Language Processing

§ Speech and Language Processing (Daniel Jurafskyand James M. Martin, 2008) [งาย]

§ Foundations of Statistical Natural Language Processing (Manning, Prabhakar, and Schütze, 2008) [ยากระดบกลาง]

§ Natural Language Processing with Python (Bird, Klein, and Loper, 2009) [งาย, สอนใช NLTK ดวย]

28 พฤษภาคม 2559 มหศจรรยแหงภาษาไทยและการประมวลผลภาษาธรรมชาต (ปรชญา บญขวญ) 33