regular expression and finite-state automata•let’s start with the sheep language o/baa+!/ aj....
TRANSCRIPT
-
DR. JIRABHORN CHAIWONGSAIดร.จิราพร ไชยวงศสาย
D E PA R T M E N T O F C O M P U T E R E N G I N E E R I N GS C H O O L O F I N F O R M AT I O N A N D C O M M U N I C AT I O N T E C H N O LO G Y
University of Phayao
Regular Expression and Finite-state Automata
1AJ. JIRABHORN CHAIWONGSAI
-
NLP TASK Lexical and Morphological Analysis (การวเิคราะหร์ะดบัพยางคแ์ละคาํ)
POS Tagging (การระบุหน้าที�ของคาํในประโยค)
Word Sense Disambiguation (การระบุความหมายของคาํตามการใชง้าน)
Named Entities Recognition (NER) (การระบุคาํที�เป็นนิพจน์ระบุนาม)
NP & VP Chunking and Shallow Parsing (การสกดันามวลีและกริยาวลี )
Syntactic Analysis and Deep Parsing (การวเิคราะหไ์วยากรณร์ะดบัประโยค)
Sentiment Analysis (การวเิคราะหค์วามคิดเห็นและอารมณข์องขอ้ความ)
Reference Resolution(การวเิคราะหส์รรพนามอา้งอิง)
Discourse Analysis (การวเิคราะหร์ะดบับทความและบทสนทนา)
2ที�มา: ดร. ชชูาติ หฤไชยะศกัดิ�, หน่วยปฎิบติัการวจิยัวทิยาการมนุษยภาษา, NECTEC
-
การตดัคาํสาํหรบัขอ้ความภาษาไทย(THAI WORD SEGMENTATION) การตดัคาํเป็นพื� นฐานที�สาํคญัอยา่งยิ�งในการวเิคราะหแ์ละประมวลผลภาษา
รวมทั�งการพฒันาระบบที�เกี�ยวขอ้งต่างๆ เช่น
• การกาํหนดหนา้ที�ของคาํ (Part-Of-Speech Tagging)
• การแปลภาษาโดยเครื�อง (Machine Translation)
• การจดจาํและสงัเคราะหเ์สียงพดู (Speech Recognition/Synthesis)
• การคน้คืนสารสนเทศและเสิรช์เอ็นจิน (Information Retrieval & Search Engine)
• การกรองสารสนเทศ (Information Filtering)
• การทาํเหมืองขอ้ความ (Text Mining)
• การสรา้งฐานความรูแ้ละโครงสรา้งความรูเ้ชิงความหมาย (Knowledge Base and Ontology)
AJ. JIRABHORN CHAIWONGSAI 3
-
คุณลกัษณะของภาษาไทย ในการประมวลผลภาษาธรรมชาติ ภาษาไทยถกูจดัอยูใ่นประเภทของภาษาที�ไมต่ดัคาํ (Unsegmentedlanguage)
• ไมมี่การใชต้วัอกัขระใดๆในการบ่งบอกขอบเขตของคาํอยา่งชดัเจน
• ตอ้งอาศยัเทคนิคการตดัคาํในการบอกขอบเขตของคาํ ซึ�งมีขอ้จาํกดัคือo ขึ� นอยูก่บัภาษานั�นๆ: พจนานุกรมและกฎไวยากรณข์องภาษาo ยงัไมม่ีเทคนิคที�ใหค้วามถกูตอ้งได ้100% ซึ�งเกิดจาก 2 ปัญหาหลกัคือ คาํไม่
รูจ้กัและ คาํกาํกวม
AJ. JIRABHORN CHAIWONGSAI 4
-
ปัญหาและอุปสรรคในการตดัคาํ ปัญหาที�อาจจะเกิดขึ� นไดใ้นระหวา่งการตดัคาํ คือ
• ความกาํกวม (Ambiguity)o Context-dependent: มากวา่, ปีกวา่, ตากลม
o Context-independent: มากลั �น, การสอบ
• คาํไมรู่จ้กั (Unknown words)o Explicit: โลตสั, ไมโครซอฟท ์, ฮอนดา้, เชสเตอร ์
o Hidden: สมชาย, การบินไทย, แมส่าย
o Mixed: สึนามิ , นาซ่า, ดีแทค
AJ. JIRABHORN CHAIWONGSAI 5
-
ตวัอย่างการตดัคาํ
• กรุณาอยา่นําอาหารจากขา้งนอกมารบัประทานo กรุ|ณา|อยา่|นํา|อา|หาร|จาก|ขา้|งน|อก|มา|รบั|ประ|ทาน|
o กรุณา | อยา่ | นํา | อาหาร | จาก | ขา้งนอก | มา | รบัประทาน | o Please | don’t | bring| food | from | outside | to |eat |
• โปรแกรมตดัคาํสาํหรบัขอ้ความภาษาไทย
http://www.sansarn.com/lexto/
http://www.sansarn.com/tlex/
AJ. JIRABHORN CHAIWONGSAI 6
-
ตวัอย่างการตดัคาํ
• กพท. เปิดเผยวา่ ไดต้รวจสอบสถานะทางการเงินของผูป้ระกอบธุรกิจการบินในไทย รวม 50 บริษัท พบวา่มีผูป้ระกอบการสายการบินจาํนวน 4 ราย ที�ใหบ้ริการแบบเช่าเหมาลาํ ประสบปัญหาสภาพคล่อง
• โปรแกรมตดัคาํสาํหรบัขอ้ความภาษาไทย
AJ. JIRABHORN CHAIWONGSAI 7
http://www.sansarn.com/lexto/
http://www.sansarn.com/tlex/
-
โปรแกรมตัดคาํสาํหรับขอ้ความภาษาไทย (1)
ตวัอยา่งที�1
“วนันี� (3 กุมภาพนัธ ์2558) นายบรูณิน รตันสมบติั ผูช้่วยกรรมการผูจ้ดัการใหญ่การตลาดขายปลีก บมจ.ปตท. เปิดเผยวา่ ปตท. กาํลงัพิจารณาจะขยบัขึ� นราคาขายปลีกนํ�ามนักลุ่มเบนซินใน 1-2 วนันี� เป็นการขยบัขึ� นราคานํ�ามนัครั�งแรกในรอบหลายเดือน หลงัค่าการตลาดนํ�ามนักลุ่มเบนซินตํ �าอยูใ่กลเ้คียง 1 บาท/ลิตร”
ตวัอยา่งที�2
“เมื�อวนัที� 29 มกราคม 2558 ที�ผ่านมา Alexander Amosu บริษัทผูผ้ลิตสินคา้พรีเมียมหรหูรา เปิดตวั iPhone 6 รุ่นพิเศษ Limited Edition มาพรอ้มสีชมพหูวานแหวว ตอ้นรบัวนัวาเลนไทน์ 14 กุมภาพนัธ์ที�กาํลงัจะถึง สาํหรบั iPhone 6 รุ่นนี� ถกูผลิตออกมาเนื�องในโอกาสพิเศษเพียง 10 เครื�องเท่านั�น แถมมีราคาสุดแพงขายอยูที่� 1,899 ปอนด ์หรือประมาณกวา่ 92,000 บาท”
AJ. JIRABHORN CHAIWONGSAI 8
-
โปรแกรมตัดคาํสาํหรับขอ้ความภาษาไทย (2)
• โปรแกรม LEXTO
• โปรแกรม TLEXS
AJ. JIRABHORN CHAIWONGSAI 9
-
โปรแกรมตัดคาํสาํหรับขอ้ความภาษาไทย (3)
• โปรแกรม LEXTO
• โปรแกรม TLEXS
AJ. JIRABHORN CHAIWONGSAI 10
-
โปรแกรมตัดคาํสาํหรับขอ้ความภาษาไทย (4)
ตวัอยา่งที�3
“Manchester United boss Louis van Gaal:
"Cambridge have played very well, a very organised team and with the mentality that was superb. The fans were fantastic from Cambridge United."”
AJ. JIRABHORN CHAIWONGSAI 11
-
โปรแกรมตัดคาํสาํหรับขอ้ความภาษาไทย (5)
ตวัอยา่งที�3
“Manchester United boss Louis van Gaal:
"Cambridge have played very well, a very organised team and with the mentality that was superb. The fans were fantastic from Cambridge United."”
AJ. JIRABHORN CHAIWONGSAI 12
-
เทคนิคที�ประยุกตใ์ชส้ามารถแบ่งออกเป็น 3 วิธีหลัก
• การใชก้ฎไวยากรณท์างภาษา (Rule-based)
• การอา้งอิงคาํจากพจนานุกรม (Dictionary-based)
• การสรา้งโมเดลเรียนรูจ้ากฐานขอ้ความขนาดใหญ่ (Machine Learning or Corpus based)
AJ. JIRABHORN CHAIWONGSAI 13
-
AJ. JIRABHORN CHAIWONGSAI 14
-
WORD SEGMENTATION EXAMPLE
Dictionary : กรรม, การ, ตดั, บอล, สิน, ใจ, กรรมการ, ตดัสิน, ฟุตบอล
Input: กรรมการตดัสินฟุตบอล
Output:
AJ. JIRABHORN CHAIWONGSAI 15
-
FINITE-STATE AUTOMATA (FSA)
• Let’s start with the sheep languageo /baa+!/
AJ. JIRABHORN CHAIWONGSAI 16
-
2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 17
SHEEP LANGUAGE FSA
We can say the following things about this machine
It has 5 states
b, a, and ! are in its alphabet
q0 is the start state
q4 is an accept state
It has 5 transitions
-
2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 18
STATE TRANSITION TABLEThe guts of FSAs can ultimately be represented as tables
b a ! e
0 1
1 2
2 2,3
3 4
4
If you’re in state 1 and you’re looking at an a, go to state 2
-
2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 19
EXAMPLE
b a a a ! \
q0 q1 q2 q2 q3 q4
-
2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 20
EXAMPLE
-
2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 21
-
2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 22
-
2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 23
-
2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 24
-
2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 25
-
2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 26
-
2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 27
-
HOMEWORK
AJ. JIRABHORN CHAIWONGSAI 28