regular expression and finite-state automata•let’s start with the sheep language o/baa+!/ aj....

28
DR. JIRABHORN CHAIWONGSAI ดร.จิราพร ไชยวงศสาย DEPARTMENT OF COMPUTER ENGINEERING SCHOOL OF INFORMATION AND COMMUNICATION TECHNOLOGY University of Phayao Regular Expression and Finite-state Automata 1 AJ. JIRABHORN CHAIWONGSAI

Upload: others

Post on 06-Feb-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

  • DR. JIRABHORN CHAIWONGSAIดร.จิราพร ไชยวงศสาย

    D E PA R T M E N T O F C O M P U T E R E N G I N E E R I N GS C H O O L O F I N F O R M AT I O N A N D C O M M U N I C AT I O N T E C H N O LO G Y

    University of Phayao

    Regular Expression and Finite-state Automata

    1AJ. JIRABHORN CHAIWONGSAI

  • NLP TASK Lexical and Morphological Analysis (การวเิคราะหร์ะดบัพยางคแ์ละคาํ)

    POS Tagging (การระบุหน้าที�ของคาํในประโยค)

    Word Sense Disambiguation (การระบุความหมายของคาํตามการใชง้าน)

    Named Entities Recognition (NER) (การระบุคาํที�เป็นนิพจน์ระบุนาม)

    NP & VP Chunking and Shallow Parsing (การสกดันามวลีและกริยาวลี )

    Syntactic Analysis and Deep Parsing (การวเิคราะหไ์วยากรณร์ะดบัประโยค)

    Sentiment Analysis (การวเิคราะหค์วามคิดเห็นและอารมณข์องขอ้ความ)

    Reference Resolution(การวเิคราะหส์รรพนามอา้งอิง)

    Discourse Analysis (การวเิคราะหร์ะดบับทความและบทสนทนา)

    2ที�มา: ดร. ชชูาติ หฤไชยะศกัดิ�, หน่วยปฎิบติัการวจิยัวทิยาการมนุษยภาษา, NECTEC

  • การตดัคาํสาํหรบัขอ้ความภาษาไทย(THAI WORD SEGMENTATION) การตดัคาํเป็นพื� นฐานที�สาํคญัอยา่งยิ�งในการวเิคราะหแ์ละประมวลผลภาษา

    รวมทั�งการพฒันาระบบที�เกี�ยวขอ้งต่างๆ เช่น

    • การกาํหนดหนา้ที�ของคาํ (Part-Of-Speech Tagging)

    • การแปลภาษาโดยเครื�อง (Machine Translation)

    • การจดจาํและสงัเคราะหเ์สียงพดู (Speech Recognition/Synthesis)

    • การคน้คืนสารสนเทศและเสิรช์เอ็นจิน (Information Retrieval & Search Engine)

    • การกรองสารสนเทศ (Information Filtering)

    • การทาํเหมืองขอ้ความ (Text Mining)

    • การสรา้งฐานความรูแ้ละโครงสรา้งความรูเ้ชิงความหมาย (Knowledge Base and Ontology)

    AJ. JIRABHORN CHAIWONGSAI 3

  • คุณลกัษณะของภาษาไทย ในการประมวลผลภาษาธรรมชาติ ภาษาไทยถกูจดัอยูใ่นประเภทของภาษาที�ไมต่ดัคาํ (Unsegmentedlanguage)

    • ไมมี่การใชต้วัอกัขระใดๆในการบ่งบอกขอบเขตของคาํอยา่งชดัเจน

    • ตอ้งอาศยัเทคนิคการตดัคาํในการบอกขอบเขตของคาํ ซึ�งมีขอ้จาํกดัคือo ขึ� นอยูก่บัภาษานั�นๆ: พจนานุกรมและกฎไวยากรณข์องภาษาo ยงัไมม่ีเทคนิคที�ใหค้วามถกูตอ้งได ้100% ซึ�งเกิดจาก 2 ปัญหาหลกัคือ คาํไม่

    รูจ้กัและ คาํกาํกวม

    AJ. JIRABHORN CHAIWONGSAI 4

  • ปัญหาและอุปสรรคในการตดัคาํ ปัญหาที�อาจจะเกิดขึ� นไดใ้นระหวา่งการตดัคาํ คือ

    • ความกาํกวม (Ambiguity)o Context-dependent: มากวา่, ปีกวา่, ตากลม

    o Context-independent: มากลั �น, การสอบ

    • คาํไมรู่จ้กั (Unknown words)o Explicit: โลตสั, ไมโครซอฟท ์, ฮอนดา้, เชสเตอร ์

    o Hidden: สมชาย, การบินไทย, แมส่าย

    o Mixed: สึนามิ , นาซ่า, ดีแทค

    AJ. JIRABHORN CHAIWONGSAI 5

  • ตวัอย่างการตดัคาํ

    • กรุณาอยา่นําอาหารจากขา้งนอกมารบัประทานo กรุ|ณา|อยา่|นํา|อา|หาร|จาก|ขา้|งน|อก|มา|รบั|ประ|ทาน|

    o กรุณา | อยา่ | นํา | อาหาร | จาก | ขา้งนอก | มา | รบัประทาน | o Please | don’t | bring| food | from | outside | to |eat |

    • โปรแกรมตดัคาํสาํหรบัขอ้ความภาษาไทย

    http://www.sansarn.com/lexto/

    http://www.sansarn.com/tlex/

    AJ. JIRABHORN CHAIWONGSAI 6

  • ตวัอย่างการตดัคาํ

    • กพท. เปิดเผยวา่ ไดต้รวจสอบสถานะทางการเงินของผูป้ระกอบธุรกิจการบินในไทย รวม 50 บริษัท พบวา่มีผูป้ระกอบการสายการบินจาํนวน 4 ราย ที�ใหบ้ริการแบบเช่าเหมาลาํ ประสบปัญหาสภาพคล่อง

    • โปรแกรมตดัคาํสาํหรบัขอ้ความภาษาไทย

    AJ. JIRABHORN CHAIWONGSAI 7

    http://www.sansarn.com/lexto/

    http://www.sansarn.com/tlex/

  • โปรแกรมตัดคาํสาํหรับขอ้ความภาษาไทย (1)

    ตวัอยา่งที�1

    “วนันี� (3 กุมภาพนัธ ์2558) นายบรูณิน รตันสมบติั ผูช้่วยกรรมการผูจ้ดัการใหญ่การตลาดขายปลีก บมจ.ปตท. เปิดเผยวา่ ปตท. กาํลงัพิจารณาจะขยบัขึ� นราคาขายปลีกนํ�ามนักลุ่มเบนซินใน 1-2 วนันี� เป็นการขยบัขึ� นราคานํ�ามนัครั�งแรกในรอบหลายเดือน หลงัค่าการตลาดนํ�ามนักลุ่มเบนซินตํ �าอยูใ่กลเ้คียง 1 บาท/ลิตร”

    ตวัอยา่งที�2

    “เมื�อวนัที� 29 มกราคม 2558 ที�ผ่านมา Alexander Amosu บริษัทผูผ้ลิตสินคา้พรีเมียมหรหูรา เปิดตวั iPhone 6 รุ่นพิเศษ Limited Edition มาพรอ้มสีชมพหูวานแหวว ตอ้นรบัวนัวาเลนไทน์ 14 กุมภาพนัธ์ที�กาํลงัจะถึง สาํหรบั iPhone 6 รุ่นนี� ถกูผลิตออกมาเนื�องในโอกาสพิเศษเพียง 10 เครื�องเท่านั�น แถมมีราคาสุดแพงขายอยูที่� 1,899 ปอนด ์หรือประมาณกวา่ 92,000 บาท”

    AJ. JIRABHORN CHAIWONGSAI 8

  • โปรแกรมตัดคาํสาํหรับขอ้ความภาษาไทย (2)

    • โปรแกรม LEXTO

    • โปรแกรม TLEXS

    AJ. JIRABHORN CHAIWONGSAI 9

  • โปรแกรมตัดคาํสาํหรับขอ้ความภาษาไทย (3)

    • โปรแกรม LEXTO

    • โปรแกรม TLEXS

    AJ. JIRABHORN CHAIWONGSAI 10

  • โปรแกรมตัดคาํสาํหรับขอ้ความภาษาไทย (4)

    ตวัอยา่งที�3

    “Manchester United boss Louis van Gaal:

    "Cambridge have played very well, a very organised team and with the mentality that was superb. The fans were fantastic from Cambridge United."”

    AJ. JIRABHORN CHAIWONGSAI 11

  • โปรแกรมตัดคาํสาํหรับขอ้ความภาษาไทย (5)

    ตวัอยา่งที�3

    “Manchester United boss Louis van Gaal:

    "Cambridge have played very well, a very organised team and with the mentality that was superb. The fans were fantastic from Cambridge United."”

    AJ. JIRABHORN CHAIWONGSAI 12

  • เทคนิคที�ประยุกตใ์ชส้ามารถแบ่งออกเป็น 3 วิธีหลัก

    • การใชก้ฎไวยากรณท์างภาษา (Rule-based)

    • การอา้งอิงคาํจากพจนานุกรม (Dictionary-based)

    • การสรา้งโมเดลเรียนรูจ้ากฐานขอ้ความขนาดใหญ่ (Machine Learning or Corpus based)

    AJ. JIRABHORN CHAIWONGSAI 13

  • AJ. JIRABHORN CHAIWONGSAI 14

  • WORD SEGMENTATION EXAMPLE

    Dictionary : กรรม, การ, ตดั, บอล, สิน, ใจ, กรรมการ, ตดัสิน, ฟุตบอล

    Input: กรรมการตดัสินฟุตบอล

    Output:

    AJ. JIRABHORN CHAIWONGSAI 15

  • FINITE-STATE AUTOMATA (FSA)

    • Let’s start with the sheep languageo /baa+!/

    AJ. JIRABHORN CHAIWONGSAI 16

  • 2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 17

    SHEEP LANGUAGE FSA

    We can say the following things about this machine

    It has 5 states

    b, a, and ! are in its alphabet

    q0 is the start state

    q4 is an accept state

    It has 5 transitions

  • 2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 18

    STATE TRANSITION TABLEThe guts of FSAs can ultimately be represented as tables

    b a ! e

    0 1

    1 2

    2 2,3

    3 4

    4

    If you’re in state 1 and you’re looking at an a, go to state 2

  • 2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 19

    EXAMPLE

    b a a a ! \

    q0 q1 q2 q2 q3 q4

  • 2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 20

    EXAMPLE

  • 2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 21

  • 2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 22

  • 2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 23

  • 2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 24

  • 2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 25

  • 2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 26

  • 2/23/2016 SPEECH AND LANGUAGE PROCESSING - JURAFSKY AND MARTIN 27

  • HOMEWORK

    AJ. JIRABHORN CHAIWONGSAI 28