nghiên cứu gán nhãn từ loại cho văn bản...

13
Nghiên cứu gán nhãn từ loại cho văn bản tiếng Vit bằng phương pháp học máy không có hướng dn Trn Thu Trang Trường Đại hc Khoa hc Tnhiên Luận văn ThS. ngành: Bảo đảm toán học cho máy tính và hệ thống tính toán Mã số: 60 46 35 Người hướng dn: TS. Nguyn ThMinh Huyn Năm bảo v: 2012 Abstract. Trình bày tổng quan vbài toán gán nhãn từ loại, các tiếp cận để gii quyết bài toán gán nhãn từ loại, so sánh các tiếp cận, trình bày hiện trạng cùng các phương pháp đã được dùng để gii quyết bài toán gán nhãn từ loi cho tiếng Vit, khó khăn chưa khắc phục được. Trình bày các kiến thc toán học, các mô hình học máy được sdng trong luận văn. Trình bày một sphương pháp học máy không có hướng dẫn cho bài toán gán nhãn từ loại, để tđó có thể xây dựng một quy trình giải quyết bài toán gán nhãn từ loi tiếng Việt theo cách tiếp cận này. Keywords. Toán tin; Gán nhãn từ loi; Văn bản tiếng Vit; Máy tính Content MĐẦU Một trong các vấn đề nn tng của ngôn ngữ tnhiên là việc phân loại các từ thành các lp tloi da theo thc tin hoạt động ngôn ng. Mi tloại tương ứng vi mt lp tgimột vai trò ngữ pháp nhất định. Nói chung, mỗi ttrong một ngôn ngữ có thể gn vi nhiu tloại, và việc tđộng “hiểu” đúng nghĩa một tphthuộc vào việc nó được xác định đúng tloại hay không. Công việc gán nhãn từ loi cho một văn bản là xác định tloi ca mi ttrong phạm vi văn bản đó. Các công cụ gán nhãn (hay chú thích) từ loại cho các từ trong mt văn bản có thể thay đổi tutheo quan nim vđơn vị tvựng và thông tin ngôn ngữ cn khai thác trong các ứng dng cth. Xác định tloại chính xác cho các từ trong văn bản là vấn đề rt quan trọng trong lĩnh vc xlý ngôn ngữ tnhiên. Công cụ gán nhãn từ loại có thể được ng dng rộng rãi trong

Upload: tranthuy

Post on 12-Mar-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Nghiên cứu gán nhãn từ loại cho văn bản tiếngrepository.vnu.edu.vn/bitstream/VNU_123/8188/1/01050000498.pdfquyết bài toán gán nhãn từ loại tiếng Việt theo

Nghiên cứu gán nhãn từ loại cho văn bản tiếng

Việt bằng phương pháp học máy không có

hướng dẫn

Trần Thu Trang

Trường Đại học Khoa học Tự nhiên

Luận văn ThS. ngành: Bảo đảm toán học cho máy tính và hệ thống tính toán

Mã số: 60 46 35

Người hướng dẫn: TS. Nguyễn Thị Minh Huyền

Năm bảo vệ: 2012

Abstract. Trình bày tổng quan về bài toán gán nhãn từ loại, các tiếp cận để giải

quyết bài toán gán nhãn từ loại, so sánh các tiếp cận, trình bày hiện trạng cùng các

phương pháp đã được dùng để giải quyết bài toán gán nhãn từ loại cho tiếng Việt,

khó khăn chưa khắc phục được. Trình bày các kiến thức toán học, các mô hình học

máy được sử dụng trong luận văn. Trình bày một số phương pháp học máy không có

hướng dẫn cho bài toán gán nhãn từ loại, để từ đó có thể xây dựng một quy trình giải

quyết bài toán gán nhãn từ loại tiếng Việt theo cách tiếp cận này.

Keywords. Toán tin; Gán nhãn từ loại; Văn bản tiếng Việt; Máy tính

Content

MỞ ĐẦU

Một trong các vấn đề nền tảng của ngôn ngữ tự nhiên là việc phân loại các từ thành các

lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ. Mỗi từ loại tương ứng với một lớp từ giữ

một vai trò ngữ pháp nhất định. Nói chung, mỗi từ trong một ngôn ngữ có thể gắn với nhiều

từ loại, và việc tự động “hiểu” đúng nghĩa một từ phụ thuộc vào việc nó được xác định đúng

từ loại hay không. Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ

trong phạm vi văn bản đó. Các công cụ gán nhãn (hay chú thích) từ loại cho các từ trong một

văn bản có thể thay đổi tuỳ theo quan niệm về đơn vị từ vựng và thông tin ngôn ngữ cần khai

thác trong các ứng dụng cụ thể.

Xác định từ loại chính xác cho các từ trong văn bản là vấn đề rất quan trọng trong lĩnh

vực xử lý ngôn ngữ tự nhiên. Công cụ gán nhãn từ loại có thể được ứng dụng rộng rãi trong

Page 2: Nghiên cứu gán nhãn từ loại cho văn bản tiếngrepository.vnu.edu.vn/bitstream/VNU_123/8188/1/01050000498.pdfquyết bài toán gán nhãn từ loại tiếng Việt theo

các hệ thống tìm kiếm thông tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận

dạng tiếng nói cũng như trong các hệ thống dịch máy. Công cụ này cũng hỗ trợ cho việc phân

tích cú pháp các văn bản, góp phần giải quyết tính đa nghĩa của từ, và trợ giúp các hệ hống

rút trích thông tin hướng đến ngữ nghĩa, v.v…

Vấn đề gán nhãn từ loại của nhiều ngôn ngữ đã được giải quyết tốt bằng phương pháp

học máy có hướng dẫn, nghĩa là phải xây dựng một kho ngữ liệu huấn luyện lớn và/hoặc xây

dựng tập luật để nhận diện từ loại. Hiện nay, bài toán gán nhãn từ loại tiếng Việt cũng đã

được một số nhóm nghiên cứu và giải giải quyết cũng chủ yếu bằng phương pháp học máy có

hướng dẫn, nhưng việc xây dựng tập huấn luyện còn gặp nhiều khó khăn vì bản thân các nhà

ngôn ngữ học vẫn còn chưa thống nhất về tập từ loại tiếng Việt nên các nhóm tự định nghĩa

tập nhãn khác nhau, và các nhóm cũng tự xây dựng kho dữ liệu đã gán nhãn và xây dựng tập

luật khác nhau. Công việc này mất rất nhiều thời gian, tiền của và công sức của các nhà

nghiên cứu. Một cách tiếp cận khác cho bài toán gán nhãn từ loại là sử dụng phương pháp

học máy không có hướng dẫn để một mặt giải quyết vấn đề xác định bộ nhãn từ loại, mặt

khác tiết kiệm công sức xây dựng tập huấn luyện. Đề tài này nghiên cứu một số phương pháp

gán nhãn từ loại không có hướng dẫn, trên cơ sở đó đưa ra một quy trình giải quyết bài toán

gán nhãn từ loại tiếng Việt bằng cách tiếp cận này.

Cấu trúc luận văn

Cấu trúc luận văn chia làm 3 chương:

Chƣơng I: Tổng quan

Trong chương này sẽ trình bày tổng quan về bài toán gán nhãn từ loại, các tiếp cận để

giải quyết bài toán gán nhãn từ loại, so sánh các tiếp cận. Chương này cũng trình bày hiện

trạng cùng các phương pháp đã được dùng để giải quyết bài toán gán nhãn từ loại cho tiếng

Việt, khó khăn chưa khắc phục được.

Chƣơng II: Cơ sở toán học

Chương này sẽ trình bày các kiến thức toán học, các mô hình học máy được sử dụng

trong luận văn.

Chƣơng III: Cách tiếp cận không có hƣớng dẫn cho bài toán gán nhãn từ loại

Chương này sẽ trình bày một số phương pháp học máy không có hướng dẫn cho bài

toán gán nhãn từ loại, để từ đó có thể xây dựng một quy trình giải quyết bài toán gán nhãn từ

loại tiếng Việt theo cách tiếp cận này.

Page 3: Nghiên cứu gán nhãn từ loại cho văn bản tiếngrepository.vnu.edu.vn/bitstream/VNU_123/8188/1/01050000498.pdfquyết bài toán gán nhãn từ loại tiếng Việt theo

Chƣơng 1 - TỔNG QUAN

1.1 Bài toán gán nhãn từ loại

Gán nhãn từ loại là việc xác định các chức năng ngữ pháp của từ trong câu hay là quá

trình gán từng từ trong đoạn văn bản với các đánh dấu từ loại hoặc cấu trúc ngữ pháp. Đây là

bước cơ bản trước khi phân tích cú pháp hay các vấn đề xử lý ngôn ngữ phức tạp khác.

Thông thường, một từ có thể có nhiều chức năng ngữ pháp, ví dụ: trong câu “con ngựa đá đá

con ngựa đá”, cùng một từ “đá” nhưng từ thứ nhất và thứ ba giữ chức năng ngữ pháp là danh

từ, nhưng từ thứ hai lại là động từ trong câu.

1.2 Tổng quan về cách tiếp cận giải bài toán

1.2.1 Quá trình gán nhãn từ loại

Gán nhãn từ loại là một quá trình gồm 3 bước xử lý:

Bước 1 (tiền xử lí): Phân tách xâu kí tự thành chuỗi các từ

Bước 2: Gán nhãn tiên nghiệm, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại

mà nó có thể có.

Bước 3: Quyết định kết quả gán nhãn

1.2.2 Ngữ liệu

Để thực hiện gán nhãn từ loại ta phải có kho ngữ liệu[2], chúng có thể là:

- Từ điển và các văn phạm loại bỏ nhập nhằng.

- Kho văn bản đã gán nhãn, có thể kèm theo các quy tắc ngữ pháp xây dựng bằng

tay.

- Kho văn bản chưa gán nhãn, có kèm theo các thông tin ngôn ngữ như là tập từ loại

và các thông tin mô tả quan hệ giữa từ loại và hậu tố.

Kho văn bản chưa gán nhãn, với tập từ loại cũng được xây dựng tự động nhờ các tính toán

thống kê

1.2.3 Các tiếp cận giải bài toán

Chúng ta có hai tiếp cận chính cho gán nhãn từ loại tự động:[19]

- Tiếp cận có hướng dẫn.

- Tiếp cận không hướng dẫn.

Bộ gán nhãn có hướng dẫn có đặc thù là dựa trên kho ngữ liệu đã được gán nhãn cho

việc tạo ra các công cụ được sử dụng cho quá trình gán nhãn. Ví dụ như là Từ điển bộ gán

nhãn, các tần suất từ/nhãn, các xác suất chuỗi nhãn, tập các luật.

Các mô hình không hướng dẫn không yêu cầu kho ngữ liệu đã gán nhãn nhưng lại sử dụng

các thuật toán tính toán phức tạp để tự động xây dựng các nhóm từ (nghĩa là xây dựng các tập

Page 4: Nghiên cứu gán nhãn từ loại cho văn bản tiếngrepository.vnu.edu.vn/bitstream/VNU_123/8188/1/01050000498.pdfquyết bài toán gán nhãn từ loại tiếng Việt theo

nhãn) và dựa trên các nhóm từ này để tính toán các thông tin xác suất cần thiết cho các bộ

gán nhãn thống kê hoặc để xây dựng các luật ngữ cảnh cần thiết cho các hệ thống dựa trên

luật.

1.2.5 Gán nhãn dựa trên luật

Gán nhãn dựa trên luật sử dụng từ điển để tìm các từ loại có thể cho các từ, sử dụng các luật

làm thành một nghĩa

Các tiếp cận gán nhãn dựa trên luật sử dụng thông tin ngữ cảnh để gán các nhãn cho các từ

chưa biết hoặc các từ nhập nhằng

1.2.6 Gán nhãn thống kê

Bộ gán nhãn thống kê đơn giản nhất giải quyết nhập nhằng các từ chỉ đặt cơ sở vào xác

suất mà một từ xuất hiện với một nhãn đặc biệt. Nói cách khác, nhãn được gặp thường xuyên

nhất trong tập huấn luyện là nhãn được gán cho một thể hiện không rõ ràng của từ đó. Vấn đề

với tiếp cận này là trong khi nó có thể mang lại một nhãn hợp lệ cho một từ đưa ra, lại cũng

có thể mang lại chuỗi không hợp lệ các nhãn.

1.2.7 Các từ chƣa biết

Có vài giải pháp tiềm năng cho vấn đề này: Một trong những giải pháp sử dụng thông tin

hình thái. Trong trường hợp này, bộ gán nhãn tính toán xác suất mà một hậu tố trên một từ

chưa biết xuất hiện với một nhãn đặc biệt. Nếu một mô hình Markov ẩn đang được sử dụng,

xác suất mà một từ chứa đựng hậu tố mà xuất hiện với một nhãn đặc biệt trong chuỗi đã cho

được tính toán. Một giải pháp khác là gán một tập các nhãn mặc định (các lớp mở đặc đặc

biệt: Danh từ, tính từ, trạng từ, động từ..) cho các từ chưa biết và để giải quyết nhập nhằng sử

dụng các xác suất mà các nhãn đó xuất hiện tại cuối n-gram trong câu hỏi.

1.3 Bài toán gán nhãn từ loại tiếng Việt

Qua khảo sát các nghiên cứu gần đây của tiếng Việt cho bài toán gán nhãn từ loại, có

thể thấy có hai dạng tập nhãn từ loại thường được sử dụng cho các công cụ gán nhãn từ loại

tiếng Việt:

Dạng thứ nhất, xuất phát từ tập gồm 8 nhãn từ loại tiếng Việt thông dụng được các

nhà nghiên cứu ngôn ngữ học công nhận nhiều nhất (bao gồm: danh từ, động từ,

tính từ, đại từ, phụ từ, kết từ, trợ từ, cảm từ) để xây dựng tập nhãn “mịn” hơn bằng

cách phân nhỏ mỗi từ loại trên thành các tiểu từ loại

Dạng thứ hai, tập nhãn tiếng Việt được xây dựng thông qua việc xây dựng kho

ngữ liệu song ngữ Anh-Việt mà trong đó các câu tiếng Việt đã được gán nhãn từ

Page 5: Nghiên cứu gán nhãn từ loại cho văn bản tiếngrepository.vnu.edu.vn/bitstream/VNU_123/8188/1/01050000498.pdfquyết bài toán gán nhãn từ loại tiếng Việt theo

loại chính xác nhờ kết quả liên kết từ Anh-Việt và phép chiếu từ loại từ Anh sang

Việt.

Như vậy, có thể thấy rằng bài toán gán nhãn từ loại cho tiếng Việt đang ngày càng

được quan tâm nghiên cứu. Tuy nhiên đây vẫn là hướng nghiên cứu đầy tiềm năng và cũng

đầy thử thách, cùng với đó là việc các nghiên cứu đã có hầu hết vẫn còn mang tính cá thể,

chưa có được sự đối chiếu so sánh khách quan, và sự thống nhất về bộ nhãn giữa các nhà

ngôn ngữ, đồng thời cũng chưa xây dựng được bộ nhãn đủ lớn để bài toán gán nhãn tiếng

Việt có thể đạt độ chính xác rất cao

Chƣơng 2 - CƠ SỞ TOÁN HỌC

2.1 Định lý Bayes

Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự

kiện liên quan B đã xảy ra. Xác suất này được ký hiệu là P(A|B), và đọc là "xác suất của A

nếu có B". Đại lượng này được gọi xác suất có điều kiện hay xác suất hậu nghiệm vì nó được

rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị đó

2.2 Thuật toán cực đại hóa kỳ vọng (EM)

Thuật toán EM (Expectation Maximization) nhằm tìm ra sự ước lượng về khả năng

lớn nhất của các tham số trong mô hình xác suất (các mô hình phụ thuộc vào các biến ẩn

chưa được quan sát), nó được xem như thuật toán dựa trên mô hình.

2.3 Mô hình Markov ẩn

Mô hình Markov ẩn (tiếng Anh là Hidden Markov Model - HMM) là mô hình thống kê trong

đó hệ thống được mô hình hóa được cho là một quá trình Markov với các tham số không biết

trước và nhiệm vụ là xác định các tham số ẩn từ các tham số quan sát được, dựa trên sự thừa

nhận này

2.3.1 Ba bài toán cơ bản của HMM

2.3.1.1 Bài toán 1

Cung cấp cho mô hình các tham số, tính xác suất của dãy đầu ra cụ thể. Giải bằng thuật

toán tiến-lùi. Nghĩa là Cho chuỗi quan sát O = {o1,o2,...,oT} và mô hình λ = {A, B}, ta phải

tính xác suất có điều kiện P(O|λ) của chuỗi quan sát.

Xác suất P(O/λ) =?

2.3.1.2 Bài toán 2

Cung cấp cho mô hình các tham số, tìm dãy các trạng thái (ẩn) có khả năng lớn nhất mà

có thể sinh ra dãy đầu ra đã cung cấp. Nghĩa là cho chuỗi quan sát O={o1,o2,...,oT} và mô

Page 6: Nghiên cứu gán nhãn từ loại cho văn bản tiếngrepository.vnu.edu.vn/bitstream/VNU_123/8188/1/01050000498.pdfquyết bài toán gán nhãn từ loại tiếng Việt theo

hình λ = {A, B} ta phải tìm chuỗi trạng thái ẩn Q={q1, q2..,qT} sao cho xác suất có điểu kiện

P(O|λ) là cực đại. ),|'(maxarg'

OQPQQ

2.3.1.3 Bài toán 3

Cung cấp dãy đầu ra, tìm tập hợp có khả năng nhất của chuyển tiếp trạng thái và các

xác suất đầu ra. Nghĩa là cho chuỗi quan sát O = {o1,o2,...,oT} và mô hình λ = {A, B}, ta phải

đánh giá lại các thông số của mô hình sao cho xác suất có điểu kiện P(O|λ) là cực đại. tức là

tìm )|(maxarg'

OP

2.2.2 Mô hình n-gram

Mô hình n-gram là một mô hình sử dụng n-1 từ đằng trước đó để dự đoán từ tiếp theo

2.4 Phân cụm

2.4.1 Khái niệm phân cụm

Phân cụm (clustering) làm việc phân chia các đối tượng vào các nhóm, sao cho các đối tượng

thuộc cùng một nhóm có độ tương tự cao hơn các đối tượng thuộc các nhóm khác nhau

2.4.2 Các yêu cầu của phân cụm

2.4.3 Các phƣơng pháp phân cụm

2.4.3.1 Phƣơng pháp phân hoạch

2.4.3.2 Phƣơng pháp phân cấp

2.4.3.3 Phƣơng pháp dựa trên mật độ

2.4.3.4 Phƣơng pháp dựa trên mô hình

2.4.4 Độ đo khoảng cách

Một bước quan trọng trong bất kỳ kỹ thuật phân cụm nào là lựa chọn một độ đo khoảng cách

để xác định sự tương tự của hai phần tử. Độ đo này sẽ ảnh hưởng đến hình thái của cụm, vì

một phần tử nào đó có thể gần với một phần tử khác theo một độ đo khoảng cách này và xa

hơn theo một độ đo khác

2.5 Phân tích giá trị kỳ dị

Phân tích giá trị kì dị (Singular value decomposition - SVD) có thể được nhìn vào từ

ba quan điểm sau [34]:

- Thứ nhất, chúng ta có thể coi nó như là một phương pháp để biến đổi các biến có

tương quan thành một tập hợp các biến không tương quan, biểu đạt tốt hơn mối

quan hệ khác nhau giữa các phần tử dữ liệu gốc.

Page 7: Nghiên cứu gán nhãn từ loại cho văn bản tiếngrepository.vnu.edu.vn/bitstream/VNU_123/8188/1/01050000498.pdfquyết bài toán gán nhãn từ loại tiếng Việt theo

- Thứ hai, SVD cũng là một phương pháp để xác định và sắp xếp các chiều véc tơ

mà theo đó các dữ liệu có sự chênh lệch nhiều nhất. Điều này liên quan đến góc

nhìn thứ ba về SVD.

- Thứ ba, đó là một khi chúng ta đã xác định sự chênh lệch lớn nhất ở đâu, SVD có

thể tìm thấy xấp xỉ tốt nhất của các điểm dữ liệu ban đầu bằng cách sử dụng kích

thước ít hơn. Do đó, SVD có thể được xem như là một phương pháp để giảm số

chiều dữ liệu.

Chƣơng 3 - MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN KHÔNG CÓ HƢỚNG DẪN CHO

GÁN NHÃN TỪ LOẠI

3.1 Gán nhãn sử dụng kỹ thuật Cực đại hóa kỳ vọng

Bài toán gán nhãn từ loại được mô hình hóa sử dụng mô hình Markov ẩn (HMM) như sau:

Các nhãn từ loại được coi là các trạng thái ẩn và các từ của văn bản như là đầu ra (trạng thái

quan sát được).

3.1.1 Huấn luyện mô hình Trigram

Chúng ta xem xét hai loại huấn luyện khác nhau:

- Huấn luyện tần số quan hệ (Relative Frequency RF)

- Huấn luyện khả năng cực đại (Maximum Likelihood ML) bằng thuật toán tiến-lùi.

3.1.1.1 Huấn luyện tần số quan hệ

Nếu chúng ta có một lượng văn bản đã gán nhãn có sẵn, chúng ta có thể tính toán số lần

N(w,t) một từ w được đưa ra xuất hiện với nhãn t và số lần N(t1,t2,t3) chuỗi (t1,t2,t3) xuất hiện

trong văn bản này. Chúng ta có thể ước lượng các xác suất h và k bằng cách tính toán tần số

quan hệ của các sự kiện tương ứng trên dữ liệu này:

),(

),,(),/(),/(

21

321

213213ttN

tttNtttfttth

rf

)(

),()/()/(

tN

twNtwftwk

rf

3.1.1.2 Huấn luyện khả năng cực đại (ML)

Sử dụng một mô hình trigram M, có thể tính toán xác suất của bất kỳ chuỗi các từ W

theo mô hình này: ),()( TWpWpT

MM

Trong đó, tổng được lấy trên tất cả các liên kết có thể. Huấn luyện ML tìm thấy mô

hình M mà cực đại hoá xác suất của văn bản huấn luyện:

Page 8: Nghiên cứu gán nhãn từ loại cho văn bản tiếngrepository.vnu.edu.vn/bitstream/VNU_123/8188/1/01050000498.pdfquyết bài toán gán nhãn từ loại tiếng Việt theo

)(max WpW

MM

Trong đó, tích được lấy trên tất cả các câu W trong văn bản huấn luyện. Đây là vấn đề của

huấn luyện một mô hình Markov ẩn.

3.1.2 Kết quả thử nghiệm với tiếng Anh

3.1.2.1 Dữ liệu văn bản

sử dụng dữ liệu Penn treebank gồm có 42186 đã được gán nhãn một cách thủ công

(khoảng 1 triệu từ).

Sử dụng 159 các nhãn khác nhau để gán nhãn cho Penn treebank.

Xây dựng từ điển bằng cách đưa tất cả các từ xuất hiện trong văn bản cùng với tất cả các

nhãn được gán ở trong văn bản.

3.1.3 Các thí nghiệm cơ bản

3.2 Gán nhãn từ loại bằng kỹ thuật phân cụm

Trong tiếp cận này [[21], [22]], những thuộc tính phân phối và các từ tương tự xuất hiện

trong các ngữ cảnh tương tự được sử dụng cho việc tính toán các véc tơ ngữ cảnh của mỗi từ

để gom cụm các từ với nhau trong các nhóm. Các nhóm mà có thể được gán nhãn từ loại

hoặc các lớp từ như các nhóm. Sử dụng kỹ thuật phân cụm để xây dựng các nhãn từ loại trên

dữ liệu chưa gán nhãn là một đặc trưng phân biệt của phương pháp gán nhãn từ loại phân

phối.

Các đặc điểm quan trọng được xem xét ở đây là các véc tơ ngữ cảnh được định nghĩa như thế

nào, kích thước của các véc tơ ngữ cảnh (số chiều), thước đo sử dụng để tính toán độ tương

tự của các véc tơ (nghĩa là tạo ra các cụm), và cách các nhãn và các lớp từ được xây dựng vào

các nhóm.

3.2.1 Suy luận gán nhãn

Giả thuyết cho thuật toán là hành vi cú pháp của một từ được phản ánh trong các từ

đồng xuất hiện và được thể hiện đối với ngữ cảnh trái và ngữ cảnh phải của từ đó.

Láng giềng trái ↔ TỪ ↔ Láng giềng phải

↓ ↓

Véc tơ ngữ cảnh trái Véc tơ ngữ cảnh phải.

Các véc tơ ngữ cảnh chứa số lần xuất hiện của mỗi từ trong 250 từ xuất hiện nhiều nhất trong

kho văn bản.

Page 9: Nghiên cứu gán nhãn từ loại cho văn bản tiếngrepository.vnu.edu.vn/bitstream/VNU_123/8188/1/01050000498.pdfquyết bài toán gán nhãn từ loại tiếng Việt theo

3.2.2 Suy luận dựa trên từ loại

Hai véctơ ngữ cảnh của một từ mô tả sự phân phối của các từ láng giềng bên trái và bên phải

của từ đó. Sự ghép nối của hai véc tơ ngữ cảnh trái và phải có thể đại diện cho phân phối của

một từ

3.2.3 Suy luận dựa trên loại từ và ngữ cảnh

Vai trò cú pháp của một từ phụ thuộc vào thuộc tính cú pháp láng giềng của nó và các

mối quan hệ có khả năng của nó với các láng giềng. Vì vậy ta xẽ xem xét một sự xuất hiện

của một từ w được thể hiện bằng sự ghép nối 4 véc tơ ngữ cảnh:

- Véc tơ ngữ cảnh phải của từ đứng trước.

- Véc tơ ngữ cảnh trái của từ w.

- Véc tơ ngữ cảnh phải của từ w.

- Véc tơ ngữ cảnh trái của từ theo sau.

3.2.4 Suy luận dựa trên loại từ và ngữ cảnh, sử dụng các véc tơ ngữ cảnh trái và

phải tổng quát hoá

Một véc tơ ngữ cảnh v phải tổng quát hoá cho một từ w được hình thành bằng cách đếm mức

độ thường xuyên của các từ trong 250 lớp này xuất hiện bên phải của w, hạng tử wi đếm số

lần mà một từ từ lớp i xuất hiện bên phải w trong tập văn (trái với số lần mà một từ với hạng

tần số i xuất hiện bên phải w)

3.2.5 Các kết quả

Kết quả gãn nhãn đã đạt được khi sử dụng kỹ thuật phân cụm cho thấy rằng kết quả gán

nhãn khi phân cụm dựa vào từ loại và ngữ cảnh đạt kết quả tốt hơn dựa vào chỉ từ loại và

kém hơn khi phân cụm dựa vào các véc tơ ngữ cảnh được tổng quát hóa.

3.3 Đề xuất phương pháp không hướng dẫn cho bài toán gán nhãn từ loại tiếng Việt

Vậy thứ tự để thực hiện gán nhãn sẽ như sau:

1. Tính toán tần số xuất hiện của mỗi từ trong kho ngữ liệu. Loại ra các từ có tần

suất xuất hiện quá nhiều. Tìm ra 250 từ xuất hiện nhiều nhất còn lại.

2. Tính toán các véc tơ ngữ cảnh trái và phải của một từ

3. Xây dựng một ma trận ngữ cảnh C như sau: Mỗi hàng của ma trận gồm véc tơ

ngữ cảnh của một từ w được kết nối từ 4 véc tơ ngữ cảnh (véc tơ ngữ cảnh phải

của từ đứng trước, véc tơ ngữ cảnh trái của từ w, véc tơ ngữ cảnh phải của từ w,

véc tơ ngữ cảnh trái của từ theo sau)

4. Sử dụng giải pháp SVD để giảm số chiều ma trận C

5. Tính độ đo tương tự của các từ dựa trên ma trận C đã giảm số chiều sử dụng độ đo

cosin

Page 10: Nghiên cứu gán nhãn từ loại cho văn bản tiếngrepository.vnu.edu.vn/bitstream/VNU_123/8188/1/01050000498.pdfquyết bài toán gán nhãn từ loại tiếng Việt theo

6. Phân cụm dựa vào độ đo đã tính ở trên sử dụng thuật toán phân cụm mờ

7. Sau khi thực hiện phân cụm ta đã xây dựng được tập nhãn. Sử dụng tập nhãn này

để xây dựng một kho ngữ liệu gán nhãn bằng tay

8. Để thực hiện gán nhãn ta sẽ sử dụng mô hình Markov ẩn, và theo nghiên cứu ở

trên gán nhãn sử dụng mô hình Markov đạt độ chính xác cao khi kho ngữ liệu gán

nhãn bằng tay nhỏ thì sẽ sử dụng huấn luyện ML để thực hiện.

KẾT LUẬN

Những kết quả đã đạt đƣợc của luận văn:

Tổng quan về bài toán gán nhãn từ loại: luận văn đã trình bày được bài toán

gán nhãn từ loại, trình bày và so sánh các hướng tiếp cận không có hướng dẫn và có

hướng dẫn để giải quyết bài toán gán nhãn từ loại, để làm cơ sở nghiên cứu những

tiếp cận đã được sử dụng để giải bài toán gán nhãn từ loại tiếng Anh, cũng như tiếng

Việt trong thời gian vừa qua.

Tìm hiểu cơ sở toán học sử dụng trong các phƣơng pháp mà luận văn

nghiên cứu đƣợc và trình bày: luận văn đã trình bày được các kiến thức cơ bản về

xác suất thống kê, các mô hình như mô hình Markov ẩn cùng các bài toán của mô

hình và các thuật toán được dùng để giải quyết các bài toán đó, ngoài ra luận văn còn

trình bày những kiến thức cơ bản về kỹ thuật phân cụm như là định nghĩa các cách đo

độ tương tự cho từng loại đối tượng khác nhau, phương pháp phân tích giá trị kỳ dị

được sử dụng trong các tiếp cận giải bài toán gán nhãn từ loại cũng được trình bày.

Từ những kiến thức này để chúng ta có thể hiểu được các phương pháp được sử dụng

để giải quyết bài toán.

Tìm hiểu các phƣơng pháp không có hƣớng dẫn cho bài toán gán nhãn từ

loại tiếng Anh: Luận văn trình bày được hai phương pháp không có hướng dẫn để

giải quyết bài toán gán nhãn từ loại tiếng Anh. Đó là phương pháp sử dụng kỹ thuật

cực đại hóa kỳ vọng và kỹ thuật phân cụm. Phân tích được ưu nhược điểm của từng

phương pháp để từ đó có thể tìm ra được phương pháp có thể áp dụng cho bài toán

gán nhãn từ loại tiếng Việt.

Tìm hiều bài toán gán nhãn từ loại tiếng Việt: trình bày được các phương

pháp đã được sử dụng trong việc giải quyết bài toán gán nhãn từ loại tiếng Việt, tìm

hiểu được những ưu điểm và những hạn chế chưa giải quyết được trong bài toán gán

Page 11: Nghiên cứu gán nhãn từ loại cho văn bản tiếngrepository.vnu.edu.vn/bitstream/VNU_123/8188/1/01050000498.pdfquyết bài toán gán nhãn từ loại tiếng Việt theo

nhãn từ loại tiếng Việt, đồng thời sử dụng những kiến thức về những phương pháp đã

sử dụng để đưa ra đề xuất giải quyết những hạn chế của bài toán gán nhãn tiếng Việt.

Hạn chế và hƣớng phát triển của luận văn:

Mặc dù luận văn đã tìm hiểu được một số phương pháp học máy không có

hướng dẫn đã được sử dụng cho bài toán gán nhãn từ loại, đã tìm hiểu được những

mặt còn hạn chế của bài toán gán nhãn từ loại tiếng Việt và đưa ra được đề xuất để

khắc phục hạn chế đó nhưng vẫn chưa thực hiện được thực nghiệm cụ thể cho đề xuất

đó, đó là hạn chế của luận văn và đó cũng có thể coi là một trong hướng phát triển của

luận văn là thực hiện một thực nghiệm dựa vào đề xuất để sử dụng kết quả đạt được

góp phần vào việc giải quyết hạn chế của bài toán gán nhãn từ loại tiếng Việt.

References

Tiếng Việt

[1] Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ. Gán nhãn Từ loại cho tiếng

Việt dựa trên văn phong và tính toán xác suất, Tạp chí phát triển KH&CN, Tập 9,

số 2 năm 2006

[2] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương. 2003. “Sử dụng bộ

gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt”, Báo cáo hội thảo

ICT.rda

[3] Phan Xuân hiếu. 2009. Công cụ gán nhãn từ loại tiếng Việt dựa trên Conditional

Random Fields và Maximum Entropy

[4] Trần Thị Oanh. 2008. Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích

hợp cho tiếng Việt. Luận văn cao học, trường Đại học Công nghệ, Đại học Quốc

gia Hà Nội.

[5] Lê Hoàng Quỳnh. 2009. So sánh một số phương pháp học máy cho bài toán gán

nhãn từ loại tiếng Việt. Luận văn đại học, trường Đại học Công nghệ, Đại học

Quốc gia Hà Nội

Tiếng Anh

[6] Ankit K Srivastava. March 19, 2008. Unsupervised Approaches to Part-of-Speech

Tagging.

[7] A. Haghighi and D. Klein. 2006. Prototype-driven learning for sequence Models.

In Proceedings of HLT-NAACL.

[8] A. Clark. 2000. Inducing syntactic categories by context distribution clustering. In

Proceedings of the Conference on Natural Language Learning (CONLL).

Page 12: Nghiên cứu gán nhãn từ loại cho văn bản tiếngrepository.vnu.edu.vn/bitstream/VNU_123/8188/1/01050000498.pdfquyết bài toán gán nhãn từ loại tiếng Việt theo

[9] E. Brill. 1995. Unsupervised learning of disambiguation rules for part of speech

tagging. In Proceedings of the 3rd Workshop on Very Large Corpora, pages 1–13.

[10] Cucerzan, S. and Yarowsky, D. 2002. Bootstrapping a Multilingual Part-of-

Speech Tagger in One Person-day. In Proceedings of the 6th Conference on

Computational Natural Language Learning, CoNLL.

[11] Dien Dinh and Kiem Hoang, 2003. POS-tagger for English-Vietnamese

bilingual corpus. HLT-NAACL Workshop on Building and using parallel texts:

data driven machine translation and beyond.

[12] Elworthy, D. 1994. Does Baum-Welch Re-estimation Help Taggers? In

Proceedings of the 4th ACL Conference on Applied Natural Language

Processing, ANLP.

[13] Goldwater, S. and Griffiths, T. 2007. A Fully Bayesian Approach to

Unsupervised Part-of-Speech Tagging. In Proceedings of the Association for

Computational Linguistics, ACL.

[14] Merialdo, B. 1994.Tagging English Text with a Probabilistic Model.

Computational Linguistics, 20(2): 155-171.

[15] Feldman, A., Hana, J., and Brew, C. 2006. Experiments in Cross-Language

Morphological Annotation Transfer. In Proceedings of the Computational

Linguistics and Intelligent Text Processing, CICLing.

[16] Thi Minh Huyen Nguyen. 2003. Tagging of Vietnamese Texts. The 10th

annual onference TALN

[17] Thi Minh Huyen Nguyen. Le Hong Phuong. 2010. An empirical study of

maximum entropy approach for part-of-speech tagging of Vietnamese texts. TALN

2010, Montréal

[18] Thi Minh Huyen Nguyen, Laurent Romary, Mathias Rossignol, and Xuan

Luong Vu. A lexicon for Vietnam

[19] Linda Van Guilder. 1995. Automated Part of Speech Tagging:

A Brief Overview

[20] J. Kupiec.1992. Robust part-of-speech tagging using a hidden Markov model.

Computer Speech and Language 6.

[21] Hinrich Schfitze. 1993. Part of speech induction from scratch. In Proceedings

o/ the 31st annual meeting o/ the Association /or Computational Linguistics,

pages 251-258. Hinrich Schfitze. 1997. Ambiguity

Page 13: Nghiên cứu gán nhãn từ loại cho văn bản tiếngrepository.vnu.edu.vn/bitstream/VNU_123/8188/1/01050000498.pdfquyết bài toán gán nhãn từ loại tiếng Việt theo

[22] H. Schutze. 1995. Distributional part-of-speech tagging. In Proceedings of the

European Chapter of the Association or Computational Linguistics (EACL).

[23] S. Finch and N. Chater. 1992. Bootstrapping syntactic categories. In

Proceedings o/ the l~th Annual Meeting of the Cognitive Science Society, pages

820-825.

[24] M. Banko and R. Moore. 2004. A study of unsupervised partof- speech

tagging. In Proceedings of COLING ’04.

[25] Silviu Cucerzan and David Yarowsky. 2002 Bootstrapping a Multilingual

Part-of-speech Tagger in One Person-day. Proceedings of the Sixth Conference on

Natural Language Learning (CoNLL).

[26] T. Minka. 2003. Estimating a Dirichlet distribution. Technical report,

Microsoft Research, ambridge.

[27] Michael Lamar, Yariv Maron. SVD and Clustering for Unsupervised POS

Tagging

[28] R. Krishnapuram, A. Joshi, L. Yi. 1999. A Fuzzy Relative of the k-Medoids

Algorithm with Application to Web Document and Snippet Clustering. Proc.

IEEE Intl. Conf. Fuzzy Systems, Korea.

[29] Ankit K Srivastava. March 19, 2008. Unsupervised Approaches to Part-of-

Speech Tagging.

[30] Nghiem Q. M., Dinh D. & Nguyen T. N. M. 2008. Improving Vietnamese

POS-tagging by integrating a rich feature set and support vector machines. In

Proceedings of the 6th IEEE International Conference in Computer Science :

Research, Innovation and Vision of the Future, RIVF, HCMC, Vietnam.

[31] Morgan Kaufmann Publishers. 2001. Data Mining: Concepts and Techniques.

[32] J. Jang, C. Sun, E. Mizutani. 1997. Neuro-Fuzzy and Soft Computing –A

Computational Approach to Learning and Machine Intelligence, Prentice Hall.

[33] Mitchell P. Marcus, Mary Ann Marcinkiewicz , Beatrice Santorini. June 1993.

Building a large annotated corpus of English: the penn treebank

[34] http://www.cs.wits.ac.za/~michael/SVDTut.pdf

[35] http://nlp.stanford.edu/IR-book/newslides.html

[36] http://nlp.stanford.edu/IR-book/pdf/irbookprint.pdf

[37] http://langbank.engl.polyu.edu.hk/corpus/brown.html