phÁt hi Ện k Ế th Ừa v Ăn b Ản ti Ếng vi Ệt...

51
ĐẠI HC QUC GIA HÀ NI TRƯỜNG ĐẠI HC CÔNG NGHHà ThOanh PHÁT HIN KTHA VĂN BN TING VIT DA TRÊN TVNG VÀ TĐIN ĐỒNG NGHĨA KHÓA LUN TT NGHIP ĐẠI HC CHÍNH QUY Ngành: Công nghThông tin Hà Ni – 2012

Upload: others

Post on 22-Sep-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Hà Thị Oanh

PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT

DỰA TRÊN TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY

Ngành: Công nghệ Thông tin

Hà Nội – 2012

Page 2: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Hà Thị Oanh

PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT

DỰA TRÊN TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY

Ngành: Công nghệ Thông tin

Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy

Cán bộ đồng hướng dẫn: ThS Phạm Quang Nhật Minh

Hà Nội – 2012

Page 3: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

VIETNAM NATIONAL UNIVERSITY, HANOI

UNIVERSITY OF ENGINEERING AND TECHNOLOGY

Ha Thi Oanh

RECOGNIZING VIETNAMESE TEXTUAL

ENTAILMENT BASED ON LEXICAL AND

SYNONYM DICTIONARY

Major: Information Technology

Supervisor: Assoc. Prof. Ha Quang Thuy

Co-Supervisor: Masters. Pham Quang Nhat Minh

HA NOI – 2012

Page 4: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

i

LỜI CẢM ƠN

Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc nhất tới PGS.TS. Hà Quang Thụy,

ThS Phạm Quang Nhật Minh đã tận tình chỉ bảo và hướng dẫn em thực hiện khóa luận

tốt nghiệp.

Em xin cảm ơn các thầy, cô trong trường Đại học Công nghệ đã giảng dạy và cho

em những kiến thức quý báu, làm nền tảng để em hoàn thành khóa luận, cũng như

trong công việc tương lai.

Em xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên trong phòng thí nghiệm

KTLab: TS. Phan Xuân Hiếu, CN Lê Đức Trọng, CN Trần Xuân Tứ, Nguyễn Thị

Thùy Linh, … đã hỗ trợ em rất nhiều trong suốt quá trình làm khóa luận.

Em cũng xin được gửi lời tri ân tới các bạn trong lớp K53CLC, K53CC đã luôn

bên cạnh và ủng hộ em trong suốt quá trình học tập tại trường.

Cuối cùng, em muốn gửi lời cảm ơn sâu sắc tới gia đình và bạn bè - những người

thân yêu luôn ở bên yêu thương che chở em để em vượt qua những khó khăn trong

cuộc sống cũng như trong học tập.

Em xin chân thành cảm ơn!

Hà Nội, tháng 5 năm 2012

Sinh viên

Hà Thị Oanh

Page 5: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

ii

PHÁT HIỆN KẾ THỪA VĂN BẢN DỰA TRÊN

TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA

Hà Thị Oanh

Khóa QH-2008-I/CQ, Ngành Công nghệ thông tin

Tóm tắt Khóa luận tốt nghiệp

Phát hiện quan hệ ngữ nghĩa (semantic relation) là một bài toán quan trọng trong lĩnh

vực xử lý ngôn ngữ tự nhiên và khai phá dữ liệu văn bản. Phát hiện kế thừa văn bản

(Recognizing Textual Entailment: RTE) là bài toán tìm mối quan hệ “kế thừa ngữ nghĩa” của

một văn bản T từ một văn bản giả thuyết H, là một bài toán có ý nghĩa khoa học – công nghệ

thời sự thu hút sự quan tâm của nhiều nhóm nghiên cứu trên thế giới. Nhiều công trình nghiên

cứu về RTE được công bố trên các tạp chí, tại các hội nghị khoa học quốc tế mà điển hình là

nhánh hội nghị khoa học về RTE trong dãy hội nghị thường niên về phân tích văn bản (Text

Analysis Conference: TAC) do Viện Tiêu chuNn và Công nghệ quốc gia Mỹ chủ trì.

Khóa luận tập trung nghiên cứu bài toán và các phương pháp phát hiện kế thừa văn

bản ti tại các hội nghị khoa học quốc tế RTE. Trên cơ sở tìm hiểu và so sánh các hướng tiếp

cận, khóa luận tập trung vào hướng tiếp cận xác định kế thừa văn bản dựa trên từ vựng và tri

thức miền.

Các nghiên cứu theo hướng tiếp cận này (Valentin Jijkoun và Maarten de Rijke, 2006

[20], Ken-ichi Yokote và cộng sự, 2012 [22]) cho thấy giá trị ngưỡng phán quyết kế thừa có ý

nghĩa quan trọng. Khóa luận đề xuất giải pháp xác định và tinh chỉnh ngưỡng phán quyết kế

thừa trong tiếp cận phát hiện kế thừa văn bản dựa trên từ vựng và đề nghị một mô hình phát

hiện kế thừa văn bản có tích hợp giải pháp xác định và tinh chỉnh ngưỡng phán quyết nói trên.

Thực nghiệm mô hình đề xuất trên dữ liệu tiếng Việt chứng tỏ giải pháp đề xuất có

tính hiệu quả: độ đo F1 của phán quyết sau khi tinh chỉnh trung bình tăng 3% so với chưa tinh

chỉnh...

Từ khóa: Kế thừa ngữ nghĩa, RTE, từ điển đồng nghĩa

Page 6: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

iii

RECOGNIZING VIETNAMESE TEXTUAL ENTAILMENT BASED ON

LEXICAL AND SYNONYM DICTIONARY

Oanh Ha Thi

QH-2008-I/CQ course, information technology faculty.

Abtract:

Recognizing semantic relation is an important task in the field of natural language

processing and data mining. Recoginzing textual entailment (RTE) is the task which finds the

“semantic inference” relationship of the text (T) from the hypothesis (H). RTE has the science

– technology meaning and attracts the attension of many research groups. Many research

projects in RTE were published in magazines in the international scientific conference which

has the typical branch about RTE in annual Text Analysis Conference. TAC was held by the

America national Institue of Standardization and Technology.

The thesis focused on researching and clarifying the RTE task and some methods to

recognize textual entailment on the conferences. On the basic of studying and comparing

some appoaches, the thesis proposed a model to RTE based on lexical combined domain

knowledge.

This appoach (Valentin Jijkoun and Maarten de Rijke, 2006 [20], Ken-ichi Yokote et

al [22]) showed the significant meaning of the thresold value of recognizing textual

entailment. The thesis proposed a solution and model to identify and refine the thresold in

recognizing textual entailment based on lexical.

Empirical by Vietnamese data shows that the proposed solution is effective: F1-measure of

recognization before and after refining threshold increases 3%.

Keywords: semantic inference, RTE, synonym dictionary.

Page 7: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

iv

LỜI CAM ĐOAN

Em xin cam đoan mô hình phát hiện kế thừa văn bản dựa trên sự tương đồng tự

vựng với giải pháp xác định và chỉnh sửa ngưỡng phán quyết cũng như thực nghiệm

được trình bày trong khóa luận này là do em thực hiện dưới sự hướng dẫn của PGS.

TS. Hà Quang Thụy và ThS. Phạm Quang Nhật Minh.

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc

một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận,

không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ

về tài liệu tham khảo.

Hà Nội, ngày 17 tháng 05 năm 2012

Sinh viên

Hà Thị Oanh

Page 8: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

v

Nội dung

LỜI CẢM ƠN………………………………………………………………………………………………………………………………i

PHÁT HIỆN KẾ THỪA VĂN BẢN DỰA TRÊN……………………………………………………………..ii

LỜI CAM ĐOAN………………………………………………………………………………………………………………………iv

Danh sách các từ viết tắt………………………………………………………………………………………………………….vii

Danh sách bảng biểu………………………………………………………………………………………………………………..viii

MỞ ĐẦU………………………………………………………………………………………………………………………………………1

Chương 1 : Giới thiệu chung……………………………………………………………………………………………………1

1.1. Động lực và mục tiêu nghiên cứu ................................................................................ 2

1.2. Khái niệm kế thừa văn bản ............................................................................................ 4

1.3. Bài toán phát hiện kế thừa văn bản ............................................................................. 5

1.4. Mối quan hệ giữa dịch máy và kế thừa văn bản ...................................................... 6

1.5. Dãy hội nghị RTE ............................................................................................................ 7

1.6. Bộ dữ liệu trong hội nghị RTE và ứng dụng của phát hiện kế thừa văn bản ... 9

1.7. Tóm tắt chương 1 ........................................................................................................... 11

Chương 2: Một số hướng tiếp cận giải quyết bài toán………………………………………………………12

2.1. Một số hướng tiếp cận giải quyết bài toán .............................................................. 12

2.2. Hướng tiếp cận dựa trên từ vựng ............................................................................... 13

2.2.1. Một số công trình nghiên cứu liên quan .......................................................... 14

2.3. Hướng tiếp cận dựa trên tri thức ................................................................................ 16

2.4. Kết luận ............................................................................................................................. 17

Chương 3: Mô hình phát hiện kế thừa văn bản tiếng Việt……………………………………………….19

3.1. Cơ sở lý thuyết ................................................................................................................ 19

3.1.1. Thuật toán độ tương đồng từ vựng .................................................................... 19

3.1.2. Ngưỡng phán quyết kế thừa ................................................................................ 20

3.1.3. Trọng số của từ ....................................................................................................... 20

3.2. Độ đo độ tương đồng từ vựng (wordsim) ................................................................ 21

3.3. Tri thức miền từ điển đồng nghĩa tiếng Việt .......................................................... 22

3.4. Tinh chỉnh ngưỡng phán quyết kế thừa ................................................................... 23

3.4.1. Ngưỡng phán quyết ............................................................................................... 23

3.5. Phát biểu bài toán ........................................................................................................... 25

Page 9: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

vi

3.6. Tóm tắt chương 3 ........................................................................................................... 28

Chương 4: Thực nghiệm……………………………………………………………..29

4.1. Môi trường thực nghiệm .............................................................................................. 29

4.1.1. Cấu hình phần cứng ............................................................................................... 29

4.1.2. Công cụ phần mềm ................................................................................................ 29

4.2. Dữ liệu thực nghiệm ...................................................................................................... 30

4.3. Thử nghiệm chương trình ............................................................................................ 31

4.4. Đánh giá hệ thống .......................................................................................................... 31

4.6. Đánh giá ............................................................................................................................ 35

Kết luận và định hướng nghiên cứu tiếp theo…………………………………………………………………….36

Tài liệu tham khảo……………………………………………………………………………………………………………………37

Page 10: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

vii

Danh sách các từ viết tắt

Viết tắt Tiếng Anh Tiếng Việt

H Hypothesis Giả thuyết

IE Information Extraction Trích xuất thông tin

IR Information Retrieval Thu thập thông tin

MT Machine Translation Dịch máy

NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên

QA Question Answering Hệ hỏi đáp

RTE Recognizing Textual Entailment Phát hiện kế thừa văn bản

SUM Summarization Tóm tắt

T Text Văn bản

TE Textual Entailment Kế thừa văn bản

CD Comparison Documents Tài liệu so sánh

RC Reading Comprehension Đọc hiểu

PP Paraphrase Acquisition Thu thập diễn giải

Page 11: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

viii

Danh sách bảng biểu

Bảng 1: Một số ví dụ kế thừa văn bản trong hội nghị RTE-3........................................ 5 Bảng 2: Cấu hình phần cứng………………………………………………………… . 29 Bảng 3: Danh sách các phần mềm sử dụng ............................................................... 30 Bảng 4. Chú thích giá trị………………………………………………………..........32 Bảng 5: Kết quả thí nghiệm trước và sau tinh chỉnh ngưỡng ...................................... 33 Bảng 6: Đánh giá kết quả thực nghiệm trong các kỳ hội nghị RTE [18] ..................... 35

Page 12: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

ix

Danh sách hình vẽ

Hình 1: Tam giác dịch máy……………………………………………………………6

Hình 2: Hình chữ nhật RTE……………………………………………………………7

Hình 3: Một số hướng tiếp cận giải quyết bài toán…………………………………..13

Hình 4: Mô hình giải quyết bài toán………………………………………………….26

Hình 5: Dữ liệu thực nghiệm……………………………………………………..…..30

Hình 6: Kết quả thí nghiệm với trường hợp chưa tinh chỉnh ngưỡng………………..34

Hình 7: Kết quả thí nghiệm với trường hợp đã tinh chỉnh ngưỡng…………………..34

Page 13: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

1

MỞ ĐẦU

Một hiện tượng cơ bản của ngôn ngữ tự nhiên đó là sự nhập nhằng trong cách

diễn đạt. Cùng một nội dung có thể được diễn đạt bởi nhiều văn bản khác nhau dựa

trên sự thay đổi ngữ nghĩa. Trên cơ sở đó, từ một diễn đạt này chúng ta có thể suy

luận ra một diễn đạt khác nếu chúng nói về cùng một nội dung trong cùng một ngữ

cảnh cụ thể. Kế thừa (suy luận) được ứng dụng rộng rãi trong nhiều khía cạnh của đời

sống. Kế thừa xảy ra thường xuyên trong giao tiếp hàng ngày liên quan tới việc hiểu

và sử dụng ngôn ngữ tự nhiên. Thông thường khi nói chuyện, chúng ta không hiểu

theo nghĩa đen với mỗi lời phát biểu của người khác hoặc không diễn đạt đúng suy

nghĩ của bản thân theo cách tường minh nhất. Trong giao tiếp, con người xử lý rất tốt

vấn đề này. Tuy nhiên, máy tính thường khó suy luận và hiểu được những cuộc đối

thoại của con người. Do đó, nếu con người muốn xây dựng một hệ thống đối thoại thì

phải xử lý với sự ngụ ý hoặc sự kế thừa này như là một thách thức chính cần giải

quyết.

Ý thức được lợi ích của các bài toán xử lý ngôn ngữ tự nhiên nói chung và bài

toán kế thừa văn bản nói riêng, em chọn hướng nghiên cứu nhằm giải quyết bài toán

phát hiện kế thừa văn bản cho tiếng Việt làm đề tài khóa luận của mình.

Cấu trúc của khóa luận được chia thành 4 chương:

• Chương 1: Giới thiệu khái quát về kế thừa văn bản, bài toán phát hiện quan hệ

kế thừa, mối quan hệ giữa kế thừa và dịch máy và ứng dụng của bài toán trong

thực tiễn.

• Chương 2: Trình bày một số hướng tiếp cận giải quyết bài toán trong các kỳ

hội nghị RTE 1-7. Trong đó, em đi sâu vào phân tích hướng tiếp cận dựa trên từ

vựng cùng một số thuật toán áp dụng trên từ vựng đã được cài đặt trong các hệ

thống RTE cho kết quả tốt.

• Chương 3: Giới thiệu và trình bày một thuật toán phát hiện quan hệ kế thừa

dựa trên từ vựng theo đề xuất của Valentin Jijkoun và cộng sự [20], khảo sát

một số đặc trưng tiêu biểu của miền dữ liệu thực nghiệm tiếng Việt. Em đề xuất

một mô hình giải quyết bài toán phát hiện quan hệ kế thừa văn bản tiếng Việt

dựa trên từ vựng kết hợp với tri thức miền từ điển đồng nghĩa tiếng Việt và giải

pháp tinh chỉnh ngưỡng.

• Chương 4: Mô tả quy trình thực nghiệm, kết quả đạt được và kết luận định

hướng nghiên cứu tiếp theo.

Page 14: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

2

Chương 1 : Giới thiệu chung

Trong cuộc sống thường nhật, con người sử dụng rất nhiều cách diễn đạt khác

nhau đối với cùng một nội dung. Cơ sở để xác định các diễn đạt khác nhau cùng nói về

một nội dung hay không đó chính là đánh giá độ tương tự về ngữ nghĩa. Kế thừa văn

bản (TE) là mối quan hệ giữa các biểu diễn của văn bản, ý nghĩa rút ra được từ một

biểu diễn này có thể suy luận được từ một biểu diễn khác của văn bản. Chương một

của khóa luận giới thiệu khái quát về các khái niệm liên quan tới kế thừa văn bản, bài

toán phát hiện quan hệ kế thừa cũng như ứng dụng thực tiễn của kế thừa văn bản trong

lĩnh vực xử lý ngôn ngữ tự nhiên.

1.1. Động lực và mục tiêu nghiên cứu

Một hiện tượng cơ bản của ngôn ngữ tự nhiên đó là sự nhập nhằng trong cách

diễn đạt. Cùng một nội dung có thể được diễn đạt bởi nhiều văn bản khác nhau dựa

trên sự thay đổi ngữ nghĩa. Trên cơ sở đó, từ một diễn đạt này chúng ta có thể suy

luận ra một diễn đạt khác nếu chúng nói về cùng một nội dung trong cùng một ngữ

cảnh cụ thể. Kế thừa (suy luận) được ứng dụng rộng rãi trong nhiều khía cạnh của đời

sống. Giả sử một ai đó đang tìm hiểu về một vấn đề, họ sẽ tìm kiếm câu trả lời qua

sách báo, bạn bè hay trên Web. Trong hầu hết các trường hợp, thông tin nhận được có

thể không chính xác mặc dù nó là đúng theo quan điểm của người nào đó. Chính vì

vậy, hậu quả của việc nắm bắt thông tin sai lệch là rất lớn. Do đó, suy luận đóng một

vài trò quan trọng trong việc xác nhận hoặc phủ nhận thông tin tìm kiếm ban đầu.

Xét ví dụ: An muốn biết liệu sông Amazon có phải là con sông dài nhất thế giới

hay không. Một cách tự nhiên, bạn ấy có thể tìm độ dài chính xác của sông Amazon và

các sông khác mà bạn ấy biết, sau đó so sánh chúng. Tuy nhiên, bạn ấy biết được rằng

Ai Cập là đất nước có con sông dài nhất thế giới chảy qua, trong khi đó Ai Cập và

Amazon không thuộc cùng một châu lục. Tương tự như vậy, John không biết chắc

chắn ai là tổng thống hiện tại của Mỹ. Bush hay Obama, khi mà John nhận được câu

trả lời do tìm kiếm là cả Bush và Obama đều là tổng thống của Mỹ. Nếu anh ấy thực

hiện một suy luận dựa trên tài liệu nhận được chứa câu: “George Bush đã về hưu”, câu

trả lời đúng sẽ là Obama.

Tóm lại, việc tìm được một thông tin hoàn toàn chính xác đối với câu hỏi đặt ra

là không phải luôn thực hiện được, nhưng suy luận có thể giúp rất nhiều. Trong cả hai

trường hợp trên, thông tin nhận được kế thừa (suy luận) từ câu trả lời thay vì là câu trả

lời chính xác.

Page 15: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

3

Kế thừa xảy ra thường xuyên trong giao tiếp hàng ngày liên quan tới việc hiểu

và sử dụng ngôn ngữ tự nhiên. Thông thường khi nói chuyện, chúng ta không hiểu

theo nghĩa đen với mỗi lời phát biểu của người khác hoặc không diễn đạt đúng suy

nghĩ của bản thân theo cách tường minh nhất.

Xét đoạn hội thoại ngắn sau:

• A: Cậu đã nhìn thấy điện thoại Ipad mới của mình chưa?

• B: Ồ, đẹp! Mình cũng muốn có một cái.

• A: Bạn phải có một cái.

Đoạn hội thoại trên có vẻ không mạch lạc nếu chúng ta hiểu nó theo nghĩa đen và

đọc hiểu từng câu. A hỏi một câu hỏi có/không trong khi đó B lại trả lời theo một cách

khác. Tuy nhiên, người đọc và người nghe có thể thấy rõ ràng B đã đưa ra cho A một

câu trả lời mong muốn.

Nếu chúng ta giải thích theo nghĩa đen cuộc trò chuyện trên thì đây có thể là một khả

năng:

• A: Đây là điện thoại Ipad của mình.

• B: Mình chưa bao gờ nhìn thấy nó trước đó. Nó thật đẹp. Mình chưa có nhưng

mình muốn có một cái như vậy.

• A: Mình nghĩ bạn nên có nó.

Mặc dù phiên bản trên có thể dễ dàng hơn cho máy tính hiểu và xử lý các cuộc

đối thoại của con người. Tuy nhiên người đọc lại thấy nó có vẻ rất vụng về trong ngôn

ngữ giao tiếp và cuộc trò chuyện ban đầu xảy ra tự nhiên hơn trong cuộc sống hàng

ngày của chúng ta. Mỗi lời giải thích trong phiên bản trên là ngụ ý hoặc kế thừa một

cách chính xác những câu trong hội thoại ban đầu. Do đó, nếu con người muốn xây

dựng một hệ thống đối thoại thì phải xử lý với sự ngụ ý hoặc sự kế thừa này như là

một thách thức chính cần giải quyết [18].

Theo Chierchia và McConnell-Ginet (2000) [21], quan hệ giữa hai văn bản trên

là mối quan hệ kế thừa (Textual Entailment - TE). Hệ thống nhận dạng kế thừa văn

bản (Recognizing Textual Entailment - RTE) đòi hỏi phải xác định được mối quan hệ

kế thừa giữa hai văn bản được đưa ra, thường được khai báo như là văn bản (T) và giả

thuyết (H). Trong lĩnh vực xử lý ngôn ngữ tự nhiên, phát hiện kế thừa văn bản được

xem như một modun xử lý ngữ nghĩa chung, phục vụ các tác vụ khác. Ví dụ, RTE đã

được sử dụng rất thành công trong hệ hỏi đáp giúp xác nhận câu trả lời hợp lệ, trong

Page 16: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

4

trích chọn thông tin, đánh giá dịch máy. Về lâu dài, RTE giữ vai trò quan trọng trong

việc hiểu đối thoại trò chuyện, Nn dụ và thậm chí là giao tiếp người máy [18].

1.2. Khái niệm kế thừa văn bản

Kế thừa văn bản bắt nguồn từ kế thừa trong logic học. Kế thừa văn bản (TE) là mối

quan hệ giữa các biểu diễn của văn bản, ý nghĩa rút ra được từ một biểu diễn có thể

suy luận được từ một biểu diễn khác của văn bản. Nói một cách chính xác hơn, kế thừa

văn bản có thể được hiểu là “một mối quan hệ giữa một văn bản nhất quán T với một

ngôn ngữ thể hiện của nó – giả thuyết H. Chúng ta nói T kế thừa H (H là một hệ quả

của T), ký hiệu là T=>H, nếu như ý nghĩa của H, đặt vào ngữ cảnh của T thì có thể

suy ra được từ ý nghĩa của T.”

Hiện nay có khá nhiều cách tiếp cận về khái niệm kế thừa văn bản. Một cách

chung nhất thì văn bản T được gọi là kế thừa từ giả thuyết H nếu như sự thật về H có

thể suy luận được từ T. Điều này có nghĩa là T bao hàm ý nghĩa của H khi đọc cả hai.

Hình thức hơn, ta có thể nói T kế thừa H khi một số biểu diễn của H có thể trùng khớp

(qua một số bước chuyển đổi bảo toàn ngữ nghĩa) với một số (hoặc một phần của) các

biểu diễn của T, ở một cấp độ chi tiết và trừu tượng nhất định.

Trong khóa luận này, em tiếp cận kế thừa văn bản theo cách định nghĩa của Iftene A

[11] trong hội nghị RTE4. Nội dung khái niệm được phát biểu như sau:

“T kế thừa H nếu như tính chất đúng của H có thể suy ra được từ T trong bối cảnh mà

T sinh ra.”

Dưới đây là một số ví dụ minh họa để hiểu rõ hơn về khái niệm kế thừa văn bản:

Văn bản Giả thuyết Kế

thừa

Blue Mountain Lumber là một chi

nhảnh của công ty lâm nghiệp đa quốc

gia Ernslaw One của Malaysia

Blue Mountain Lumber

sở hữu Ernlaw One.

No

Tập đoàn Boeing đặt tại Chicago đã

hủy bỏ ba đơn hàng vào năm 2006 mà

đã được đặt bởi Air Canada.

Trụ sở của tập đoàn

Boeing nằm ở Canada.

No

Page 17: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

5

Mưa lớn 200 mm đã được ghi nhận ở

một số nơi ở British Columbia, trên bờ

biển phía tây của Canada từ thứ hai.

British Columbia nằm

ở Canada.

Yes

Khi các nhà lãnh đạo tập hợp ở

Argentina trước các buổi hội đàm trong

khu vực, Hugo Chavez, tổng thống

theo phái dân túy của Venezuela, đã sử

dụng lợi thế về năng lượng để tìm kiếm

đồng minh và tạo dựng hình ảnh của

mình trong chủ nghĩa xã hội của thế kỷ

21.

Chavez là một người

theo chủ nghĩa xã hội.

Yes

Chiếc xe hơi mà đã va vào hòm thư

thuộc về James Clark, 68 tuổi, một

người quen của gia đình James Jones.

Clark là một người họ

hàng của Jones.

No

Bảng 1: Một số ví dụ kế thừa văn bản trong hội nghị RTE-3

1.3. Bài toán phát hiện kế thừa văn bản

Bài toán phát hiện kế thừa văn bản là bài toán xác định quan hệ kế thừa giữa văn

bản T và giả thuyết H. Việc phân loại mối quan hệ kế thừa giữa văn bản và giả thuyết

có thể theo 2 cách dựa trên số nhãn kế thừa mà hệ thống gán cho một cặp văn bản giả

thuyết.

Phân loại kế thừa 3 lớp bao gồm các nhãn :

• Kế thừa: Khi T kế thừa H.

• Mâu thuẫn: Khi T không kế thừa H.

• Không xác định: Khi không có đủ điều kiện để xác định xem T kế thừa H

hay không.

Phân loại kế thừa 2 lớp: Trong phân loại 2 lớp, mối quan hệ mâu thuẫn và

không xác định đều được phân vào lớp “Không kế thừa”. 2 lớp sử dụng là:

• Kế thừa: Khi T kế thừa H.

• Không kế thừa: Khi nội dung trong T mẫu thuẫn với nội dung trong H hoặc

không xác định được quan hệ giữa T và H.

Hiện nay, đa số các hệ thống phát hiện kế thừa sử dụng sự phân lớp nhị phân

(hai nhãn). Việc phán quyết kế thừa được gán nhãn là YES/NO (YES: trong trường

Page 18: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

6

hợp kế thừa và NO nếu ngược lại). Trong khóa luận này, em tiến hành thực nghiệm

theo nhãn nhị phân như trên.

Dựa trên tiếp cận về quan hệ kế thừa trên, bài toán được phát biểu như sau:

Đầu vào: Tập các cặp câu văn bản T và giả thuyết H thuộc cùng một chủ đề.

Đầu ra: Gán nhãn kế thừa YES/NO với từng cặp.

1.4. Mối quan hệ giữa dịch máy và kế thừa văn bản

Kế thừa văn bản và dịch máy có mối quan hệ với nhau [18]. Cấu trúc của chúng

có nhiều nét tương tự nhau. Nếu chúng ta tạo ra một minh họa tương tự như hình tam

giác trong cộng đồng dịch máy (Machine Translation - MT) (Hình 1) thì có thể hình

dung RTE như là một hình chữ nhật (Hình 2). Tam giác MT cho biết: văn bản được

dịch từ ngôn ngữ ban đầu sang ngôn ngữ đích, trong quá trình dịch tồn tại nhiều đường

đi có thể. Hệ thống có thể dịch trực tiếp dựa trên chuỗi biểu diễn hoặc trước khi dịch

áp dụng một số phân tích ngôn ngữ để có được ý nghĩa của hai văn bản. Ngoài ra, độ

sâu của phân tích ngôn ngữ là không cụ thể. Do đó biểu diễn ý nghĩa bản dịch có thể

thay đổi. Tương tự như vậy, hình chữ nhật RTE không yêu cầu một diễn đạt rõ ràng

hoặc đồng nghĩa. Tiêu chí là để xác thực kết luận hay mối quan hệ giả thiết giữa hai

bên.

Hình 1: Tam giác dịch máy

Page 19: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

7

Hình 2: Hình chữ nhật RTE

Bên cạnh những điểm giống nhau thì MT và RTE có những điểm khác nhau như:

• Trong MT, với một văn bản ban đầu hệ thống phải tạo ra văn bản dịch tương

ứng với ngôn ngữ muốn chuyển đổi. Còn trong RTE, cả văn bản và giả thuyết

đều được đưa ra, hệ thống có nhiệm vụ phải xác định quan hệ kế thừa.

• Trong MT, văn bản nguồn và văn bản đích thuộc hai ngôn ngữ khác nhau.

Ngược lại, văn bản và giả thuyết trong RTE phải thuộc cùng một ngôn ngữ.

• Trong MT, hai văn bản cùng có một nội dung và ý nghĩa. Trong khi đó, RTE

có suy luận giữa hai ý nghĩa của văn bản và giả thuyết (có thể ở mức “sâu”

hơn). Nói cách khác, nếu một hệ thống dịch máy hiểu và biểu diễn nội dung

hoàn thiện của văn bản, thì chúng không cần những luật biến đổi. Còn trong

RTE phải có một quá trình so sánh cấu trúc nhận được từ những văn bản.

1.5. Dãy hội nghị RTE

Phát hiện kế thừa văn bản là bài toán mới trong lĩnh vực xử lý ngôn ngữ tự nhiên

(Natural Language Processing - NLP) và nhận được sự quan tâm rất lớn của các nhà

nghiên cứu. Đặc biệt, từ năm 2005 tới nay, hội thảo RTE được tổ chức hàng năm với

mục đích là tổng hợp các phương pháp phát hiện kế thừa văn bản cho kết quả tốt thông

qua các cuộc thi và nhận được sự quan tâm của nhiều nhóm nghiên cứu NLP trên thế

giới. Hội thảo RTE được tiến hành trong khuôn khổ các hội nghị thường niên Hiểu tài

liệu (DUC - Document Understanding Conference, 2001-2007) và Phân tích xử lý văn

Page 20: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

8

bản (TAC - Text Analysis Conference, từ năm 2008 tới nay1). Tính tới nay, RTE đã

trải qua 7 kỳ hội nghị với hàng trăm bài báo với rất nhiều các công trình nghiên cứu

được công bố. Hội nghị RTE 7 được tổ chức tại Gaithersburg, Maryland, USA vào

tháng 12 năm 2011.

Theo tổng hợp của Dagan và cộng sự, 2005 [9], RTE-1 được tổ chức vào năm

2005 đã đưa ra chuNn đầu tiên cho bài toán phát hiện kế thừa văn bản. Tập dữ liệu

RTE-1 bao gồm tập các đoạn văn bản thông thường, bao gồm văn bản (T) gồm một

hoặc hai câu và giả thuyết (H) gồm một câu. Các hệ thống tham gia được yêu cầu đưa

ra phán quyết cho mỗi cặp (T,H) về việc có kế thừa hay không. Các cặp đại diện cho

sự phán quyết thành công hay thất bại của suy luận thuộc rất nhiều kiểu ứng dụng khác

nhau như: QA, IE, IR và MT.Trong cuộc thi này, hầu hết các nhóm tham gia đều tập

trung vào sự trùng lặp từ vựng giữa T và H, các hệ thống được xây dựng dựa trên

hướng logic, các mô hình xác suất hoặc mô hình học máy có giám sát. Bộ dữ liệu này

được chia thành 2 tập con, tập phát triển (development set) bao gồm 567 cặp và tập

kiểm tra (test set) bao gồm 800 cặp. Trong đó, số lượng các cặp tích cực (có kế thừa)

cân bằng với các cặp tiêu cực (không kế thừa).

Các hội nghị sau từ RTE-2 đến RTE-5 vẫn tiếp tục phát triển từ cuộc thi trước đó

với mục đích chính là nâng cao độ dài của văn bản đánh giá (nâng lên mức độ đoạn và

càng về sau thì độ dài trung bình của văn bản càng cao lên). Trong RTE-22 được tổ

chức vào năm 2006 với vấn đề trọng tâm là: làm sao để cung cấp nhiều hơn các ví dụ

thực tế của cặp văn bản-giả thuyết, chủ yếu dựa vào đầu ra của các hệ thống thực tiễn.

Tập dữ liệu của RTE-23 chứa 1600 cặp văn bản-giả thuyết và cũng được chia thành hai

tập: tập phát triển và tập kiểm tra với số lượng mỗi tập là 800 cặp. Các hệ thống cho

độ chính xác cao hơn, sử dụng thêm các thông tin về cú pháp và ngữ nghĩa từ rất nhiều

nguồn khác nhau.

Đặc biệt, các hội nghị RTE-6 và RTE-7 đã có sự khác biệt so với các hội nghị RTE

trước đây. Kế thừa văn bản được thực thi trên tập corpus thực sự và sử dụng tập hợp

cơ sở dữ liệu tri thức (knowledge base population: KBP) cho phát hiện kế thừa văn

bản. Cơ sở dữ liệu tri thức sẽ nâng cao kết quả cho bài toán phát hiện kế thừa văn bản.

Bài toán đặt ra là tập trung kế thừa dựa vào ngữ cảnh. Trong đó, việc quyết định kế

thừa dựa trên ngữ cảnh rộng hơn. RTE-7 tập trung vào kế thừa văn bản trong hai thiết

1http://www.nist.gov/tac/

2http://www.pascal-network.org/Challenges/RTE2

3RTE-2 data sets: http://pascallin.ecs.soton.ac.uk/Challenges/RTE2/Datasets/

Page 21: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

9

lập ứng dụng: tóm tắt và tập hợp cơ sở tri thức. Bài toán chính trong RTE-7: Đưa ra

một tập corpus và một tập các câu ứng viên được lấy ra từ tập corpus từ Lucence (một

thư viện mã nguồn mở cho tìm kiếm toàn văn bản, được Dough Cutting phát triển.

Thư viện này cung cấp các hàm cơ bản hỗ trợ cho việc đánh chỉ mục và tìm kiếm), hệ

thống kế thừa văn bản được yêu cầu phải xác định các câu từ tập các câu ứng viên để

mà chúng kế thừa một giả thuyết đưa ra. Dựa trên bài toán chính, bài toán phụ sẽ tập

trung vào việc phát hiện tính mới, điều đó có nghĩa là các hệ thống kế thừa văn bản

được yêu cầu phải đánh giá thông tin chứa trong giả thuyết H liệu có mới so với thông

tin chứa trong tập corpus hay không. Nếu các câu kế thừa được tìm thấy trong câu giả

thuyết H được đưa ra thì nội dung của H là mới.

1.6. Bộ dữ liệu trong hội nghị RTE và ứng dụng của phát hiện kế thừa văn bản

Bộ dữ liệu trong hội nghị RTE được thu thập và chú thích bằng tay. Nó bao gồm 7

tập con tương ứng với các ví dụ điển hình trong các ứng dụng khác nhau. Đây là

những bộ dữ liệu văn bản – giả thuyết chuNn và được thực hiện bởi những người trong

ban tổ chức cuộc thi. Trong mỗi ứng dụng các cặp văn bản giả thuyết được chọn bao

gồm cả ví dụ kế thừa và không kế thừa. Thông thường, T chứa một (hai hoặc ba) câu,

H thường là một câu ngắn [18].

Tìm kiếm thông tin (Information Retrieval - IR): Các giả thuyết (H) được tạo ra

tương ứng với những câu truy vấn có nghĩa, biểu diễn một số quan hệ ngữ nghĩa cụ

thể. Những truy vấn này thường dài và cụ thể hơn so với một truy vấn từ khóa chuNn

và đại diện cho biến thể hướng ngữ nghĩa trong tìm kiếm thông tin. Các truy vấn được

lựa chọn bằng cách kiểm tra những câu nổi bật trong văn bản tin tức và sau đó được

tìm kiếm trên máy tìm kiếm web. Văn bản ứng viên (T) được lựa chọn từ những tài

liệu nhận được từ máy tìm kiếm. Trong đó, người ta chọn ra cả những trường hợp kế

thừa và không kế thừa để đảm bảo tính khách quan, bao trùm của dữ liệu. Vì vậy,

trong lĩnh vực IR, RTE chiếm một vị trí quan trọng trong việc tìm kiếm thông tin dựa

trên các nguồn dữ liệu có sẵn. Các hệ thống tìm kiếm thông tin nhận đầu vào là các từ

khóa và trả về tập dữ liệu chứa từ khóa đó. Kết quả trả về từ máy tìm kiếm thường rất

lớn. Người sử dụng muốn có được thông tin chính xác phải tự mình duyệt các câu trả

lời. Trong nhiều trường hợp, máy tìm kiếm trả về những kết quả không liên quan mấy

tới từ khóa hoặc bỏ qua những văn bản cần thiết. Một số tài liệu không chứa từ truy

vấn nhưng vẫn phù hợp. Ví dụ, một tài liệu về “orange” có thể phù hợp với những

truy vấn về “tropical fruit” , “tropical” hay “fruit” mặc dù những từ này không xuất

Page 22: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

10

hiện trong tài liệu. RTE được sử dụng để xác định xem một tài liệu có phù hợp với câu

truy vấn hay không bất kể sự xuất hiện hay vắng mặt của từ truy vấn.

Tài liệu so sánh (Comparable Documents): Cặp T-H được xác định bằng cách kiểm

tra cụm những bài báo tin tức bao trùm một câu chuyện phổ biến. Sau đó con người

kiểm tra cặp câu “liên kết” có thành phần từ vựng trùng nhau một phần nhưng ngữ

nghĩa thì có hoặc không kế thừa. Một số cặp được lấy trên Web sử dụng Google news,

những cặp còn lại thu thập từ một nguồn có sẵn. Động lực của việc thu thập này là

việc thường sử dụng trùng lặp từ vựng là một gợi ý cho việc trùng lặp ngữ nghĩa trong

các tài liệu so sánh, ví dụ tóm tắt nhiều tài liệu.

Đọc hiểu (Reading Comprehension - RC): RC tương ứng với bài kiểm tra đọc hiểu

tiêu biểu trong việc dạy ngôn ngữ trong trường học, trong đó sinh viên được yêu cầu

đánh giá khi nào thì một lời khẳng định cụ thể có thể suy ra từ một văn bản. Người chú

thích được yêu cầu tạo ra các giả thuyết liên quan tới văn bản lấy từ những câu chuyện

mới, coi như một bài đọc hiểu cho học sinh cấp 3.

Hệ hỏi đáp (Question Answering - QA): Người ta tạo ra cặp T-H bằng cách sử

dụng hệ hỏi đáp dựa trên Web và các văn bản trực tuyến có sẵn, sử dụng một nguồn

câu hỏi từ CLEF-QA5 và TREC6 nhưng cũng có thể xây dựng những câu hỏi của

chính họ. Với mỗi câu hỏi được đưa ra, người chú thích chọn đoạn văn bản liên quan

đầu tiên được đề xuất bởi hệ hỏi đáp chứa câu trả lời đúng. Sau đó chuyển câu hỏi

thành câu khẳng định và dùng làm giả thuyết. Ví dụ, với câu hỏi “Ai là Ariel Sharon?”

và câu trả lời ứng viên nhận được là: “Tổng thống Israel, Ariel Sharon đã tới thăm

Prague” (T). Khi đó câu hỏi được chuyển thành câu giả thuyết: “Ariel Sharon là tổng

thống của Israel” tạo nên cặp văn bản – giả thuyết. Do đó, trong hệ hỏi đáp, với cùng

một câu hỏi đưa ra, hệ thống sẽ tìm các câu trả lời có quan hệ kế thừa ứng với câu tìm

kiếm và đưa ra được những câu trả lời chính xác nhất.

Trích xuất thông tin (Information Extraction - IE): Nhiệm vụ này bắt nguồn từ ứng

dụng trích xuất thông tin, thích hợp với cặp văn bản hơn là một văn bản và một mẫu

cấu trúc. Trong ứng dụng này, người chú thích sử dụng một tập dữ liệu có sẵn được

gán nhãn cho mối quan hệ IE là “kill” và “birth place”, cũng như các câu chuyện tin

tức nói chung trong đó họ xác định bằng tay các mối quan hệ IE điển hình. Ví dụ, đưa

ra một trích chọn thông tin xác định các vụ giết hại người dân và một văn bản “Du

kích đã giết hại một nông dân ở thành phố Flores” , giả thuyết tương ứng “Du kích đã

giết chết một thường dân” sẽ tạo ra một cặp văn bản – giả thuyết kế thừa.

Dịch máy (Machine Translation - MT): Hai bản dịch của cùng một văn bản, một

được dịch tự động và một được dịch bởi con người, được so sánh và sửa đổi để có

Page 23: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

11

được một cặp văn bản – giả thuyết. Bản dịch tự động được thay thế lần lượt bởi văn

bản hoặc giả thuyết, khi đó một bản dịch đúng sẽ tương ứng với quan hệ kế thừa. Các

bản dịch đôi khi được chỉnh về mặt ngữ pháp để có thể chấp nhận được.

Thu thập diễn giải (Paraphrase Acquisition - PP): Hệ thống thu thập diễn giải cố

gắng tiếp cận cặp (hoặc bộ) biểu thức từ vựng, cú pháp để truyền đạt những nghĩa

tương đương hoặc kế thừa. Người chú thích chọn một văn bản T từ một vài câu

chuyện tin tức chứa một mối quan hệ nhất định, một quy tắc diễn giải và một hệ thống

thu thập diễn giải. Kết quả của việc áp dụng các quy tắc diễn giải trên T được chọn

như là H. Giả thuyết diễn giải đúng được gợi ý bởi hệ thống, được áp dụng trong một

ngữ cảnh thích hợp để tạo ra cặp văn bản – giả thuyết, ngược lại là một ví dụ sai. Ví

dụ, với câu “Cô gái đã được tìm thấy trong Drummondville”, và bằng cách áp dụng

quy tắc diễn giải “X được tìm thấy trong Y = Y chứa X”, chúng ta sẽ có câu giả thuyết

là “Drummondville chứa các cô gái” (có thể không kế thừa một cách chắc chắn).

1.7. Tóm tắt chương 1

Trong chương này, khóa luận đã giới thiệu khái quát về kế thừa văn bản, bài toán phát

hiện kế thừa văn bản thông qua việc tìm hiểu các kết quả tổng hợp và quá trình tiến

hóa qua các kỳ hội nghị RTE-1-7. Chương 2 của khóa luận trình bày một số hướng

tiếp cận đã và đang được sử dụng trong bài toán phát hiện kế thừa văn bản trong các

kỳ hội nghị.

Page 24: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

12

Chương 2: Một số hướng tiếp cận giải quyết bài toán

Qua các kỳ hội nghị RTE, rất nhiều kỹ thuật và phương pháp được sử dụng để giải

quyết bài toán phát hiện quan hệ kế thừa. Với mục đích tìm hiểu các phương thức phát

hiện kế thừa văn bản, chương 2 sẽ trình bày các hướng tiếp cận giải quyết bài toán và

một số phương pháp đã được sử dụng trong các hệ thống phát hiện kế thừa văn bản và

cho kết quả tốt theo đánh giá của các hội nghị RTE.

2.1. Một số hướng tiếp cận giải quyết bài toán

RTE đã trải qua 7 kỳ hội nghị với rất nhiều các hệ thống phát hiện kế thừa văn bản

được công bố. Hướng giải quyết bài toán mà các tác giả đưa ra là rất phong phú và đa

dạng. Nhìn chung, hướng tiếp cận mà các tác giả sử dụng trong những năm gần đây

bao gồm [3]:

• Hướng tiếp cận dựa trên thuật ngữ (Term-based): Hầu hết các hệ thống dựa trên

phương pháp này đều xét tới hình thái và các biến thể từ vựng của các thuật ngữ

trong văn bản và giả thuyết. Việc đưa ra các quan hệ kế thừa thường dựa trên

độ tương đồng từ vựng.

• Hướng tiếp cận dựa trên chứng minh logic (Logic-proving): Các hệ thống theo

phương pháp này áp dụng các yếu tố cổ điển (classical) hoặc logic đáng tin cậy

để suy luận ý nghĩa của văn bản có kế thừa giả thuyết hay không. Kỹ thuật dựa

trên logic là tên gọi của những thành phần đặc trưng của văn bản và giả thuyết

như mệnh đề hay hình thức logic khác.

• Hướng tiếp cận dựa trên cú pháp (Syntax-based): Một số hệ thống hiện có tiến

hành thực hiện một phân tích độ tương đồng giữa cây cú pháp được trích xuất

từ văn bản và giả thuyết để xác định các mối quan hệ kế thừa. Ngoài ra cũng có

những hệ thống cần phải có một chiến lược phát hiện các diễn giải (paraphrase)

để sinh ra một tập các biểu diễn khác nhau của giả thuyết với mục đích tìm

kiếm một tập con trong số đó xuất hiện trong văn bản.

• Hướng tiếp cận dựa trên vai trò ngữ nghĩa (Semantic role-based): Có những hệ

thống lưu ý tới các câu của văn bản và giả thuyết với vai trò ngữ nghĩa (sử dụng

trình phân tích ngữ nghĩa nông) và sau đó phân tích sự trùng lặp giữa hai tập

được gán vai trò ngữ nghĩa.

• Hướng tiếp cận dựa trên tri thức (Knowledge-based or Corpus-based): Việc sử

dụng tri thức thế giới trong những hệ thống này giúp dễ dàng nhận ra các mối

Page 25: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

13

quan hệ kế thừa khi mà từ vựng hay tri thức ngữ nghĩa không đủ để đưa ra mối

quan hệ kế thừa chính xác.

Hình 3: Một số hướng tiếp cận giải quyết bài toán

Mỗi hướng tiếp cận trên thông thường đều chỉ giải quyết được một vài khía cạnh

của bài toán (từ vựng, ngữ nghĩa, cú pháp, …). Rất khó để có thể nhận xét được

phương pháp nào là tối ưu hơn phương pháp nào. Cách tốt nhất để có thể giải quyết tốt

bài toán RTE là kết hợp nhiều phương pháp theo nhiều khía cạnh giải quyết vấn đề.

Trong khóa luận này, em xây dựng một hệ thống phát hiện quan hệ kế thừa sử dụng

hướng tiếp cận dựa trên thuật ngữ (từ vựng) và tri thức miền từ điển để tạo ra kết luận

về mối quan hệ kế thừa trong văn bản tiếng Việt. Sau đây khóa luận sẽ đi sâu vào phân

tích hai hướng tiếp cận: dựa trên từ vựng và tri thức.

2.2. Hướng tiếp cận dựa trên từ vựng

Bài toán phát hiện kế thừa văn bản (RTE) đã được đưa ra lần đầu tiên vào năm

2005. Trong các hướng tiếp cận giải quyết bài toán như trên thì hướng tiếp cận dựa

trên thuật ngữ (từ vựng) là hướng nghiên cứu phổ biến nhất. Nó có mặt trong hầu hết

các hệ thống xuyên suốt từ hội nghị RTE1 tới RTE7. Cơ sở của sự tương đồng về nội

dung, ngữ nghĩa là sự tương đồng trong cách diễn đạt, sử dụng từ ngữ mà điển hình là

sự trùng lặp từ vựng hoặc các từ đồng nghĩa, cấu trúc giống nhau. Chính vì vậy, một

hệ thống phát hiện quan hệ kế thừa với dữ liệu thuộc ngôn ngữ nào thì hướng tiếp cận

dựa trên từ vựng cũng là hướng tiếp cận được quan tâm xử lý đầu tiên. Động lực của

phương pháp này là việc thường sử dụng trùng lặp từ vựng là một gợi ý cho việc trùng

lặp ngữ nghĩa trong các cách diễn đạt, ví dụ trong tài liệu so sánh hay tóm tắt nhiều tài

liệu.

Số lượng các bài báo và công trình nghiên cứu về kế thừa văn bản dựa trên từ vựng

là rất lớn, các thuật toán mà các tác giả sử dụng là rất đa dạng. Tiêu biểu trong chuỗi

thuật toán từ vựng đó là các thuật toán liên quan tới việc chỉnh sửa xâu [11] [8] [14].

Page 26: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

14

Cặp câu văn bản - giả thuyết được coi như là hai xâu đầu vào của các thuật toán. Sau

đó các tác giả sử dụng các thuật toán để tìm ra khoảng cách chỉnh sửa. Hệ thống đưa ra

phán quyết kế thừa bằng cách so sánh khoảng cách với một ngưỡng kế thừa. Bên cạnh

đó, việc sử dụng mô hình xác suất dựa trên từ vựng [18], học máy trường ngẫu nhiên

có điều kiện kết hợp với khoảng cách chuyển đổi xâu (Conditional Random Field for

Discriminatively-trained Finite-state String Edit Distance – CRF String Edit Distance)

[1] trong các hệ thống RTE cũng thu được kết quả tốt khi đưa ra phán quyết kế thừa.

2.2.1. Một số công trình nghiên cứu liên quan

Trong bài toán kế thừa văn bản, Glickman và cộng sự đề cập đến một mô hình

xác suất kế thừa từ vựng, tức là sẽ xác định khi nào thì các thành phần từ vựng của giả

thuyết được suy ra (kế thừa) từ một văn bản [18].

Trước tiên, các tác giả định nghĩa hai loại sự kiện thông qua không gian xác suất cho

T W:

I) Đối với mỗi giả thuyết h, ký hiệu Trh là biến ngẫu nhiên mà giá trị của nó là

giá trị chân lý được gán cho h. Trong đó, Trh =1 là sự kiện của h được gán

giá trị chân lý là 1 (đúng).

II) Với mỗi văn bản t, sử dụng chính t để khai báo những sự kiện mà các văn

bản được sinh ra là t (thông thường, đặt trong một bối cảnh, t có thể biểu

diễn một văn bản hoặc sự kiện tương ứng)

Xác suất để một văn bản kế thừa giả thuyết h (kí hiệu là t h) sẽ lớn hơn xác suất của

h nếu t làm tăng khả năng đúng sự thật của h, nói cách khác ta có P (Trh= 1| t) > P

(Trh= 1).

Để xây dựng một mô hình học không giám sát trên từ vựng, các tác giả gán ý

nghĩa về nội dụng của các từ trong giả thuyết h= {u1, u2,.. un} với một giá trị chân lý.

Giá trị chân lý có thể được hiểu là khái niệm của từ vựng được gán bằng chính nghĩa

của từ đó. Ví dụ, với câu văn bản t, ������ = 1 nếu từ book có trong câu văn bản t và

ngược lại = 0 nếu t không chứa nó. Một giả thuyết được giả định là mang giá trị chân

lý đúng khi và chỉ khi tất cả các thành phần từ vựng của nó là đúng. Trong quá trình

ước lượng xác suất kế thừa, các tác giả coi như xác suất của mỗi từ u trong giả thuyết

h là độc lập với các từ khác trong giả thuyết h. Vì vậy, xác suất kế thừa được ước

lượng theo công thức sau:

Page 27: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

15

P (Trh= 1| t) = ∏ .�∈ P (Tru =1 |t) (1)

P (Trh= 1) = ∏ .�∈ P (Tru =1)

Đối với mỗi từ u, xác suất P(Tru = 1| t) có thể được tính theo chuNn naive bayes .

McCallum và cộng sự đã kết hợp việc sử dụng thuật toán trường ngẫu nghiên có

điều kiện (CRF - Conditional Random Field) với khoảng cách chuyển đổi xâu để đưa

ra phán quyết kế thừa [1]. Các tác giả sử dụng một mô hình đồ thị vô hướng cho

khoảng cách chuyển đổi xâu và phương pháp ước lượng tham số xác suất điều kiện tận

dụng cả cặp chuỗi phù hợp và không phù hợp. Căn cứ trên trường ngẫu nhiên có điều

kiện (CRFs), phương pháp tiếp cận sử dụng việc học phân biệt của mô hình xác suất

liên quan tới các biến số tiềm Nn về cấu trúc.

Dữ liệu đào tạo bao gồm các cặp xâu đầu vào, mỗi cặp kết hợp với một nhãn nhị

phân cho thấy cặp đó được coi là “phù hợp” hoặc “không phù hợp”. Những tham số

mô hình được ước tính từ cả những ví dụ tích cực và tiêu cực (tương ứng với cặp văn

bản – giả thuyết kế thừa và không kế thừa). Mô hình được cấu trúc như một máy hữu

hạn trạng thái (FSM) với một trạng thái khởi tạo duy nhất và có hai tập trạng thái

không khởi tạo tách rời nhau và không có quá trình chuyển đổi giữa chúng. Quá trình

chuyển đổi được gán nhãn bởi các toán tử chuyển đổi. Một trong hai tập không khởi

tạo biểu diễn điều kiện phù hợp, tập còn lại biểu diễn điều khiện không phù hợp. Bất

kỳ đường dẫn trạng thái không rỗng bắt đầu tại trạng thái khởi tạo xác định một chuỗi

chuyển đổi mà chứa toàn bộ trong một hoặc hai tập con. Bằng việc quan tâm tới tất cả

các chuỗi chuyển đổi trong một tập con, chúng ta có được xác suất phù hợp hoặc

không phù hợp. Chi phí chuyển đổi là hàm các toán tử chuyển đổi của nó, trạng thái

trước đó, trạng thái mới, hai xâu đầu vào và vị trí bắt đầu, kết thúc (vị trí của sự phù

hợp trước và sau khi thực hiện toán tử này) của mỗi xâu đầu vào. Ví dụ, hàm chi phí

có thể xem xét tới cả các phần của chuỗi đầu vào cả trước và sau vị trí phù hợp hiện

tại, nó cũng xem xét tới miền tri thức như từ vựng.

Phương pháp sử dụng giải thuật Tree Edit Distance được nhóm tác giả Al. I.

Cuza sử dụng trong hệ thống phát hiện kế thừa văn bản tham gia ở RTE-3 [11].

Các tác giả thiết kế hệ thống dựa trên phát hiện thực tế: xác suất của một mối

quan hệ kế thừa giữa T và H có liên quan tới khả năng ánh xạ toàn bộ nội dung của H

vào nội dung của T. Càng nhiều phép ánh xạ đơn giản có thể được thiết lập thì khả

năng tồn tại một mối quan hệ kế thừa càng cao. Việc ánh xạ giữa hai văn bản có thể

Page 28: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

16

được diễn giải thông qua các phép toán chỉnh sửa để chuyển T thành H, mỗi phép

chỉnh sửa được gán cho một giá cố định. Dựa trên tổng số giá thu được, hệ thống gán

một quan hệ kế thừa cho cặp (T,H) nếu như tổng giá này thấp hơn một ngưỡng.

Theo như hướng tiếp cận nêu trên, T kế thừa H nếu tồn tại một bộ tuần tự các

phép chuyển đổi T và sau khi thực hiện thì thu được H với tổng số giá thu được nằm

dưới ngưỡng. Giả thuyết là các cặp có tồn tại mối quan hệ kế thừa thì sẽ tốn một giá

thấp của các phép chuyển đổi. Các phép biển đổi (xóa, chèn hoặc thay thế) được xác

định bởi một bộ quy tắc kế thừa định trước, các chi phí tương ứng cũng được cân nhắc

từ trước đối với mỗi phép chỉnh sửa này.

2.3. Hướng tiếp cận dựa trên tri thức

Như đã giới thiệu ở trên, việc sử dụng tri thức thế giới trong những hệ thống

phát hiện kế thừa văn bản giúp dễ dàng nhận ra các mối quan hệ kế thừa khi mà từ

vựng hay tri thức ngữ nghĩa không đủ để đưa ra mối quan hệ kế thừa chính xác.

Trong các hội nghị RTE gần đây, các hệ thống tham gia đòi hỏi phải có một tri

thức miền nhằm đưa ra phán quyết kế thừa chính xác hơn. Do đó, tác dụng của các tri

thức miền có thể nhận thấy rõ ràng trong việc làm tăng độ chính xác của hệ thống.

Trong hai hội nghị RTE 4 và RTE5, có ba nguồn tài nguyên tri thức được sử dụng

rộng rãi là [18]:

• WordNet4 và phần mở rộng của nó: Chúng được sử dụng để tìm từ đồng nghĩa,

quan hệ tổng thể - bộ phận (hyponyms) và những thuật ngữ liên quan tới từ

vựng khác.

• VerbOcean5 và DIRT: Hai tài nguyên này thường được sử dụng để phát hiện

các mối quan hệ giữa các động từ hoặc vị từ trong câu.

• Wikipedia6 và các gazetteers (danh sách tên các thực thể): sử dụng để nhận

dạng và giải quyết vấn đề tên thực thể.

WordNet một trong những từ điển tiếng Anh được sử dụng rộng rãi trong hầu hết các

hệ thống RTE. WordNet dùng phổ biến trong việc tính trọng số tương đồng của hai từ

sử dụng những liên kết ngữ nghĩa như: từ đồng nghĩa, quan hệ tổng thể - bộ phận

(hyponyms). Galanis và cộng sự (2009) đã tiến hành thực nghiệm với một danh sách

các độ đo tương tự, bao gồm cả độ đo Cosine, khoảng cách Oclit, khoảng cách

Levenshtein, …Clack và Harrison (2009) sử dụng WordNet để cải tiến độ mạnh cho

4 http://wordnet.princeton.edu/

5 http://demo.patrickpantel.com/demos/verbocean/ 6 http://www.wikipedia.org/

Page 29: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

17

các suy luận logic cho độ chính xác tăng 4-6%. Tuy nhiên, theo thống kê, trong 19 hệ

thống tham gia trong RTE5 sử dụng từ điển WordNet thì chỉ có 9 hệ thống tăng độ

chính xác, 7 hệ thống thấy giảm độ chính xác và 3 hệ thống quan sát thấy không có

hiệu quả. Tóm lại, hệ thống muốn sử dụng một tài nguyên phù hợp đòi hỏi phải có sự

khảo sát và kiểm tra dữ liệu trước khi tiến hành thực nghiệm [18].

Balahur và cộng sự (2009) sử dụng VerbOcean và VerbNet7 để bắt những mối

quan hệ giữa các động từ. Hai động từ liên quan tới nhau nếu chúng thuộc về cùng một

lớp trong VerbNet hoặc thuộc lớp con của chúng. Ngoài ra, chúng có thể có một mối

quan hệ trong VerbOcean. Tương tự như vậy, Mehad cũng sử dụng VerbOcean trong

hệ thống của mình. Điểm khác biệt là tác giả biến đổi mối quan hệ giữa các động từ

dưới dạng luật và gán trọng số khác nhau cho luật dựa trên mô hình khoảng cách

chuyển đổi.

Shnarch (2008) tạo ra một tài nguyên mở rộng của những luật kế thừa từ

Wikipedia, sử dụng một số phương pháp trích rút. Tài nguyên này chứa tám triệu luật

được xây dựng một cách chính xác. BarHaim đã tích hợp những luật này vào trong hệ

thống của họ. Li và cộng sự (2009) sử dụng Wikipedia để nhận dạng tên thực thể trong

trường hợp có những tham chiếu khác nhau tới cùng một tên thực thể. Các tác giả kết

hợp thông tin từ wikipedia với đầu ra của một modun khác và xây dựng đồ thị thực thể

và mối quan hệ cho quá trình xử lý tiếp theo. Mehdad coi wikipedia như một nguồn

thay thế độ đo tương tự từ vựng (trước đó tác giả sử dụng mô hình chỉnh sửa và

phương pháp dựa trên hàm nhân). Một trong những hệ thống RTE hàng đầu của Iftene

và cộng sự (2009) [11] tích hợp tất cả các nguồn tài nguyên trên và xác định đóng góp

của nó trong hệ thống thông qua việc bớt sử dụng một trong số chúng trong quá trình

thực nghiệm. Bên cạnh đó, một số tác giả định nghĩa độ đo tương tự dựa trên

FrameNet.

Ngoài việc kiểm tra các hệ thống tham gia, Mirkin nghiên cứu các phương pháp

đánh giá hiệu quả của việc sử dụng nguồn tài nguyên từ vựng – ngữ nghĩa trong hội

nghị RTE. Các tác giả đề xuất hệ thống - ứng dụng – sự ước lượng độc lập và phân

tích phương pháp luận cho hiệu năng sử dụng nguồn tài nguyên và ứng dụng một cách

có hệ thống lên 7 tài nguyên nổi bật, trong đó có WordNet và Wikipedia. Sự đánh giá

và phân tích của tác giả cung cấp một sự ước lược so sánh số lượng của những tiện ích

riêng biệt trong phạm vi những tài nguyên nổi bật cho các luật kế thừa [18].

2.4. Kết luận

7 http://verbs.colorado.edu/~mpalmer/projects/verbnet.html

Page 30: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

18

Trong quá trình tìm hiểu các hướng tiếp cận trên và khảo sát đặc trưng miền dữ liệu sử

dụng, em chọn hướng tiếp cận giải quyết bài toán dựa trên sự kết hợp giữa hai phương

pháp dựa trên từ vựng và tri thức miền. Chương 3 của khóa luận trình bày về hướng

giải quyết và đề xuất mô hình hệ thống với tiếng Việt.

Page 31: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

19

Chương 3: Mô hình phát hiện kế thừa văn bản tiếng Việt

3.1. Cơ sở lý thuyết

Như đã trình bày trong chương 2, việc phát hiện quan hệ kế thừa trong văn bản

tiếng Việt là một bài toán mới, chưa nhận được sự quan tâm của nhiều nhà nghiên cứu.

Vì vậy, dựa trên việc khảo sát và tham khảo một số phương pháp đã được sử dụng trên

dữ liệu tiếng Anh, em đề nghị một cài đặt dựa trên thuật toán tính độ tương đồng tự

vựng cho kế thừa văn bản tiếng Việt dựa theo giải thuật của Valentin Jijkoun và cộng

sự [20], đưa ra một công thức rõ ràng trong việc xác định quan hệ kế thừa. Qua khảo

sát, em thấy dữ liệu tiếng Việt có sự nhập nhằng đa nghĩa. Đặc biệt, số lượng từ đồng

âm, đồng nghĩa trong tiếng Việt là rất lớn. Vì vậy việc áp dụng thuật toán trên từ vựng

trong nhiều trường hợp đã đưa ra phán quyết kế thừa không chính xác. Do đó, trong

quá trình xử lý dữ liệu, em đã tích hợp thêm những cơ sở dữ liệu tri thức như từ điển

đồng nghĩa và giải pháp tinh chỉnh ngưỡng kế thừa. Thực nghiệm cho thấy thu được

kết quả khá tốt.

3.1.1. Thuật toán độ tương đồng từ vựng

Với mỗi cặp văn bản – giả thuyết (T, H), các tác giả coi mỗi câu như là một túi các từ

và tính toán trọng số tương tự giữa các câu. Hệ thống đưa ra phán quyết kế thừa bằng

cách so sánh trọng số tương tự đó với một ngưỡng kế thừa cho trước. Đầu tiên, các câu

văn bản giả thuyết được tiến hành tiền xử lý: tách câu, tách từ. Sau đó, các tác giả sử

dụng những chuỗi từ này làm đầu vào cho thuật toán. Độ chính xác của thuật toán

phần lớn phụ thuộc vào việc xác định các tham số như: trọng số của từ, độ đo tương

tự.

Input:

• Cặp văn bản – giả thuyết đã tách câu, tách từ.

• Ngưỡng phán quyết kế thừa.

Output:

• Nhãn kế thừa với từng cặp.

Sau đây là mã giả của thuật toán:

let T = (��, ��, . . ., ��)

let H = (��, ��, . . ., ��)

let totalSim =0

let totalWeight = 0

Page 32: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

20

for j = 1…m do

let maxSim = ���� ������� (�� , � )

if maxSim = 0 then maxSim = -1

totalSim += maxSim * weight (� )

totalWeight += weight (� )

end for

let sim = totalSim/totalWeight

if sim >= threshold then return TRUE

return FALSE

Với mỗi từ trong giả thuyết, các tác giả tìm từ tương tự nhất với nó trong câu văn bản

dựa theo độ đo ������� (�� , � ). Nếu từ đó tồn tại (maxSim != 0), ta sẽ thêm giá trị

trọng số tương tự đó vào giá trị tổng. Ngược lại đặt maxSim = -1, ta trừ đi trọng số của

từ, coi như một giá trị phạt tương ứng với những từ trong T không phù hợp trong H.

3.1.2. Ngưỡng phán quyết kế thừa

Ngưỡng kiểm tra kế thừa cuối cùng được lựa chọn bằng cách sử dụng tập dữ liệu huấn

luyện. Độ tin cậy (confidence) của hệ thống được xác định bằng khoảng cách giữa giá

trị độ tương tự và ngưỡng. Ví dụ, với những phán quyết tích cực (kế thừa) sim >=

threshold:

"�#$��%#"% = ��� − �ℎ�%�ℎ�(�1 − �ℎ�%�ℎ�(�

Thuật toán được tham số hóa với hai hàm sau:

• weight(w): trọng số (độ quan trọng) của từ cho sự xác định độ tương đồng.

• wordsim (��, ��): độ tương tự giữa hai từ, trong đoạn [0,1].

3.1.3. Trọng số của từ

Trọng số của từ liên quan tới độ quan trọng dựa trên trực giác (quan sát) từ việc tìm

kiếm từ trong tìm kiếm thông tin. Trong đó độ đo IDF (Inverse Document Frequency)

thường được sử dụng là một độ đo độ quan trọng. IDF là độ đo nghịch đảo sự phổ

biến của một từ trong một tập hợp văn bản cho trước. IDF là độ đo toàn cục, vì vậy đòi

hỏi phải có một tập dữ liệu văn bản lớn cho trước để sử dụng độ đo toàn cục. Thời

gian gần đây, IDF còn được sử dụng trong kế thừa văn bản. Monz và De Rijke đã đề

xuất sử dụng IDF như một độ kiểm tra trọng số kế thừa [5]. Các tác giả đề xuất

phương pháp đơn giản hiệu quả để kiểm tra kế thừa dựa trên độ đo tương tự quen

thuộc trong tìm kiếm thông tin. Ý tưởng cơ bản bao gồm 2 bước. Đầu tiên, các tác giả

biểu diễn văn bản như một túi từ. Sau đó, với mỗi chủ đề, có một tập tài liệu liên quan,

Page 33: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

21

đây chính là những tài liệu phải tính toán mối quan hệ kế thừa. Ngoài ra, để xác định

trọng số, các tác giả sử dụng N để khai báo tổng số các đoạn trong chủ đề và #� là số

đoạn mà có chứa từ ��. Khi đó trọng số của từ �� được đưa ra bởi công thức sau:

��$� = log ,#�

Những từ (thuật ngữ) xuất hiện nhiều như “the”, “some”, … sẽ nhận được idf-score

thấp hơn so với những từ chỉ xuất hiện trong một vài đoạn. Cảm giác trực quan đằng

sau idf-score là những từ với idf-score cao thì phù hợp hơn để phân biệt nội dung riêng

biệt của một đoạn so với những đoạn khác trong chủ đề, hay nếu đoạn đó được đặt

riêng nó sẽ mang nhiều nội dung thông tin hơn.

Cho hai tài liệu d, d’, với trọng số của từ được định nghĩa như trên, các tác giả

tính trọng số kế thừa: %#��"��%(��,- , � ,-′) của hai đoạn ��,- trong d và � ,-′ trong d’

bằng cách so sánh tổng trọng số từ xuất hiện trong cả hai đoạn với tổng trọng số của

tất cả các từ trong � ,-′ [5]:

%#��"��%(��,- , � ,-′) = ∑ �-/�0�∈(12,3∩ 15,3′)

∑ �-/�0�∈15,3′

Ngoài việc sử dụng độ đo idf-score như trên, chúng ta có thể dùng một độ đo khác

được đề xuất bởi Valentin Jijkoun và cộng sự [20]. Trong hệ thống phát hiện quan hệ

kế thừa văn bản tiếng Anh dựa trên từ vựng, các tác giả đã tiến hành thực nghiệm với

độ đo ICF (inverse collection frequency) được tính trên một tập lớn các văn bản. Với

mỗi từ w:

ICF (w) = # 788��9�89: 7/ ;

# 788��9�89: 7/ <== ;7�-:

Khi đó trọng số của từ w là:

weight (w) = 1 – >?@(;)A >?@B2C>?@BDEA >?@B2C

Giá trị cực đại và cực tiểu của tần số nghịch đảo được dùng để tạo cho các trọng số từ

nằm trong đoạn (0, 1).

3.2. Độ đo tương đồng từ vựng (wordsim)

Trong thuật toán trên, các tác giả sử dụng một độ đo tương đồng từ vựng (ký hiệu

wordsim). Với dữ liệu thực nghiệm là tiếng Anh, các tác giả sử dụng hai độ đo: độ

tương tự từ dựa trên phụ thuộc của Dekang Lin và độ đo dựa trên chuỗi từ vựng trong

WordNet [20][6]. Tuy nhiên đối với miền dữ liệu tiếng Việt, do thiếu các từ điển ứng

dụng như WordNet nên việc sử dụng độ đo từ vựng dựa trên từ điển là không khả thi.

Page 34: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

22

Trong quá trình thực nghiệm, em đã tiến hành ước lượng độ đo tương tự của từ theo

công thức sau:

������� F�� , � G = H 1 #ếI �� = � 0 #ếI #Kượ" (ạ�L

3.3. Tri thức miền từ điển đồng nghĩa tiếng Việt

Qua khảo sát dữ liệu, với miền dữ liệu sử dụng dữ liệu tiếng Việt nên bài toán phát

hiện kế thừa văn bản có những điểm khác so với bài toán RTE trên miền dữ liệu tiếng

Anh. Đặc trưng của tiếng Việt là sự nhập nhằng, đa nghĩa. Bên cạnh đó, tiếng Việt còn

có nhiều biến thể như: đồng âm khác nghĩa, từ đồng nghĩa, từ nhiều nghĩa, từ Hán

Việt, từ địa phương, từ mượn. Tiếng Việt có sự nhập nhằng ranh giới từ. Do tiếng Việt

là ngôn ngữ đơn lập nên từ vựng chủ yếu là các từ ghép vì thế khoảng trắng không

phải luôn luôn là ranh giới chính xác. Giải quyết sự nhập nhằng ranh giới từ tiếng Việt

là rất quan trọng. Hệ thống RTE tiếng Việt cần tách câu, tách từ thật chính xác.

Đặc trưng lớn nhất của tiếng Việt là vấn đề giải quyết nhập nhằng từ đồng nghĩa.

Từ đồng nghĩa là từ có nghĩa giống nhau, nhưng cấu tạo nên chữ đó có thể khác nhau.

Đồng nghĩa thực ra là hiện tượng có mức độ khác nhau, về sự sở hữu những nét cơ bản

giống nhau về mặt nghĩa. Trong tiếng Việt, chỉ những từ có nghĩa mới có hiện tượng

đồng nghĩa từ vựng. Ví dụ: các từ “thiệt mạng”, “chết”, “hy sinh”, “đột tử”, “ngỏm”,

“nghẻo”, .. đều có cùng một nghĩa. Tuy nhiên, rõ ràng xét về mặt từ vựng thì chúng

hoàn toàn khác nhau. Chính sự nhập nhằng này mà trong nhiều trường hợp các từ

trong câu văn bản và giả thuyết biểu diễn cùng một nghĩa nhưng từ vựng thì hoàn toàn

khác nhau. Một hệ thống RTE đơn thuần dựa trên từ vựng sẽ đưa ra phán quyết sai

trong những trường hợp này. Vì vậy, trong khóa luận này em tiến hành thực nghiệm

dựa trên ngưỡng từ vựng kết hợp thêm việc sử dụng từ điển đồng nghĩa tiếng Việt

nhằm đưa ra những phán quyết kế thừa chính xác.

Bên cạnh đó việc tiền xử lý dữ liệu tiếng Việt còn gặp phải một số khó khăn như:

nhập nhằng từ đa nghĩa, nhập nhằng từ đồng âm. Bất cứ ngôn ngữ nào cũng có từ đa

nghĩa, nguyên nhân là vì rất nhiều khái niệm có các sắc thái ý nghĩa tuy không hoàn

toàn trùng khớp nhau nhưng lại có nhiều nét tương đồng. Tuy nhiên trong tiếng Việt,

số lượng từ đã nghĩa là rất lớn. Ví dụ, từ “ăn” trong “ăn uống” và “ăn cướp” vừa có

những nét nghĩa giống và khác nhau, theo cuốn từ điển tiếng Việt thì từ ăn có đến 12

nghĩa.

Page 35: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

23

Vì những lý do trên mà thông thường trong lĩnh vực xử lý ngôn ngữ tự nhiên, một

hệ thống có đầu vào là dữ liệu tiếng Việt thường thu được độ chính xác thấp hơn tiếng

Anh và đặc thù trong việc sử dụng phương pháp (có những phương pháp áp dụng hiệu

quả trên dữ liệu tiếng Anh nhưng lại không dùng được trong tiếng Việt).

3.4. Tinh chỉnh ngưỡng phán quyết kế thừa

Việc sử dụng ngưỡng để đưa ra phán quyết kế thừa là một ứng dụng điển hình

trong các hệ thống nhận dạng quan hệ kế thừa. Tuy nhiên, trong quá trình thực nghiệm

để xác định được một ngưỡng tối ưu nhất nhằm nâng cao độ chính xác của phán quyết

kế thừa thì lại là một thách thức lớn đối với các hệ thống. Trong thuật toán trình bày ở

trên, giá trị của các độ đo đều có giá trị tuyệt đối nằm trong [0,1]. Vì vậy, ta có:

totalSim ≤ ����(N%�Kℎ� → |��� = ����(Q��/����(N%�Kℎ�| ∈ [0, 1] Giá trị độ tuyệt đối của độ tương đồng từ vựng không vượt quá 1 là một điều kiện để

đưa ra tinh chỉnh ngưỡng kế thừa.

3.4.1. Ngưỡng phán quyết

Trong quá trình tính toán độ tương đồng từ vựng, nếu tính tương đồng giữa văn

bản T và giả thiết H càng cao thì phán quyết YES càng có độ tin cậy cao. Tuy nhiên,

nếu hệ thống đưa ra một ngưỡng có giá trị gần 1 sẽ dẫn đến việc bỏ sót các cặp mẫu T-

H nhãn YES nhưng có độ tương đồng thấp hơn ngưỡng. Ngược lại, nếu ngưỡng quá

thấp thì sẽ lấy cả các cặp mẫu NO nhưng có độ tương đồng cao hơn ngưỡng. Do đó, để

xác định giá trị ngưỡng threshold tốt nhất theo mẫu, bài toán tìm ngưỡng đưa về bài

toán tối ưu:

U V� ∗ ��K# (��� (��) − �ℎ�%�ℎ�(�) → ���X2 ∈Y�<����Z

Trong đó:

• Training là tập ví dụ học,

• xi = (Ti, Hi) cặp (văn bản, giả thuyết) trong ví dụ học,

• yi = chỉ số phán quyết kế thừa tương ứng với xi : nếu phán quyết YES

thì yi = 1, ngược lại yi = -1,

• sim (xi) là độ tương đồng giữa Ti với Hi được tính theo các phương

pháp tương đồng ngữ nghĩa,

• sign: là hàm dấu, nhận giá trị 1 nếu đối số dương, nhận giá trị -1 nếu

đối số âm,

Page 36: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

24

• threshold là ngưỡng phán quyết.

Lời giải cho bài toán tối ưu nói trên tương đối rõ ràng: xếp dãy sim (xi) trên trục

số, đếm ngược từ 1 trở xuống (bộ đếm lúc đầu là 0), nếu gặp mẫu YES tăng bộ đếm

lên 1 còn nếu gặp mẫu NO thì giảm bộ đếm đi 1. Mỗi lần gặp một giá trị sim (xi) thì bộ

đếm có 1 giá trị nào đó. Trong quá trình đếm, tồn tại 1 (hoặc một vài giá trị sim (xi))

làm bộ đếm cực đại. Ngoài ra, tương ứng với 1 giá trị sim(xi) là cực đại hàm thì tồn tại

khoảng giá trị từ giá trị này tới giá trị sim(xi) nhỏ hơn và gần nó nhất. Dựa trên tính

chất này mà các hệ thống đòi hỏi phải có quá trình tinh chỉnh. Sự tinh chỉnh được tiến

hành theo 2 cách sau:

1) Tinh chỉnh theo bộ kiểm tra

Chia ngẫu nhiên bộ dữ liệu thành 5 phần: 3 phần làm dữ liệu học, 1 phần làm dữ

liệu tinh chỉnh ngưỡng và phần còn lại làm đánh giá phán quyết.

2) Tinh chỉnh độ đo tương tự của các từ trong từ điển đồng nghĩa

Tinh chính liên quan tới hai khía cạnh:

a. Độ tổn thất dùng từ đồng nghĩa

Ví dụ: các từ “thiệt mạng”, “chết”, “hy sinh”, “đột tử”, “ngỏm”, “nghẻo”, .. đều

có cùng một nghĩa. Tuy nhiên, trong những ngữ cảnh trang trọng người ta hay sử

dụng từ “hy sinh” thay cho từ chết. Do đó, các từ tuy đồng nghĩa song có luôn có

sự tổn thất nghĩa nhất định trong từng ngữ cảnh sử dụng phù hợp. Sử dụng tham

số α làm độ đo tổn thất dùng từ đồng nghĩa.

b. Độ đo tương tự giữa hai cặp từ đồng nghĩa

Các cặp từ đồng nghĩa không mang giá trị giống nhau phụ thuộc vào số lượng

nghĩa (synset) của hai từ đồng nghĩa này. Trong đó, nếu hai từ đồng nghĩa có số lượng

nghĩa ít thì tương tự nhiều hơn, ngược lại có số lượng nghĩa nhiều thì càng tương tự ít.

Với: (v, w) là hai từ đồng nghĩa trong từ điển đồng nghĩa thì độ tương tự giữa hai từ

này được xác định theo công thức:

��� ([, �) = \#] ∗ #;

Page 37: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

25

Trong đó:

• nv và nw tương ứng là số nghĩa của v và w.

• α là tham số để tinh chỉnh.

Trong quá trình thực nghiệm, tham số \ là độ đo tổn thất từ đồng nghĩa được thay

đổi trong quá trình tinh chỉnh. Ban đầu khởi tạo \ = 1 ứng với trường hợp những từ

tiếng Việt không có từ đồng nghĩa.

3.5. Phát biểu bài toán

Dựa trên hướng tiếp cận trong phần cơ sở thực tiễn ở trên, em phát biểu bài toán phát

hiện kế thừa văn bản với tiếng Việt như sau:

Đầu vào: Tập các cặp văn bản-giả thuyết sử dụng trong hội nghị RTE-3 đã được dịch

ra tiếng Việt.

Đầu ra: Mô hình từ vựng và ngữ nghĩa để đưa ra phán quyết kế từa đối với từng cặp

văn bản-giả thuyết.

Page 38: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

26

Hình 4: Mô hình giải quyết bài toán

Khóa luận cải tiến giải pháp phát hiện kế thừa văn bản tiếng Anh dựa trên độ

tương đồng từ vựng của Valentin Jijkoun và cộng sự theo hai khía cạnh như đã được

đề cập trong mục 3.4.1. Thứ nhất, khóa luận sử dụng tri thức từ từ điển đồng nghĩa

tiếng Việt song bổ sung thêm hai trọng số sử dụng từ đồng nghĩa là độ đo tổn thất khi

dùng từ đồng nghĩa và trọng số nghĩa giao nhau của hai từ đồng nghĩa. Thứ hai, khóa

luận tường minh việc xác định ngưỡng phán quyết kế thừa và cách thức tinh chỉnh

ngưỡng kế thừa. Mô hình phát hiên kế thừa văn bản tương ứng được trình bày trên

Hình 4.

Tập dữ liệu huấn luyện

Tập dữ liệu kiểm tra

Ngưỡng kế thừa

Nhãn kế thừa

Tinh chỉnh ngưỡng

kế thừa

Tập dữ liệu tinh chỉnh

Tiền xử lý

Tính độ tương đồng từ vựng

Từ điển

Ngưỡng kế thừa từ vựng

Page 39: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

27

Các bước thực hiện dựa theo mô hình ở trên:

1) Tiền xử lý

Đầu vào: Tập các cặp câu văn bản giả thuyết

Đầu ra: Tập các cặp câu văn bản-giả thuyết đã được tách từ.

2) Xây dựng mô hình tính toán độ tương đồng từ vựng kết hợp với từ điển đồng

nghĩa tiếng Việt

Đầu vào: - Tập các cặp câu văn bản-giả thuyết đã được tách từ.

- Từ điển đồng nghĩa

Đầu ra: Độ tương đồng từ vựng của cặp câu văn bản – giả thuyết.

Xử lý:

� Tiến hành tính độ tương đồng từ vựng để xem câu giả thuyết h có kế thừa văn

bản t hay không. Việc tính độ tương đồng này sẽ dựa theo công thức và thuật

toán như đã trình bày ở trên. Ngoài ra, để đem lại độ chính xác cao hơn thì em

sử dụng thêm từ điển đồng nghĩa. Nếu có một từ u nào đó xuất hiện trong giả

thuyết và nó không xuất hiện trong văn bản, nhưng nếu trong văn bản xuất hiện

một từ đồng nghĩa với từ u thì cũng tính như từ u có xuất hiện trong văn bản.

� Kết hợp lại ta có một độ đo tương đồng.

3) Tinh chỉnh ngưỡng kế thừa

Dựa vào tập đầu vào là tập huấn luyện thì sau khi qua bước này sẽ tính được giá

trị độ đo. Sau đó, dựa vào nhãn đã được gán từ trước (Yes/No) cho tập huấn luyện

này và giá trị độ đo vừa tính được, hệ thống tạo ra ngưỡng kế thừa. Ngưỡng kế

thừa là giá trị độ tương đồng từ vựng sao cho với giá trị này thì tổng các cặp văn

bản-giả thuyết được gán giá trị đúng là lớn nhất.

Ngưỡng này được tính bởi quá trình thống kê toàn bộ độ tương đồng với mỗi

cặp T-H trong tập đào tạo. Giá trị ngưỡng được xác định sao cho có thể phân loại

tốt nhất các cặp văn bản – giả thuyết kế thừa và các cặp văn bản – giả thuyết

không kế thừa lấy từ tập đào tạo. Giá trị của ngưỡng được tinh chỉnh trong quá

trình huấn luyện để đưa ra phán quyết chính xác nhất có thể.

4) Phán quyết kế thừa

Đầu vào: Tập dữ liệu cần kiểm tra (tập các cặp văn bản – giả thuyết) và mô hình

vừa tính được ở bước 2.

Đầu ra : Tập các cặp văn bản- giả thuyết đã được gán nhãn kế thừa.

Page 40: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

28

Xử lý:

� Từ mô hình ở trên, hệ thống tính được giá trị độ đo cho từng cặp văn bản-

giả thuyết. Nếu cặp văn bản – giả thuyết nào có giá trị này lớn hơn hoặc

bằng ngưỡng kế thừa thì cặp văn bản – giả thuyết đó sẽ được gán nhãn kế

thừa là “Yes”, ngược lại sẽ được gán nhãn kế thừa là “No”.

3.6. Tóm tắt chương 3

Chương ba của khóa luận trình bày cơ sở lý thuyết để xây dựng mô hình giải

quyết bài toán phát hiện quan hệ kế thừa trong văn bản tiếng Việt. Trong chương

này, dựa trên phân tích các đặc trưng của miền dữ liệu tiếng Việt, cũng như khảo

sát về mức độ hiệu quả trong việc áp dụng từ điển đồng nghĩa cho phát hiện kế

thừa văn bản, khóa luận đã đề xuất một mô hình giải pháp ứng dụng cho bài toán

phát hiện kế thừa văn bản trên miền dữ liệu Tiếng Việt, sử dụng giải thuật tính độ

tương đồng từ vựng kết hợp với tri thức miền từ điển đồng nghĩa và tinh chỉnh

ngưỡng. Kết quả thực nghiệm ở chương 4 cho thấy mô hình đã đề xuất là hoàn toàn

khả thi.

Page 41: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

29

Chương 4: Thực nghiệm

Do tiếng Việt có sự nhập nhằng về ngữ nghĩa, nhiều từ đồng âm, đồng nghĩa nên

việc phát hiện quan hệ kế thừa trong văn bản tiếng Việt liên quan nhiều tới tri thức

miền. Vì vậy em đề nghị mô hình giải quyết bài toán như ở chương 3 và tiến hành thực

nghiệm trên 1600 cặp câu văn bản – giả thuyết được dịch từ tập dữ liệu tiếng Anh

trong hội nghị RTE3. Dựa trên kết quả thực nghiệm em tiến hành đánh giá hệ thống và

đưa ra hướng giải quyết trong tương lai. Trong quá trình thực nghiệm, em sử dụng bộ

công cụ mã nguồn mở tách câu tách từ dùng cho tiếng Việt vnTokenizer của Lê Hồng

Phương. Qua khảo sát, em thấy vnTokenizer là bộ tách từ tách câu có độ chính xác

cao và tốn ít thời gian chạy. Bên cạnh đó, em tiến hành thực nghiệm với 2 trường hợp

liên quan tới việc sử dụng từ điển đồng nghĩa trước và sau tinh chỉnh ngưỡng.

4.1. Môi trường thực nghiệm

4.1.1. Cấu hình phần cứng

Bảng 2: Cấu hình phần cứng

Thành phần Chỉ số

CPU Intel Core i3 M330 2.13Ghz

RAM 4GB

HDD 500GB

OS Windows 7 Ultimate 64 bits

4.1.2. Công cụ phần mềm

Hệ thống sử dụng các công cụ sau:

Page 42: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

30

Bảng 3: Danh sách các phần mềm sử dụng

STT Tên phầm

mềm

Tác giả Nguồn

1 Eclipse-

SDK-3.4.0-

win64

http://www.eclipse.org/dowloads

2 vnTokenizer Lê Hồng

Phương

http://www.loria.fr/~lehong/tools/vnTo

kenizer.php

4.2. Dữ liệu thực nghiệm

Do đặc trưng của dữ liệu đầu vào trong hệ thống RTE đòi hỏi rất nhiều các giả thiết về

tri thức miền ứng dụng, ngữ cảnh. Các cặp câu văn bản – giả thuyết phải thuộc cùng

một chủ đề. Dữ liệu tiếng Anh thường được sử dụng trong các hệ thống RTE là dữ

liệu được cung cấp bởi hội nghị. Trong hội nghị RTE 3 bộ dữ liệu gồm 1600 cặp câu

T-H, RTE 4 dữ liệu gồm 1000 cặp, RTE5 bộ dữ liệu gồm 1200 cặp (dữ liệu huấn

luyện và kiểm tra).

Dữ liệu thực nghiệm em sử dụng là 1600 cặp câu văn bản – giả thuyết được dịch từ

bộ dữ liệu chuNn trong hội nghị RTE 3 (TAC-RTE 2007). Cả dữ liệu huấn luyện và

kiểm tra đều được gán nhãn kế thừa và đánh số cặp câu. Các cặp câu văn bản – giả

thuyết có bao gồm nhiều chủ đề, lĩnh vực nên rất đa dạng phong phú về nội dung. Dữ

liệu dùng trong thực nghiệm là dữ liệu chuNn nên việc đánh giá kết quả chương trình là

chính xác và khách quan. Dữ liệu được gán nhãn dưới định dạng file xml.

Hình 5: Dữ liệu thực nghiệm

Page 43: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

31

4.3. Thử nghiệm chương trình

Các bước tiến hành thử nghiệm chương trình bao gồm:

Bước 1: Tiến hành loại bỏ các thẻ chứa nhãn và đánh số cặp câu để đưa dữ liệu về

dạng văn bản chỉ chứa các cặp câu văn bản và giả thuyết.

Bước 2: Sử dụng bộ công cụ tách câu tách từ Tokenizer để tiến hành tách câu tách từ

cho toàn bộ dữ liệu. Bộ công cụ tách từ mà em sử dụng là vnTokenizer của Lê Hồng

Phương, Nguyễn Thị Minh Huyền. vnTokenizer có thời gian chạy nhanh và độ chính

xác cao trong việc tách từ ghép.

Bước 3: Sau khi có các cặp câu văn bản – giả thuyết đã được tách từ, em sử dụng từ

điển đồng nghĩa tiếng Việt để so sánh sự tương đồng về mặt ngữ nghĩa của các từ

trong câu. Những từ trong câu được thay thế bởi các từ đồng nghĩa tương ứng để tạo ra

sự đồng nhất giữa các từ trong văn bản và giả thuyết.

Bước 4: Tiến hành tính toán độ tương đồng dựa trên từ vựng.

Bước 5: Tiến hành xác định ngưỡng và tinh chỉnh ngưỡng.

Bước 6: Từ kết quả thu được ở bước 5 và ngưỡng thu được ở bước 5, hệ thống sẽ ấn

định kế thừa cho các cặp văn bản-giả thuyết. Cặp văn bản-giả thuyết sẽ kế thừa nếu

xác suất của nó nhỏ hơn hoặc bằng ngưỡng kế thừa. Nếu ngược lại thì không kế thừa.

Bước 7: Áp dụng ngưỡng kế thừa đó với tập kiểm tra tiến hành hai thí nghiệm với

ngưỡng ban đầu và ngưỡng sau khi tinh chỉnh.

4.4. Đánh giá hệ thống

Hệ thống được đánh giá chất lượng thông qua ba độ đo: độ chính xác (precision), độ

hồi tưởng (recall), và độ đo F (F-measure). Ba độ đo này được tính theo các công thức

sau đây:

^�% = "���%"�_%�"���%"�_%� + �#"���%"�_%�

�%" = "���%"�_%�"���%"�_%� + �#"���%"�,�

Page 44: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

32

a = 2 ∗ ^�% ∗ �%"^�% + �%"

Ý nghĩa của các giá trị được chú thích trong bảng 5:

Giá trị Ý nghĩa

"���%"�_%� Số các cặp văn bản-giả thuyết thực tế là kế thừa và hệ

thống cũng phán quyết là kế thừa.

�#"���%"�_%� Số các cặp văn bản-giả thuyết thực tế là kế thừa và hệ

thống phán quyết là không kế thừa.

"���%"�,� Số các cặp văn bản-giả thuyết thực tế là không kế

thừa và hệ thống cũng phán quyết là không kế thừa.

�#"���%"�,� Số các cặp văn bản-giả thuyết thực tế là không kế

thừa và hệ thống phán quyết là kế thừa.

Bảng 4. Chú thích giá trị

4.5. Kết quả thử nghiệm

Em thực hiện thử nghiệm trên 1600 cặp văn bản-giả thuyết. Đầu tiên, em tiến hành

chia ngẫu nhiên bộ dữ liệu thành 5 phần: 3 phần làm dữ liệu học, 1 phần làm dữ liệu

tinh chỉnh ngưỡng và phần còn lại làm đánh giá phán quyết. Dữ liệu dùng để tinh

chỉnh ngưỡng là hoàn toàn độc lập với dữ liệu học và dữ liệu kiểm tra. Dữ liệu học

trong quá trình huấn luyện sẽ thu được các giá trị ngưỡng thích hợp. Lấy từng ngưỡng

này chạy thực nghiệm với tập kiểm tra, sau đó qua bước tinh chỉnh ngưỡng và tiến

hành kiểm tra lại. Do hạn chế về thời gian thực hiện nên trong quá trình thực nghiệm,

hệ thống mới tiến hành tinh chỉnh ngưỡng theo hướng thứ nhất: tinh chỉnh theo tập

kiểm tra.

Lần lượt thực hiện 2 thí nghiệm

Page 45: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

33

Thí nghiệm 1: Thực nghiệm với ngưỡng trước tinh chỉnh.

Thí nghiệm 2: Thí nghiệm với ngưỡng sau tinh chỉnh

Kết quả được thể hiện ở bảng dưới đây:

TN

Ngưỡng Precision Recall F-measure

TrướcTC Sau TC Trước TC Sau TC Trước TC Sau TC TrướcTC Sau TC

TN1 -0.306 -0.3 0.621 0.621 0.535 0.54 0.575 0.577

TN2 -0.309 -0.315 0.615 0.652 0.515 0.561 0.56 0.603

TN3 0.335 -0.350 0.69 0.74 0.5 0.515 0.58 0.638

TN4 -0.346 -0.321 0.525 0.691 0.584 0.585 0.553 0.635

TN5 -0.305 -0.3 0.636 0.692 0.495 0.518 0.556 0.593

TN6 0.537 0.52 0.728 0.706 0.573 0.57 0.641 0.631

TN7 0.721 0.758 0.642 0.742 0.426 0.426 0.512 0.541

TN8 0.717 0.758 0.655 0.695 0.597 0.597 0.637 0.642

TN9 -0.344 -0.320 0.618 0.718 0.51 0.51 0.56 0.596

TN10 0.725 0.71 0.626 0.636 0.583 0.589 0.604 0.6115

TB 0.6056 0.705 0.532 0.541 0.579 0.606

Bảng 5: Kết quả thí nghiệm trước và sau tinh chỉnh ngưỡng

Page 46: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

34

Tổng hợp kết quả thực nghiệm

Hình 6: Kết quả thí nghiệm với trường hợp sau tinh chỉnh ngưỡng

Hình 7: Kết quả thí nghiệm với trường hợp trước tinh chỉnh ngưỡng

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

TN1 TN2 TN3 TN4 TN5 TN6 TN7 TN8 TN9 TN10

Precision

Recall

F-measure

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

TN1 TN2 TN3 TN4 TN5 TN6 TN7 TN8 TN9 TN10

Precision

Recall

F-measure

Page 47: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

35

4.6. Đánh giá

Qua quá trình thực nghiệm, em nhận thấy rằng khi sử dụng mô hình độ tương đồng

từ vựng kết hợp với từ điển đồng nghĩa và tinh chỉnh ngưỡng, kết quả thu được có cải

tiến đáng kể. Trước và sau khi tinh chỉnh các độ đo thu được đều tăng, trong đó độ đo

F tăng 3%. Bước đầu thực nghiệm hệ thống phát hiện quan hệ kế thừa trong văn bản

tiếng Việt đã cho kết quả khá tốt. Trong thời gian tới, em sẽ tiếp tục hoàn chỉnh quá

trình tinh chỉnh ngưỡng theo hai cách: tinh chỉnh theo bộ kiểm tra và tinh chỉnh theo

độ đo tương tự của từ trong từ điển đồng nghĩa.

Bảng 7: Đánh giá kết quả thực nghiệm trong các kỳ hội nghị RTE [18]

Tuy nhiên, khóa luận chưa giải quyết được một số vấn đề bài toán gặp phải như:

• Chưa xét tới mặt cú pháp của câu thông qua cây cú pháp và nhận dạng thực thể

trong câu để đưa ra kết quả chính xác hơn trong những trường hợp mà có sự

nhập nhằng trong tên thực thể.

o Ví dụ: Obama, Barak Obama, tổng thống Mỹ đều chỉ tới một người.

• Đối những cặp văn bản-giả thuyết có độ nhập nhằng về ngữ nghĩa thì độ chính

xác của kết quả không cao

Page 48: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

36

Kết luận và định hướng nghiên cứu tiếp theo

Trong khóa luận, ngoài việc giới thiệu khái quát về phát hiện kế thừa văn bản

và một số phương pháp tiếp cận giải quyết bài toán phát hiện kế thừa qua các kỳ hội

nghị RTE 1-7, em đề xuất một mô hình giải quyết bài toán áp dụng trên miền dữ liệu

tiếng Việt. Nội dung em đã thực hiện được bao gồm:

• Xây dựng hệ thống phát hiện kế thừa văn bản dựa trên tính toán độ tương đồng từ

vựng.

• Hệ thống đã có sự cải tiến về mặt ngữ nghĩa bằng cách sử dụng từ điển đồng nghĩa

để tăng thêm độ chính xác.

Em tiến hành thực nghiệm đối với 1600 cặp văn bản với 2 tình huống cùng 10

thí nghiệm: (i) chưa tinh chỉnh ngưỡng, (ii) đã tinh chỉnh ngưỡng. Kết quả thực

nghiệm cho thấy kết quả sử dụng từ điển và độ tương đồng từ vựng có tinh chỉnh

ngưỡng có lợi thế dù chưa thật đáng kể song cũng là tiềm năng cho phát triển hướng

nghiên cứu của bài báo.

Trong thời gian tới, em sẽ tiếp tục cải thiện hệ thống theo những hướng sau:

• Ngoài việc xét tới từ vựng, hệ thống sẽ tập trung vào việc phân tích câu về mặt cú

pháp để nâng cao độ chính xác với những trường hợp nhập nhằng về ngữ nghĩa.

• Sử dụng thêm những tri thức miền phức hợp như wikipedia, từ điển trái nghĩa,

phát hiện từ đồng âm khác nghĩa, …

Page 49: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

37

Tài liệu tham khảo

[1] Andrew McCallum and Kedar Bellare, “A Conditional Random Field for

Discriminatively-trained Finite-state String Edit Distance”, Department of

Computer Science, University of Massachusetts Amherst, Department of

Computer and Information Science, University of Pennsylvania, pp. 2 - 4.

[2] Alvaro Rodrigo, Anselmo Penas, and Felisa Verdejo. “Towards an entity-based

recognition of textual entailment”. In Proceedings of the Fourth PASCAL

Challenges Workshop on Recognizing Textual Entailment. Gaithersburg,

Maryland, USA. 2008.

[3] Bahadorreza Ofoghi, John Yearwood, “From Lexical Entailment to

Recognizing Textual Entailment Using, Linguistic Resources”, Centre for

Informatics & Applied, Optimization, University of Ballarat, 2008, pp. 1-2

[4] Braz, Pazienza, Rodrigo, M. T. Pazienza, M. Pennacchiotti, and F. M. Zanzotto

“Textual entailment as syntactic graph distance:A rule based and a SVM based

approach” In Proceedings of the First PASCAL ChallengesWorkshop on

Recognizing Textual Entailment, 2005, pp. 25–28. Southampton,UK.

[5] Christof Monz and Maarten de Rijke. “Lightweight entailment checking for

computational semantics”. In Proceedings of the Workshop on Inference in

Computational Semantics (ICoS-3), 2001.

[6] Dekang Lin. “An information-theoretic definition of similarity”. In

ProceedingsofInternational Conferenceon Machine Learning, 1998.

[7] Erwin Marsi, Emiel Krahmer, and Wauter Bosma. “Dependency-based

paraphrasing for recognizing textual entailment”. In Proceedings of the ACL-

PASCAL Workshop on Textual Entailment and Paraphrasing, Prague, 2007.

[8] Erwin Marsi, Emiel Krahmer, Wauter Bosma. “Dependency-based

paraphrasing for recognizing textual entailment”. Proceedings of the Workshop

on Textual Entailment and Paraphrasing, c 2007 Association for

Computational Linguistics.

June 2007, pp. 83–88, Prague,.

[9] Gennaro Chierchia and Sally McConnell-Ginet. “Meaning and Grammar: An

Introduction to Semantics”. MIT Press, 2nd edition, March 2000, pp. 2-5

[10] Graeme Hirst and David St-Onge. “Lexical chains as representation of context

for the detection and correction of malapropisms”. In Fellbaum Christiane,

editor, WordNet: An electronic lexical database. TheMITPress. 1998.

Page 50: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

38

[11] Iftene, A. “Textual Entailment”, PhD. Thesis (Technical Report). "Al. I. Cuza",

University, Romania, 2009, pp. 25-30.

[12] Ido Dagan, Bill Dolan, Bernardo Magnini, Dan Roth. “Recognizing textual

entailement: Rational, evaluation and approaches”. In Natural Language

Engineering15(4):i-xvii, Cambridge University Press 2009, pp. 5-8

[13] Marie Guegan and Nicolas Hernandez, “Recognizing Textual Parallelisms with

edit distance and similarity degree”, LIMSI-CNRS, Universit´e de Paris-Sud,

France

[14] Marta Tatu and Dan Moldovan. “A semantic approach to recognizing textual

entailment”. In Proceedings of the conference on Human Language Technology

and Empirical Methods in Natural Language Processing (HLT-EMNLP), 2005,

pp. 371–378.

[15] Milen Kouylekov and Bernardo Magnini, “Tree Edit Distance for Recognizing

Textual Entailment: Estimating the Cost of Insertion” , ITC-irst, Centro per la

Ricerca Scientifica e Tecnologica , University of Trento, 2005

[16] Oren Glickman, Ido Dagan, Moshe Koppel. “A Lexical Alignment Model for

Probabilistic Textual Entailment”, 2006.

[17] Peter Clark and Phil Harrison. “Recognizing textual entailment with logic

inference”. In Proceedings of the Fourth PASCAL Challenges Workshop on

Recognizing Textual Entailment. Gaithersburg, Maryland, USA. 2008

[18] Rui Wang, “Intrinsic and Extrinsic Approaches to Recognizing Textual

Entailment”, PhD. Thesis, March 2011, pp 38 -42, pp 124 -130.

[19] Rui Wang, Günter Neumann. “Recognizing Textual Entailment Using Sentence

Similarity based on Dependency Tree Skeletons”, 2007, pp. 1-3.

[20] Valentin Jijkoun and Maarten de Rijke, “Recognizing Textual Entailment

Using Lexical Similarity”, Informatics Institute, University of Amsterdam,

2006

[21] W.E. Bosma and C. Callison-Burch. “Paraphrase substitution for recognizing

textual entailment”. In Working Notes of CLEF, Alicante, Spain, 2006, pp. 1–8.

[22] Ken-ichi Yokote, Danushka Bollegala, Mitsuru Ishizuka, “Similarity is not

Entailment- Jointly Learning Similarity Transformations for Textual

Page 51: PHÁT HI ỆN K Ế TH ỪA V ĂN B ẢN TI ẾNG VI ỆT ...thuyhq/Student_Thesis/K53_Ha_Thi_Oanh_The… · tr ƯỜng ĐẠi h Ọc cÔng ngh Ệ hà th ị oanh phÁt hi Ện k

39

Entailment” Proceedings of the 26th National Conference on Artificial

Intelligence (AAAI 2012), to appear in July, 2012"

[23] Masaaki Tsuchida and Kai Ishikawa, “A Method for Recognizing Textual

Entailment using Lexical-level and Sentence Structure-level features” ,

Proceeding of TAC 2011.