chương 1: mỞ ĐẦu -...

133
Hthng tìm kiếm thông tin xuyên ngôn ngVit – Anh – Hoa MC LC MC LC ............................................................................................................ 1 MĐẦU .............................................................................................................. 3 Chương 1: TNG QUAN ................................................................................... 5 1.1 Gii thiu mô hình tìm kiếm thông tin (Information Retrieval): .............. 5 1.2 Hthng tìm kiếm thông tin xuyên ngôn ng(CLIR):............................... 9 1.2.1 Khái nim: ................................................................................................ 9 1.2.2 Các vn đề ca CLIR: ...........................................................................10 1.3 Các hướng tiếp cn: ......................................................................................11 1.3.1 Dch máy (Machine Translation for Text Translation): ....................11 1.3.2 Da trên tđin đa ng(Multilingual Thesauri): .............................14 1.3.3 Da trên ngliu (Corpus-based techniques):...................................22 1.4 Mt scông trình nghiên cu trong và ngoài nước: .................................30 1.4.1 Vit Nam: ...........................................................................................30 1.4.2 Trên thế gii: .........................................................................................31 1.5 Kết lun: ........................................................................................................32 Chương 2: CƠ SLÝ THUYT..................................................................... 35 2.1 Gii thiu vMRD (Machine Readable Dictionary) .................................35 2.1.1 Sơ lược lch sphát trin MRD trên thế gii: ....................................35 2.1.2 Vai trò và cu trúc ca MRD: ..............................................................39 2.1.3 Khai thác tài nguyên tđin: ...............................................................41 2.1.4 Xây dng tđin tđộng:....................................................................42 2.1.5 Cu trúc vĩ mô và vi mô ca tđin MRD: ........................................43 2.1.6 Mt stđin MRD: ............................................................................43 2.2 Các phương pháp tách t: ...........................................................................51 2.2.1 Mô hình WFST: .....................................................................................51 2.2.2 Mô hình MMSEG: ................................................................................57 2.3 Các phương pháp khnhp nhng: ...........................................................64 2.3.1 Gii thiu: ..............................................................................................64 2.3.2 Khnhp nhng:...................................................................................65 2.4 Kết lun: ........................................................................................................70 Chương 3: PHÂN TÍCH và THIT K......................................................... 72 3.1 Tng quan hthng: .....................................................................................72 3.1.1 Phát biu bài toán: ................................................................................72 3.1.2 Mô hình hthng: .................................................................................72 3.1.3 Phát sinh qun lý: ..................................................................................73 3.2 Phân tích – thiết kế hthng: ......................................................................76 3.2.1 Mô hình Usecase: ...................................................................................76 3.2.2 Đặc tusecase: .......................................................................................77 3.2.3 Sơ đồ tun t: ........................................................................................78 3.2.4 Thiết kế lp: ...........................................................................................81 3.2.5 Thiết kế giao din: .................................................................................94 GVHD: TS. HBo Quc Nguyn ThHng Nhung - 0112235 TS. Đinh Đin Nguyn ThTuyết Mai - 0112229 1

Upload: others

Post on 04-Nov-2019

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

MỤC LỤC MỤC LỤC............................................................................................................ 1 MỞ ĐẦU .............................................................................................................. 3 Chương 1: TỔNG QUAN................................................................................... 5

1.1 Giới thiệu mô hình tìm kiếm thông tin (Information Retrieval): ..............5 1.2 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR):...............................9

1.2.1 Khái niệm:................................................................................................9 1.2.2 Các vấn đề của CLIR:...........................................................................10

1.3 Các hướng tiếp cận:......................................................................................11 1.3.1 Dịch máy (Machine Translation for Text Translation):....................11 1.3.2 Dựa trên từ điển đa ngữ (Multilingual Thesauri):.............................14 1.3.3 Dựa trên ngữ liệu (Corpus-based techniques):...................................22

1.4 Một số công trình nghiên cứu trong và ngoài nước: .................................30 1.4.1 Ở Việt Nam: ...........................................................................................30 1.4.2 Trên thế giới: .........................................................................................31

1.5 Kết luận: ........................................................................................................32 Chương 2: CƠ SỞ LÝ THUYẾT..................................................................... 35

2.1 Giới thiệu về MRD (Machine Readable Dictionary).................................35 2.1.1 Sơ lược lịch sử phát triển MRD trên thế giới: ....................................35 2.1.2 Vai trò và cấu trúc của MRD:..............................................................39 2.1.3 Khai thác tài nguyên từ điển:...............................................................41 2.1.4 Xây dựng từ điển tự động:....................................................................42 2.1.5 Cấu trúc vĩ mô và vi mô của từ điển MRD:........................................43 2.1.6 Một số từ điển MRD: ............................................................................43

2.2 Các phương pháp tách từ: ...........................................................................51 2.2.1 Mô hình WFST:.....................................................................................51 2.2.2 Mô hình MMSEG: ................................................................................57

2.3 Các phương pháp khử nhập nhằng: ...........................................................64 2.3.1 Giới thiệu: ..............................................................................................64 2.3.2 Khử nhập nhằng:...................................................................................65

2.4 Kết luận: ........................................................................................................70 Chương 3: PHÂN TÍCH và THIẾT KẾ ......................................................... 72

3.1 Tổng quan hệ thống:.....................................................................................72 3.1.1 Phát biểu bài toán: ................................................................................72 3.1.2 Mô hình hệ thống: .................................................................................72 3.1.3 Phát sinh quản lý:..................................................................................73

3.2 Phân tích – thiết kế hệ thống: ......................................................................76 3.2.1 Mô hình Usecase:...................................................................................76 3.2.2 Đặc tả usecase: .......................................................................................77 3.2.3 Sơ đồ tuần tự: ........................................................................................78 3.2.4 Thiết kế lớp: ...........................................................................................81 3.2.5 Thiết kế giao diện: .................................................................................94

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

1

Page 2: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

3.3 Xây dựng hệ thống: ......................................................................................97 3.3.1 Tổ chức các MRD:.................................................................................97 3.3.2 Phương pháp tìm kiếm dựa trên MRD:............................................106 3.3.3 Tìm kiếm tài liệu bằng công cụ tìm kiếm:.........................................110

CHƯƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM ............................................... 112 4.1 Cài đặt:.........................................................................................................112

4.1.1 Tiền xử lý: ............................................................................................112 4.1.2 Cấu trúc dữ liệu:..................................................................................112 4.1.3 Dịch từ từ điển:....................................................................................113 4.1.4 Khử nhập nhằng :................................................................................113 4.1.5 Tìm kiếm: .............................................................................................116

4.2 Thử nghiệm: ................................................................................................117 4.2.1 Module dịch và khử nhập nhằng: ......................................................117 4.2.2 Chương trình demo trên web:............................................................117

4.3 Đánh giá :.....................................................................................................119 4.3.1 Module dịch và khử nhập nhằng: ......................................................119 4.3.2 Chương trình tìm kiểm trên Web:.....................................................120

Chương 5: KẾT LUẬN và HƯỚNG PHÁT TRIỂN ................................... 122 5.1 Kết luận: ......................................................................................................122 5.2 Huớng phát triển: .......................................................................................122

5.2.1 Đối với từ điển và ngữ liệu: ................................................................122 5.2.2 Đối với IR Engine:...............................................................................123 5.2.3 Mở rộng ngôn ngữ tìm kiếm cho hệ thống: ......................................124

PHỤ LỤC ......................................................................................................... 125 TÀI LIỆU THAM KHẢO .............................................................................. 132

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

2

Page 3: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

MỞ ĐẦU

Với sự phát triển nhanh chóng của công nghệ tin học, khối lượng thông tin được lưu

trữ trên máy tính ngày càng nhiều. Vì vậy cần có các hệ thống tìm kiếm thông tin

(Information Retrieval) cho phép người dùng tìm kiếm một cách chính xác và nhanh

nhất các thông tin mà họ cần trên kho tư liệu khổng lồ này. Hơn nữa, trong xu thế toàn

cầu hóa như hiện nay, rất nhiều các tổ chức, các công ty quốc tế hình thành, lại xuất

hiện một nhu cầu mới trong việc tìm kiếm thông tin đó là tìm kiếm thông tin đa ngữ để

người dùng có thể khai thác một cách hiệu quả nhất kho tài liệu đa ngữ mà họ có. Một

ví dụ cụ thể về kho tư liệu đa ngữ là Internet. Các trang Web bằng nhiều ngôn ngữ

khác nhau xuất hiện ngày càng nhiều, trong khi các công cụ tìm kiếm đơn ngữ (search

engine) chỉ có thể trả về các tài liệu được viết cùng ngôn ngữ với ngôn ngữ của câu

truy vấn (query). Do đó vấn đề đặt ra là liệu có thể xây dựng một hệ tìm kiếm thông

tin mà thông tin trả về là tất cả các tài liệu ở các ngôn ngữ khác nhau trong kho tư liệu

có liên quan đến câu truy vấn (không phụ thuộc vào ngôn ngữ của câu truy vấn). Đây

chính là bài toán đặt ra cho việc nghiên cứu các hệ tìm kiếm đa ngữ/ xuyên ngữ

(multilanguage IR/ cross language IR).

Mục tiêu của các hệ thống tìm kiếm xuyên ngữ là cung cấp công cụ cho người dùng để

có thể mô tả nhu cầu tìm kiếm thông tin ở ngôn ngữ mà mình diễn đạt giỏi nhất

(thường là tiếng mẹ đẻ), hệ thống sẽ phải trả về tất cả các tài liệu ở tất cả các ngôn ngữ

có trong kho tư liệu đang tìm kiếm có liên quan đến nhu cầu thông tin của người dùng.

Trên đây là nhu cầu chung của hầu hết các ngôn ngữ và tiếng Việt của chúng ta cũng

không phải là ngoại lệ. Khác với các ngôn ngữ khác, tiếng Việt có nhiều đặc điểm

riêng biệt và rất khó xử lý bằng máy tính, nên các đề tài nghiên cứu hay các chương

trình ứng dụng liên quan đến các hệ thống tìm kiếm bằng tiếng Việt còn rất ít. Mà nhu

cầu tìm kiếm tài liệu trên kho tàng kiến thức của thế giới của người Việt là rất lớn. Với

mong muốn phát triển nhiều hơn nữa các hệ thống tìm kiếm xuyên ngôn ngữ bằng

tiếng Việt, chúng tôi xây dựng “Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt –

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

3

Page 4: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Anh – Hoa” cho phép người dùng nhập câu truy vấn bằng tiếng Việt và trả về các tài

liệu có liên quan bằng tiếng Việt, tiếng Anh và tiếng Hoa. Trong luận văn này chúng

tôi lựa chọn tiếng Anh và tiếng Hoa là hai đại diện tiêu biểu cho hai loại hình ngôn

ngữ biến hình và đơn lập. Từ đó cho thấy rằng hệ thống tìm kiếm thông tin xuyên ngữ

có thể thực thi trên hai loại hình ngôn ngữ khác nhau.

Bố cục của luận văn gồm các chương sau:

• Chương 1 – TỔNG QUAN : giới thiệu tổng quan về hệ thống tìm kiếm

(IR), hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR), các hướng tiếp cận

và các vấn đề cần giải quyết của hệ thống.

• Chương 2 – CƠ SỞ LÝ THUYẾT: trình bày cơ sở lý thuyết và các

phương pháp đã nghiên cứu trong luận văn.

• Chương 3 – PHÂN TÍCH VÀ THIẾT KẾ: phân tích và thiết kế hệ

thống.

• Chương 4 – CÀI ĐẶT VÀ KIỂM TRA: cài đặt, kiểm thử chương trình.

• Chương 5 – KẾT LUẬN và HƯỚNG PHÁT TRIỂN: trình bày các kết

quả đạt được, các đánh giá về hệ thống và hướng phát triển trong tương lai.

• Phần TÀI LIỆU THAM KHẢO và PHỤ LỤC: trình bày các thông tin có

liên quan được sử dụng trong luận văn.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

4

Page 5: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Chương 1: TỔNG QUAN

Trong chương này, chúng tôi sẽ trình bày khái quát về các hệ thống tìm kiếm

(Information Retrieval), hệ thống tìm kiếm thông tin xuyên ngôn ngữ (Cross-Language

Information Retrieval) và một số khảo sát về tình hình nghiên cứu trong và ngoài

nước. Cuối chương chúng tôi sẽ rút ra kết luận chung và lựa chọn hướng tiếp cận cho

hệ thống của mình. Nội dung trình bày bao gồm:

Giới thiệu mô hình tìm kiếm thông tin.

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ.

Một số công trình nghiên cứu trong và ngoài nước.

Kết luận.

1.1 Giới thiệu mô hình tìm kiếm thông tin (Information

Retrieval):

Hệ thống tìm kiếm thông tin xuyên ngữ (Cross Language Information Retrieval -

CLIR) có liên hệ rất mật thiết với hệ thống tìm kiếm thông tin (Information Retrieval -

IR) và cũng có rất nhiều đặc trưng của hệ thống này (IR). Qui trình của hệ thống tìm

kiếm thông tin như sau:

• Người dùng muốn xem những tài liệu liên quan đến một chủ đề nào đó.

• Người dùng cung cấp một mô tả về chủ đề đó dưới dạng câu truy vấn.

• Từ câu truy vấn này hệ thống sẽ lọc ra những cụm từ chỉ mục.

• Những cụm từ chỉ mục này sẽ được so khớp với những cụm từ chỉ mục

của các tài liệu đã được xử lý trước đó.

• Những tài liệu nào có mức độ liên quan cao nhất sẽ được trả về cho

người dùng.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

5

Page 6: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Mục đích của IR là hiển thị cho người dùng một tập các thông tin thỏa mãn nhu cầu

của họ. Chúng ta định nghĩa chính xác cho thông tin cần thiết là “câu truy vấn”(query),

và các thông tin được chọn là “tài liệu” (documents). Mỗi cách tiếp cận trong IR bao

gồm 2 thành phần chính: một là các kỹ thuật để biểu diễn thông tin (câu truy vấn, tài

liệu), và hai là phương pháp so sánh các cách biểu diễn này. Mục đích là để tự động

qui trình kiểm tra các tài liệu bằng cách tính toán độ tương quan giữa các câu truy vấn

và tài liệu. Qui trình tự động này thành công khi nó trả về các kết quả giống với các

kết quả được con người tạo ra khi so sánh câu truy vấn với các tài liệu.

Có một vấn đề thường xảy ra đối với hệ thống tìm kiếm là những từ mà người dùng

đưa ra trong câu truy vấn thường khác xa những từ trong tập tài liệu chứa thông tin mà

họ tìm kiếm. Trường hợp như thế gọi là “paraphrase problem” (vấn đề về diễn giải).

Để giải quyết vấn đề này hệ thống đã tạo ra các hàm biểu diễn xử lý các câu truy vấn

và các tài liệu một cách khác nhau để đạt đến một độ tương thích nào đó.

d Hàm biểu diễn câu truy vấn

Không gian biểu diễn

R

[0,1]

Xử lý của con người j

Hàm biểu diễn tài liệu

Câu truy vấn

Biểu diễn 2

Tài liệu

c Hàm so sánh

q

Biểu diễn 1

[0,1]

Không gian tài liệu

D

Không gian câu truy vấn

Q

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

6

Page 7: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Hình 1.1: Mô hình hệ thống tìm kiếm thông tin

Gọi miền xác định của hàm biểu diễn câu truy vấn q là Q, tập hợp các câu truy vấn có

thể có; và miền giá trị của nó là R, không gian thống nhất biểu diễn thông tin. Gọi

miền xác định của hàm biểu diễn tài liệu d là D, tập hợp các tài liệu; và miền giá trị

của nó là R2 . Miền xác định của hàm so sánh c là R x R và miền giá trị của nó là

[0,1], tập các số thực từ 0 đến 1. Trong một hệ thống tìm kiếm lí tưởng:

c(q(query), d(doc)) = j(query, doc) , ∀query∈ Q, ∀doc ∈ D,

khi j: Q x D --> [0,1] biểu diễn việc xử lý của người dùng giữa các mối quan hệ của 2

thông tin, được tính dựa trên một tiêu chuẩn nào đó (ví dụ: sự giống nhau về nội dung

hay sự giống nhau về kiểu …). Hình 1.1 minh họa mối quan hệ này.

Có hai kiểu hệ thống tìm kiếm: tìm kiếm dựa trên so khớp chính xác và dựa trên sắp

xếp. Mô hình trên đây có thể mô tả cả 2 cách tiếp cận. Trong hệ thống tìm kiếm dựa

trên so khớp chính xác, miền giá trị của c được giới hạn từ 0 đến 1, và nó được chuyển

sang nhị phân để quyết định liệu 1 tài liệu có thỏa biểu thức bool được xác định bởi

câu truy vấn hay không? Các IR dựa trên so khớp chính xác thường cung cấp các tài

liệu không sắp xếp thỏa câu truy vấn của người dùng, hầu hết các hệ thống tìm kiếm

hiện nay đều dùng cách này. Cách hoạt động chi tiết của hệ thống sẽ được mô tả ở

phần sau.

Đối với hệ thống IR dựa trên sắp xếp, thì các tài liệu sẽ được sắp xếp theo thứ tự giảm

dần về mức độ liên quan. Có 3 loại hệ thống tìm kiếm dựa trên sắp xếp: “ranked

Boolean”, “probabilistic” và “similarity based”. Trong 3 cách trên miền giá trị của c là

[0,1], tuy nhiên chúng khác nhau ở cách tính “giá trị trạng thái tìm kiếm” (“retrieval

status value”):

• Trong hệ thống dựa trên “ranked Boolean” giá trị này là mức độ mà

thông tin thỏa mãn biểu thức bool được chỉ ra bởi các thông tin còn lại.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

7

Page 8: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

• Trong hệ thống dựa trên “probabilistic” , khái niệm này hơi khác một

chút, giá trị này là xác suất mà thông tin có liên quan đến một câu truy vấn. Rất

nhiều hệ thống tìm kiếm dựa trên xác suất được thiết kế để chấp nhận câu truy

vấn được diễn tả bằng ngôn ngữ tự nhiên hơn là một biểu thức bool.

• Trong hệ thống tìm kiếm dựa trên sự giống nhau, giá trị trạng thái tìm

kiếm được tính bằng cách tính mức độ giống nhau của nội dung thông tin.

Trong các hệ thống tìm kiếm dựa trên so khớp chính xác, việc đánh giá hệ thống chủ

yếu dựa trên việc đánh giá mức độ liên quan. Giả sử j là giá trị nhị phân và được cho

trước. Nói cách khác, ta giả sử rằng các tài liệu hoặc có hoặc không có liên quan đến

câu truy vấn, và độ liên quan giữa tài liệu và câu truy vấn do con người xác định là

chính xác. Theo giả định này, tính hiệu quả của các hệ thống tìm kiếm dựa trên so

khớp chính xác được đánh giá dựa trên 2 đại lượng thống kê là “độ chính xác”

(precision) và “độ bao phủ” (recall). Độ chính xác là tỉ lệ các tài liệu được chọn, các

tài liệu thực sự liên quan đến các thông tin mà người dùng cần, độ bao phủ là tỉ lệ tài

liệu có liên quan được sắp xếp chính xác theo độ liên quan bởi hệ thống tìm kiếm. Nói

cách khác, độ chính xác bằng 1 trừ đi tỉ lệ cảnh báo sai, trong khi đó độ bao phủ đo

mức độ hoàn chỉnh của việc tìm kiếm. Bảng 1.1 minh họa cho các mối quan hệ này.

Actually is Selected as

Relevant Not relevant

Relevant Found False alarm

Not Relevant Missed

alarmFalseFoundFoundecision+

=Pr

MissedFoundFoundcall+

=Re

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

8

Page 9: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Bảng 1.1: Tính độ hiệu quả của hệ thống tìm kiếm thông tin

Việc đánh giá tính hiệu quả của hệ thống tìm kiếm dựa trên sắp xếp thì phức tạp hơn.

Một cách tính độ hiệu quả phổ biến cho các hệ thống này là “độ chính xác trung bình”.

Nó được tính bằng cách chọn một tập lớn hơn các tài liệu ở đầu danh sách có giá trị

bao phủ giữa 0 và 1. Phương pháp thường được sử dụng là phương pháp tính dựa trên

5, 7, 11 điểm theo độ bao phủ. Độ chính xác sau đó sẽ được tính cho từng tập một. Qui

trình sẽ được lặp lại cho từng câu truy vấn, và tương ứng mỗi độ chính xác trung bình

sẽ cho một độ bao phủ. Mỗi giá trị trung bình của những số này sau đó sẽ được tính

toán và ghi nhận như là một đặc trưng của hệ thống. Độ chính xác trung bình càng lớn

thì càng tốt, và việc so sánh chỉ thực sự có ý nghĩa khi chúng ta sử dụng cùng một tập

tài liệu và câu truy vấn. Tuy nhiên độ chính xác trung bình cũng làm giảm đi mức độ

thay đổi của các câu truy vấn có các đặc tính khác nhau (ví dụ như số lượng tài liệu có

liên quan khác nhau). Hơn thế nữa, các tài liệu có liên quan thường tập trung ở đầu

danh sách sắp xếp nên thông thường độ chính xác sẽ giảm mỗi khi tập tài liệu được mở

rộng để tăng độ bao phủ.

1.2 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR): 1.2.1 Khái niệm:

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR) là hệ thống tìm kiếm (IR) cho

phép người dùng nhập câu truy vấn bằng một ngôn ngữ để tìm kiếm các tài liệu trong

một ngôn ngữ khác. Đối tượng sử dụng hệ thống tìm kiếm thông tin xuyên ngữ (CLIR)

là:

• Những người có khả năng đọc các tài liệu tiếng nước ngoài, nhưng gặp

khó khăn khi tạo câu truy vấn bằng ngôn ngữ đó.

• Những người gặp khó khăn khi đọc/ tìm kiếm các tài liệu tiếng nước

ngoài nhưng lại cần một số lượng giới hạn các tài liệu được tìm kiếm bằng

CLIR để sử dụng trong các hệ thống dịch máy (MT), thay vì phải dịch toàn bộ

tập hợp các tài liệu.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

9

Page 10: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

• Những người biết các từ khóa hoặc cụm từ tiếng nước ngoài, và muốn

đọc các tài liệu có liên quan với những từ khóa hoặc cụm từ đó bằng ngôn ngữ

bản xứ.

1.2.2 Các vấn đề của CLIR:

Vì câu truy vấn do người dùng nhập vào và các tài liệu được tìm kiếm ở hai ngôn ngữ

khác nhau nên CLIR cần phải có qui trình chuyển ngữ cùng với qui trình tìm kiếm

theo cách tìm kiếm truyền thống của các hệ đơn ngữ. Các hệ tìm kiếm đơn ngữ hiện

nay thực hiện rất tốt qui trình tìm kiếm đơn ngữ. Và vấn đề chính chúng ta cần quan

tâm ở đây làm thế nào để qui trình chuyển ngữ có thể được thực hiện tốt nhất.

Chính qui trình chuyển ngữ này đã làm phát sinh rất nhiều vấn đề trong CLIR. Vấn đề

đầu tiên là làm sao biết được một từ trong ngôn ngữ này được viết như thế nào trong

ngôn ngữ khác? Vấn đề thứ hai là làm sao quyết định được cách dịch nào sẽ được giữ

lại? Vấn đề thứ ba là làm sao xác định được tầm quan trọng khác nhau giữa các bản

dịch khi có nhiều bản dịch được giữ lại.

Hai vấn đề đầu tiên, làm sao để dịch và làm sao để loại bỏ bớt bản dịch, là hai vấn đề

của các hệ thống dịch máy . Hệ thống CLIR có thể loại bỏ một vài cách dịch và giữ lại

một số khác bằng cách khử nhập nhằng. Tuy nhiên, việc giữ lại một số cách dịch nhập

nhằng giúp cho hệ thống tìm kiếm gia tăng độ bao phủ của nó.

Vấn đề thứ ba của CLIR có liên quan đến cách xử lý các bản dịch tương đương, là điều

giúp chúng ta phân biệt CLIR với dịch máy và tìm kiếm thông tin đơn ngữ. Giả sử

rằng câu truy vấn ban đầu có hai từ phân biệt. Nếu từ đầu tiên có thể được dịch sang

nhiều cách khác nhau, và nếu từ thứ hai chỉ có thể được dịch sang một cách duy nhất,

thì hệ thống tìm kiếm sẽ không tăng trọng số cho từ đầu tiên, bởi vì nó có nhiều lựa

chọn khi dịch. Điều này minh họa cho vấn đề tính trọng số của các cách dịch, đặc biệt

là đối với hệ thống CLIR. Một tài liệu chứa một cách dịch của mỗi từ trong câu truy

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

10

Page 11: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

vấn có thể sẽ có độ liên quan nhiều hơn một tài liệu chứa nhiều cách dịch khác nhau

của từ đầu tiên trong câu truy vấn nhưng không chứa cách dịch nào của từ thứ hai.

1.3 Các hướng tiếp cận:

Việc phân loại các hướng tiếp cận của CLIR dựa trên phương pháp được sử dụng

trong quá trình chuyển ngữ.

1.3.1 Dịch máy (Machine Translation for Text Translation):

Giữa tìm kiếm xuyên ngữ và dịch máy hoàn toàn tự động có mối quan hệ gần gũi.

Hình 1.2 minh họa cách dịch tự động hoàn toàn và hỗ trợ dịch máy có thể được tích

hợp trong hệ thống tìm kiếm xuyên ngữ. Với một hệ thống như thế, các câu truy vấn

có thể được dịch sang bất cứ ngôn ngữ nào mà người dùng thấy cần thiết, và các tài

liệu sẽ được trả về bất cứ ngôn ngữ nào. Nếu cần, việc dịch máy hoàn toàn tự động có

thể được dùng để tạo ra các bản dịch được hiển thị trên màn hình cho phép người dùng

chọn tài liệu. Khi cần một bản dịch tốt hơn thì các tài liệu được chọn có thể được

chuyển cho dịch máy dưới sự hỗ trợ của con người.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

11

Page 12: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Hình 1.2 Tích hợp tìm kiếm xuyên ngữ với dịch máy.

Có lẽ hầu hết các hướng tiếp cận trực tiếp đến tìm kiếm xuyên ngôn ngữ là việc thực

thi q hoặc d bằng cách sử dụng hệ thống dịch hoàn toàn tự động để mang câu truy vấn

và tài liệu vào không gian biểu diễn R dựa trên một ngôn ngữ nhất định. Một điểm yếu

của hệ thống dịch tự động là nó chỉ có thể cung cấp việc dịch hiệu quả trong một vùng

giới hạn nào đó.

Các hệ thống tìm kiếm văn bản thường bỏ qua các lỗi dịch cú pháp hơn là các lỗi về

ngữ nghĩa, nhưng độ chính xác về ngữ nghĩa sẽ giảm sút khi các thông tin không được

mã hóa vào hệ thống dịch một cách đầy đủ. Vì việc mã hóa đầy đủ thông tin có thể sẽ

mất chi phí khá cao nên tính hiệu quả của hệ thống tìm kiếm xuyên ngữ dựa trên dịch

máy sẽ bị giới hạn, đặc biệt là khi dịch các câu truy vấn ngắn. Khuyết điểm này có thể

được giảm bớt nếu chúng ta dịch các tài liệu thay vì dịch câu truy vấn. Bởi vì các tài

liệu thường dài hơn các câu truy vấn, nên một hệ thống dịch máy được nhúng vào hàm

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

12

Page 13: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

biểu diễn tài liệu d có thể có nhiều thông tin về ngữ cảnh để chọn lựa ngữ nghĩa hơn là

một hệ thống được nhúng vào hàm biểu diễn câu truy vấn q.

Tuy nhiên, độ hiệu quả sẵn có của dịch máy đã trở thành vấn đề tranh luận khi một hệ

thống dịch được nhúng vào d, bởi vì thông thường d cần phải được cung cấp cho một

số lượng rất lớn các tài liệu. Hơn nữa, một vài công việc do hệ thống dịch máy thực

hiện không mang lại sự cải tiến nào cho tính hiệu quả của việc tìm kiếm văn bản.

Chẳng hạn như, việc dịch văn bản đòi hỏi phải lựa chọn thứ tự của các từ và thêm vào

các từ có quan hệ gần1 trong ngôn ngữ đích. Nhưng cả hai đặc tính này thường bị bỏ đi

bởi q và d.

Thật vậy, một vài công việc do hệ thống dịch máy làm thật sự làm giảm tính hiệu quả

của việc tìm kiếm văn bản. Vì trong các ngôn ngữ khác nhau nghĩa của từ sẽ không

được nhóm theo cùng một cách, nên các hệ thống dịch máy luôn cố gắng đạt được

nghĩa dịch tốt nhất cho từ khi từ có nhiều nghĩa. Theo phân tích này thì một nghĩa đơn

sẽ được chọn cho mỗi từ đa nghĩa. Tuy nhiên, trong một hệ thống tìm kiếm, q và d có

thể được thiết kế để ngăn chặn những thông tin không chắc chắn và c có thể được thiết

kế để tận dụng những thông tin đó trong việc cải thiện tính hiệu quả.

Những nghiên cứu này cho thấy rằng khi thiết kế các hàm q và d cho hệ thống tìm

kiếm xuyên ngữ thì kiểu và độ sâu của qui trình có thể được quyết định bởi khả năng

biểu diễn của không gian R để biểu diễn các kết quả của các qui trình và khả năng sử

dụng các thông tin đó của hàm so sánh c. Chúng ta cũng có thể hoặc giới hạn qui trình

của chúng ta bằng khả năng của các kĩ thuật hiện có để sử dụng thông tin kết quả, hoặc

chúng ta có thể thiết kế các hàm biểu diễn và so sánh mới để tận dụng thông tin mà kĩ

thuật dịch máy có thể cung cấp.

Ưu điểm: các câu truy vấn có thể được dịch sang bất cứ ngôn ngữ nào mà người

dùng thấy cần thiết, và các tài liệu sẽ được trả về bất cứ ngôn ngữ nào.

1 các từ có quan hệ gần là những từ ít mang nội dung và thường bị loại bỏ bởi danh sách các stopword trong một hệ thống truy xuất.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

13

Page 14: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Khuyết điểm: Hiệu quả dịch còn giới hạn.

1.3.2 Dựa trên từ điển đa ngữ (Multilingual Thesauri):

Ở đây chúng ta định nghĩa một từ điển đồng nghĩa như là một công cụ để mã hóa

thông tin tri thức cho một ứng dụng. Vì thế một từ điển đồng nghĩa là một bản thể mà

đặc trưng là các thuật ngữ đã được tổ chức. Một từ điển đồng nghĩa đa ngữ là một từ

điển tổ chức các thuật ngữ từ một hoặc nhiều thứ tiếng. Từ điển song ngữ, thường định

nghĩa các cụm với chi tiết cho các cụm khác, cũng được gộp vào định nghĩa này. Từ

vựng trong ngôn ngữ học máy tính, được mã hóa thông tin cú pháp và ngữ nghĩa, cũng

nằm trong định nghĩa này. Các từ điển đồng nghĩa phức tạp, được sử dụng như là một

danh mục cơ sở trong hệ thống tìm kiếm tự động, cũng nằm trong phạm vi của định

nghĩa từ điển đồng nghĩa trên. Thậm chí một danh sách song ngữ đơn giản gồm các

thuật ngữ kĩ thuật mà trong đó mỗi thuật ngữ được gán một cách dịch duy nhất cũng là

một từ điển đồng nghĩa theo định nghĩa trên. Chúng ta nhận ra rằng đây là một định

nghĩa mở rộng không bình thường cho từ “từ điển đồng nghĩa”. Nhưng vì không có

một thuật ngữ chuẩn ngắn gọn nào có thể đáp ứng khái niệm chúng ta mô tả nên chúng

ta chọn cụm từ có quan hệ gấn nhất với hệ thống tìm kiếm xuyên ngữ hiện tại. Bảng

1.2 cho thấy một vài kiểu từ điển đồng nghĩa phổ biến được sử dụng trong các hệ

thống tìm kiếm xuyên ngữ. Các thông tin chi tiết hơn về từ điển xuyên ngữ sẽ được

trình bày ở phần sau.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

14

Page 15: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Kiểu từ điển Đặc trưng

Từ điển đồng nghĩa theo

đề tài

Có mối quan hệ kế thừa và kết hợp.

Một cụm duy nhất được gán cho 1 nút.

Danh sách khái niệm Không gian của các cụm từ được chia

thành các lớp khái niệm.

Danh sách các cụm từ Danh sách các từ đồng nghĩa xuyên ngôn

ngữ.

Từ vựng Các cú pháp hoặc ngữ nghĩa mà máy có

thể đọc được (Machine Readable)

Bảng 1.2 Các kiểu từ điển đa ngữ

Kĩ thuật dựa trên từ điển có một số ưu điểm và khuyết điểm nhất định. Vì từ điển có

thể biểu diễn các mối quan hệ giữa các cụm từ và các khái niệm theo cách mà con

người có thể hiểu được, nên việc tìm kiếm thông tin dựa trên từ điển cho phép người

dùng khai thác lợi ích bên trong trong suốt quá trình tìm kiếm để hình thành một câu

truy vấn tốt hơn. Hơn thế nữa, vì có một lượng các thông tin quan trọng được mã hóa

trong từ điển, nên ở khía cạnh của một người dùng có kĩ năng, một hệ thống tìm kiếm

dựa trên từ điển có thể là một công cụ rất mạnh. Mặt khác, việc sử dụng từ điển sẽ áp

đặt mức độ giới hạn lên cả từ vựng mà người dùng sử dụng cũng như phạm vi mà hệ

thống tìm kiếm có thể cung cấp. Các kỹ thuật hiện nay cho việc xây dựng và duy trì từ

điển tập trung mạnh mẽ vào nguồn tài nguyên, và việc huấn luyện; và nỗ lực để sử

dụng hiệu quả các mối quan hệ về khái niệm chứa đựng bên trong một từ điển phức

tạp là rất trọng yếu.

Một vài khía cạnh về tri thức có thể được mã hóa trong một từ điển. Đặc tính quan

trọng của một từ điển xuyên ngữ là một đặc tả của đồng nghĩa xuyên ngữ 2. Các mối

2 Đặc tả của đồng nghĩa xuyên ngữ có thể không hoàn toàn vì có một số cụm từ có thể không có bản dịch trực tiếp trong một ngôn ngữ khác.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

15

Page 16: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

quan hệ kế thừa về khái niệm (cụm từ rộng hơn, hay hẹp hơn) và mối quan hệ kết hợp

(cụm từ có liên quan hoặc đồng nghĩa) thường được thêm vào một từ điển phức tạp.

Từ điển có thể được dùng tự động hoặc thủ công. Trong một hệ thống gọi là “vốn từ

được quản lý” (“controlled vocabulary”), mỗi khái niệm được gán nhãn bằng một cụm

từ có tính mô tả để người dùng có thể chỉ rõ những khái niệm thích hợp nhất cho câu

truy vấn của họ. Khi các mối quan hệ về khái niệm được mã hóa trong một từ điển

được sử dụng một cách tự động, thì kĩ thuật đó được gọi là “tìm kiếm theo khái niệm”

(concept retrieval). Trong một hệ thống tìm kiếm theo khái niệm đơn giản, một danh

sách các khái niệm được sử dụng để thay thế mỗi cụm từ bằng lớp khái niệm của nó để

tăng độ bao phủ (dựa trên độ quyết định). Có một hướng tiếp cận phức tạp hơn, gọi là

“mở rộng câu truy vấn” (query expansion) đã sử dụng mối quan hệ giữa các khái niệm

được mã hóa để lựa chọn cụm từ có thể đáp ứng cả độ chính xác và độ bao phủ.

Cả việc thay thế khái niệm lẫn việc mở rộng câu truy vấn đều thể hiện nỗ lực làm tăng

độ bao phủ bằng cách làm giảm ảnh hưởng của vấn đề diễn giải. Độ chính xác có thể

được tăng bằng cách thêm vào các thông tin về cú pháp và ngữ nghĩa trong từ điển để

làm giảm nhẹ ảnh hưởng của từ đa nghĩa 3.Ví dụ, trong một hệ thống thông tin có vốn

từ được quản lý thường được cung cấp một từ điển để người dùng có thể chọn ra cụm

từ chính xác một cách thủ công. Một hệ thống tìm kiếm khái niệm có thể sử dụng ý

tưởng này bằng cách đánh thẻ các từ dựa trên từ loại của chúng và sau đó chọn cách

dịch nào có cùng từ loại.

1.3.2.1 Hệ thống vốn từ được quản lí:

Trước năm 1973 người ta cho rằng cả hệ thống vốn từ được quản lý và hệ thống tìm

kiếm khái niệm bằng từ điển đa ngữ đều có thể thực thi xuyên ngữ giống như là việc

thực thi bên trong một ngôn ngữ với cùng kỹ thuật. Trước năm 1977 đã có 4 hệ thống

tìm kiếm xuyên ngữ được thực thi ở châu Âu. Từ các hệ thống này, nổi lên 6 tiêu chí

3 Giải pháp cho từ đa nghĩa thường được gọi là khử nhập nhằng nghĩa của từ.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

16

Page 17: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

căn bản của các nghiên cứu dựa trên từ điển xuyên ngữ : những tiêu chuẩn về thiết kế,

các công cụ phát triển và duy trì, phần cứng chuyên dụng, các cặp và các lĩnh vực của

ngôn ngữ mới, giao diện người dùng, và việc đánh giá nhu cầu của người dùng.

Trong năm 1970, người ta thấy rõ ràng rằng việc tiêu chuẩn hóa sự phát triển các từ

điển để ngăn chặn “việc tạo ra những đề tài lệch hướng và không phù hợp” là cần

thiết, và năm 1971 UNESCO đã đề ra các tiêu chuẩn cho việc phát triển từ điển đa

ngữ. Trong năm 1973 ISO đã xem xét vấn đề này, và trước năm 1976 bản thảo cho vấn

đề này đã được phổ biến một cách rộng rãi. Được thông qua vào năm 1978 như là

chuẩn ISO 5964 và được chỉnh sửa gần đây nhất vào năm 1985, tiêu chuẩn này đã mô

tả phạm vi tri thức có thể được nội suy bên trong các từ điển đa ngữ như thế nào, và

nhận diện những kỹ thuật khác nhau cho việc phát triển từ điển đa ngữ.

Từ điển EUROVOC của quốc hội châu Âu là một ví dụ của một từ điển đa ngữ hiện

đại theo chuẩn ISO 5964. Được thiết lập lần đầu vào năm 1984, EUROVOC hiện nay

bao gồm 9 ngôn ngữ 4 chính thức của cộng đồng châu Âu, và một phần của nó đã được

dịch sang nhiều ngôn ngữ khác. Việc thiết kế từ điển đòi hỏi chi phí cao, và điều này

đã làm giới hạn lĩnh vực mà hệ thống tìm kiếm dựa trên vốn từ được quản lí có thể

cung cấp. Nhưng EUROVOC chứng minh rằng một khi các mối liên hệ cơ bản về khái

niệm được định nghĩa trong một pham vi nào đó thì việc mở rộng chuẩn từ điển đa

ngữ ISO 5964 cho các ngôn ngữ khác là hoàn toàn thiết thực.

Khi các từ điển đa ngữ gia tăng một cách nhanh chóng, thì các công cụ thiết kế và duy

trì cũng trở nên quan trọng hơn. Trong những năm 1970, có rất nhiều các thủ tục cũng

như các thuật toán đã được nghiên cứu để dùng cho việc trộn các từ điển đơn ngữ

thành một từ điển đa ngữ.

Ngày nay các hệ thống tìm kiếm văn bản xuyên ngữ đã được sử dụng một cách rộng

rãi, nhưng hầu hết các hệ thống thương mại đều sử dụng hướng tiếp cận tìm kiếm dựa

trên so khớp chính xác. Các từ điển đa ngữ phức tạp đã và đang được phát triển trong 4 9 ngôn ngữ là: Đan Mạch, Hà Lan, Anh, Pháp, Đức, Hy Lạp, Ý, Bồ Đào Nha và Tây Ban Nha.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

17

Page 18: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

nhiều ngôn ngữ và lĩnh vực, và các thủ tục dùng để thêm lĩnh vực và ngôn ngữ cũng

được hiểu rõ. Có 3 nhân tố quan trọng khi xây dựng từ điển là : chi phí, những tiện lợi

cho người dùng chưa được huấn luyện, và độ hiệu quả.

Việc xây dựng từ điển là một việc tốn nhiều chi phí. Nhưng việc sử dụng từ điển có

thể tốn nhiều chi phí hơn bởi vì trong một hệ thống có vốn từ được quản lí thì mỗi tài

liệu phải được gán các cụm từ phản ánh các khái niệm chứa trong nó. Mặc dù các công

cụ tự động có thể hỗ trợ giúp tăng năng suất của con người nhưng vì các hoạt động

mang tính trí tuệ của con người đòi hỏi việc tái tổ chức và tổ chức thông tin nên chi

phí sẽ vẫn rất cao.

Một giới hạn quan trọng khác của hệ thống tìm kiếm văn bản dựa trên vốn từ được

quản lý, và giới hạn này cũng xuất hiện trong kỹ thuật tìm kiếm văn bản dựa trên so

khớp chính xác, là những người dùng không được huấn luyện dường như sẽ gặp khó

khăn khi khai thác khả năng của từ điển. Những khác nhau quan trọng giữa người

dùng có kĩ năng và người dùng không được huấn luyện đã được nghiên cứu dựa trên

sự chọn lựa các cụm từ của họ, việc họ sử dụng những mối quan hệ của cụm từ được

mã hóa trong một từ điển, và việc sử dụng các toán tử AND, OR hoặc NOT trong việc

xây dựng câu truy vấn. Trong nhiều trường hợp người ta chứng minh rằng việc cung

cấp những người trung gian được huấn luyện có lợi hơn việc cung cấp những huấn

luyện đầy đủ cho mỗi người dùng. Kỹ thuật tìm kiếm dựa trên sắp xếp được mô tả ở

phần trước cũng giới thiệu một hướng tiếp cận khác để giải quyết vấn đề này. Các hệ

thống tìm kiếm dựa trên sắp xếp thường chấp nhận các câu truy vấn bằng ngôn ngữ tự

nhiên và cho phép sự lựa chọn không ràng buộc các cụm từ. Nói chung, mục đích của

việc tìm kiếm dựa trên sắp xếp không phải để thay thế kĩ thuật so khớp chính xác mà

để làm mạnh thêm các hệ thống bằng những kỹ thuật cải thiện một cách hiệu quả việc

tìm kiếm của những người dùng không được huấn luyện.

1.3.2.2 Tìm kiếm khái niệm:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

18

Page 19: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Một cách khác để biểu diễn các khái niệm trong R là biểu diễn các cụm từ bằng cách

sử dụng từ điển đa ngữ dẫn dắt cho qui trình chọn lựa cụm từ. Đây là một biến thể của

mở rộng câu truy vấn, một kỹ thuật đã được nghiên cứu rất kỹ trong tìm kiếm đơn ngữ 5. Ý tưởng cơ bản của mở rộng câu truy vấn là cung cấp các biến thể sử dụng của cụm

từ bằng cách gia tăng các cụm từ có liên quan trong câu truy vấn.

Gần đây, trong [1] L.Ballesteros đã dùng phương pháp “phản hồi cục bộ ” (local

feedback) để mở rộng câu truy vấn. Phương pháp này là sự kết hợp giữa hai phương

pháp: sửa đổi câu truy vấn trước khi dịch (pre-translation query modification) và sửa

đổi câu truy vấn sau khi dịch (post-translation query modification). Trong nghiên cứu

của mình, ông giới hạn trong hai ngôn ngữ là tiếng Anh và tiếng Tây Ban Nha. Các

câu truy vấn tiếng Anh được lấy từ hệ thống TREC với chiều dài trung bình là 10.6 từ.

Các câu truy vấn tiếng Tây Ban Nha cũng được rút trích từ hệ thống này với chiều dài

trung bình là 4.3 từ. Việc đánh giá tính hiệu quả dựa trên các tài liệu tiếng Anh nằm

trong tập Tipster (vol. 2) có độ lớn 2GB và tập 208M các bài báo tiếng Tây Ban Nha

của báo “El Norte”. Ngữ liệu huấn luyện dùng cho việc phản hồi trước khi dịch là tập

các bài báo này và tập 301 MB cơ sở dữ liệu tin tức của San Jose Mercury từ tập hợp

Tipster. Toàn bộ câu truy vấn sẽ được thực hiện trên hệ thống INQUIRY. Qua thực

nghiệm L.Ballesteros nhận thấy rằng việc sửa đổi câu truy vấn trước khi dịch tạo ra

một cơ sở quan trọng cho việc dịch và nâng cao độ chính xác; việc sửa đổi câu truy

vấn sau khi dịch dựa trên từ điển máy đọc sẽ nâng cao độ bao phủ của tìm kiếm. Và kỹ

thuật này sẽ hiệu quả hơn đối với các câu truy vấn dài vì các câu truy vấn dài sẽ có

nhiều ngữ cảnh hơn giúp giảm tính nhập nhằng. Kết hợp hai qui trình này giúp tăng độ

chính xác trung bình lên 50%. Điều này cho thấy việc mở rộng câu truy vấn sẽ giúp

gia tăng đáng kể độ hiệu quả của hệ tìm kiếm xuyên ngữ.

1.3.2.3 Mã hóa thông tin ngữ nghĩa:

5 Đặc trưng duy nhất của mở rộng câu truy vấn trong truy xuất xuyên ngữ là các cụm từ ban đầu sẽ bị loại ra khỏi câu truy vấn mở rộng nếu nó không mang cùng một nghĩa trong cả 2 ngôn ngữ

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

19

Page 20: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Một khía cạnh khác của dự án EMIR[2] là việc ứng dụng việc phân rã nhanh nhưng

không sâu để tận dụng thông tin ngữ nghĩa được mã hóa trong từ điển. Số lượng các

cụm từ tiếng Anh được giảm bằng cách gán nhãn từng cụm từ tiếng Anh với từ loại

tương ứng của nó, và sau đó chỉ chọn những từ tiếng Anh có cách sử dụng cú pháp

tương tự các cụm từ tiếng Pháp. Từ điển EMIR là một danh sách song ngữ các cụm từ

trong đó thông tin ngữ nghĩa được mã hóa như là các từ ghép, được sử dụng để thay

thế các mối quan hệ về khái niệm. Trong EMIR, các cụm từ bao gồm các từ, các ngữ

và từ ghép. Bởi vì các từ ghép nối các từ khóa với nhau dựa trên nền tảng là mối quan

hệ về ngữ nghĩa thay vì hình thức bề ngoài của chúng, do đó việc đưa ra các công thức

cho từ ghép sẽ tốt hơn việc rút trích các ngữ đơn giản. Bởi vì trật tự của các từ trong từ

ghép thường thay đổi trong ngôn ngữ đích, nên các mục từ của cụm từ ghép đã được

thiết lập để giải thích cho việc chuyển đổi khi cần.

Phiên bản EMIR của SPIRIT đã được đánh giá trên tập 1398 các khái niệm về hàng

không của Cranfield bằng cách sử dụng 225 câu truy vấn đã được Trung tâm tư liệu

quân đội Pháp dịch sang tiếng Pháp. Các tài liệu tiếng Anh được tìm kiếm đáp ứng các

câu truy vấn tiếng Pháp. Để so sánh, các câu truy vấn tiếng Pháp sau đó được dịch trở

lại sang tiếng Anh bằng cách sử dụng hệ thống dịch tự động SYSTRAN và các tài liệu

được chọn bằng cách sử dụng phiên bản đơn ngữ của hệ thống tìm kiếm SPIRIT. Cụ

thể như sau:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

20

Page 21: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

10 20 30 40 50 60 70 80 90

Độ bao phủ

Độ

chín

h xá

c

EMIR

SYSTRAN

SPIRIT Anglais

Hình 1.3 So sánh tìm kiếm đơn ngữ của SPIRIT, tìm kiếm song ngữ của EMIR và dịch

câu truy vấn của SYSTRAN

1.3.2.4 Đánh giá ưu khuyết điểm:

Ưu điểm :

Tài nguyên từ điển thì phổ biến và sẵn có hơn ngữ liệu song song do đó hướng tiếp cận

dựa trên từ điển có thể được xem là lựa chọn tốt hơn các hướng tiếp cận còn lại. Mặc

dù chiều sâu của từ điển là hạn chế nhưng phạm vi của nó thì đủ rộng để chúng ta có

thể dịch các câu truy vấn thuộc nhiều đề tài khác nhau. Mặt khác, hiện nay các từ điển

điện tử là khá phong phú, chúng ta có thể tận dụng nguồn tài nguyên này để cấu trúc

hóa và rút trích các thông tin cần thiết cho từ điển máy đọc dùng trong các hệ xuyên

ngữ.

Khuyết điểm:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

21

Page 22: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Việc dịch tự động dựa trên từ điển chỉ đạt 50% hiệu quả do các bản dịch nhập nhằng.

Một trong hai nguyên nhân chính là việc chuyển đổi từ vựng dẫn đến việc thêm rất

nhiều từ khác. Theo nguyên cứu của L. Ballesteros, điều này dẫn đến việc mất 12-29%

thể hiện của câu truy vấn trong khi dịch và gây nên vấn đề khi dịch các câu truy vấn

dài. Nguyên nhân thứ hai là việc mất các ngữ khi dịch word by word, dẩn đến việc mất

20 – 25% . Thêm vào đó, các câu truy vấn thường chứa các thuật ngữ, mà các thuật

ngữ này thường không có trong từ điển tổng quát. Nếu chúng ta không có từ điển

chuyên ngành hoặc từ điển thuật ngữ thì hiệu quả của hệ thống sẽ càng thấp. Tuy

nhiên, những khuyết điểm trên đây sẽ là động lực thúc đẩy chúng ta tiếp tục nghiên

cứu và tìm hiểu các phương pháp nhằm nâng cao tính hiệu quả của hướng tiếp cận

này.

1.3.3 Dựa trên ngữ liệu (Corpus-based techniques):

Ngoài cách sử dụng từ điển, chúng ta có thể khai thác trực tiếp thông tin thống kê về

cách dùng thông thường của các cụm từ từ ngữ liệu song song. Cách tiếp cận trực tiếp

này rất thích hợp để tích hợp với các kỹ thuật tìm kiếm dựa trên việc thống kê cách

dùng thông thường của các cụm từ. Kỹ thuật tìm kiếm thống kê thường tận dụng hai

nhận xét quan trọng về cách dùng thông thường của cụm từ. Nhận xét đầu tiên là

những tài liệu mà người dùng đánh giá là cùng loại thì nhìn chung thường sử dụng các

cụm từ tương tự nhau. Quay trở lại mô hình 1.1, q và d được thiết kế một cách đặc

trưng để trích ra các thông tin về tần số của cụm từ và c được thiết kế để tận dụng điều

này. Nhận xét thứ hai là các cụm từ hiếm và ít phổ biến thì sẽ giúp ích rất nhiều cho

việc phân biệt giữa các tài liệu . Các cụm từ phổ biến mang ít nội dung thường bị loại

bỏ bởi một danh sách stoplist, và các cụm từ còn lại thường được tính trọng số bằng

cách sử dụng “tần số tài liệu đảo ” thường được tính như sau:

⎟⎟⎠

⎞⎜⎜⎝

⎛=

itermwithdocumentsofNumberdocumentsofNumberidfi 2log

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

22

Page 23: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Kết hợp hai kết quả ta gọi là “tfidf” (term frequency and inverse document frequency -

tần số của từ và tần số tài liệu đảo )

tfidfij = tfij * idfi

tfij là số lần từ i xuất hiện trong tài liệu j.

Một vài kỹ thuật có thể được sử dụng để xây dựng hàm so sánh c cho một thể hiện

tfidf. Có thể kỹ thuật đơn giản nhất là kỹ thuật dùng không gian vector, trong đó các

vector của trọng số tfidf được thiết lập bởi q và d và kết quả được chuẩn hoá bên trong

của 2 vector được tính nhờ vào c. Kết quả này cho ra một giá trị mong muốn, là một

hàm tăng nghiêm ngặt đối với bất cứ việc giảm nào của sự khác nhau của 2 giá trị tfidf

giống nhau. Nói một cách khác, mang 2 vector lại gần nhau theo bất cứ chiều nào sẽ

làm tăng tính tương đồng của chúng. Bởi vì kết quả chuẩn hóa bên trong của 2 vector

là cosin của góc giữa 2 vector trong không gian vector, nên kết quả này được biết đến

như là phép đo độ tương đồng dùng hàm số cosin. Hệ thống SMART, được Salton

phát triển, là một ví dụ về hệ thống tìm kiếm sử dụng không gian vector.

Kỹ thuật tìm kiếm dựa trên xác suất thường thực thi một hàm c phức tạp hơn. Thường

dựa trên một giả định đơn giản là j (hoặc r ) là giá trị nhị phân (nghĩa là mọi tài liệu có

hoặc có liên quan hoặc không có liên quan ), kỹ thuật tìm kiếm dựa trên xác suất thực

hiện việc tìm kiếm để ước lượng xác suất mà một tài liệu cho trước có liên quan dựa

trên độ tương quan hoặc tfidf. Hệ thống INQUIRY được Croft và các cộng sự phát

triển là một ví dụ cho hệ thống tìm kiếm dựa trên xác suất.

1.3.3.1 Xây dựng từ điển tự động:

Về ý nghĩa, các kỹ thuật dựa trên ngữ liệu có thể được xem như là một loại của kỹ

thuật xây dựng từ điển tự động, trong đó thông tin về mối quan hệ giữa các từ được tạo

ra từ các con số thống kê cách sử dụng thông thường của từ. Sự khác nhau là ở chỗ từ

điển này không cần con người xây dựng. Giống như các kỹ thuật tìm kiếm xuyên ngôn

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

23

Page 24: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

ngữ khác, kỹ thuật xây dựng từ điển tự động là một nghiên cứu quan trọng kế thừa từ

ngữ cảnh của tìm kiếm đơn ngữ. Một số lượng đáng kể các nghiên cứu về đề tài này đã

xuất hiện và được công bố trong tài liệu về dịch máy. Ở đây chúng tôi trình bày hai kỹ

thuật để xây dựng từ điển đa ngữ từ khía cạnh tìm kiếm.

Kỹ thuật đầu tiên, người ta đã thực nghiệm trên 1.100 ngữ danh từ lấy từ ngữ liệu song

song của khoảng 1.000 cặp câu dài tiếng Hà Lan và tiếng Anh trong một tài liệu kỹ

thuật 6. Các ngữ danh từ trong mỗi cặp câu được nhận diện bằng cách sử dụng một thẻ

từ loại thống kê và một bộ parser đơn giản. Các ứng viên dịch cho mỗi ngữ danh từ

tiếng Hà Lan được tạo ra bằng cách so sánh tần số của mỗi cụm tiếng Anh xuất hiện

trong một cặp câu tiếng Anh chứa ngữ danh từ, với tần số mà mỗi từ tiếng Anh xuất

hiện trong toàn tập tài liệu. Một đặc tính khác được thêm vào giúp cho việc ngăn chặn

các chọn lựa ngữ danh từ xuất hiện ở những vị trí liên quan khác nhau trong các cặp

câu.

Các tham số được tìm thấy cho các kết quả trong việc nhận diện các bản dịch đơn

chính xác đến 45%, và nhiều lựa chọn khác mà các lựa chọn này tạo ra một danh sách

các ứng viên của các bản dịch trong đó chứa 66% các bản dịch đơn chính xác. Việc

dóng câu, đánh tag từ loại và phân rã lỗi chiếm 85% các lỗi, và các nghiên cứu cho

thấy rằng việc chọn lựa chặn trên cho việc biểu diễn kỹ thuật của mình sẽ nâng tỉ lệ

các bản dịch đơn chính xác lên 69% hoặc thêm khoảng 95% các bản dịch chính xác

vào một danh sách. Bởi vì ngữ liệu song song có kích thước nhỏ nên không thể quyết

định việc thực thi của kỹ thuật khi có nhiều hơn một bản dịch của cùng một từ xuất

hiện trong ngữ liệu 7. Kết quả của từ vựng song ngữ không được sử dụng cho việc tìm

kiếm văn bản, vì thế chúng ta không thể quyết định điều gì làm ảnh hưởng đến các lỗi

dịch sẽ có hiệu quả cho việc tìm kiếm. Hơn nữa, chúng ta không thể đưa ra các hướng

dẫn về việc liệu việc giảm độ chính xác, kết quả của việc tăng số lượng ứng viên có

6 Chiều dài trung bình của câu là hơn 24 từ. Các câu được gióng hàng bằng cách sử dụng kỹ thuật thống kê, và 7% các cặp câu sau đó được phát hiện là bị gióng hàng sai 7 71% các ngữ danh từ bằng tiếng Hà Lan xuất hiện chỉ 1 lần trong toàn bộ tập tài liệu

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

24

Page 25: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

thể được bù đắp bằng cách tăng độ bao phủ, kết quả của việc thêm vào bản dịch chính

xác trong danh sách.

1.3.3.2 Dịch dựa vào vector thuật ngữ (Term Vector Translation):

Chúng ta quan tâm đến những kỹ thuật tìm kiếm văn bản đa ngữ dựa vào ngữ liệu tạo

ra những ánh xạ không phải dành cho người dùng. Nghĩa là chúng ta xem xét những

kỹ thuật tìm kiếm văn bản đa ngữ dựa vào thống kê mà mục đích là để ánh xạ thông

tin thống kê về thuật ngữ sử dụng giữa các ngôn ngữ. Cụ thể là chúng ta xem xét các

kỹ thuật ánh xạ các tập tfidf (term frequency and inverse document frequency) bao

gồm các trọng số của các cụm từ từ một ngôn ngữ này sang ngôn ngữ khác, phương

pháp này ta gọi là dịch dựa vào vector thuật ngữ.

Xét trường hợp hai ngôn ngữ, chúng ta có ba tập tài liệu tiếng Anh, tiếng Pháp và tập

còn lại là song song (nghĩa là mỗi tài liệu trong tập song song là một cặp tiếng Anh và

bản dịch tiếng Pháp). Mỗi câu truy vấn đầu tiên thể hiện cho tập song song, và những

tài liệu trong đó được sắp xếp dựa trên mức độ giống nhau của câu truy vấn với bản

dịch của những tài liệu theo ngôn ngữ của câu truy vấn. Những tài liệu tiếng Pháp có

thứ tự sắp xếp cao nhất được ghép lại và được dùng như một câu truy vấn cho những

tài liệu tiếng Pháp còn lại. Đây chính là phương pháp phản hồi thích hợp (relevance

feedback). Tương tự cho tài liệu tiếng Anh. Sau đó 3 danh sách đã sắp xếp được nối lại

và hiển thị cho người dùng.

Phản hồi thích hợp (relevance feedback) là một kỹ thuật thông thường được dùng

trong tìm kiếm thông tin dựa vào thống kê. Một vector chuẩn hóa tfidf là một xấp xỉ

heuristic cho sự phân bổ mật độ của một từ trong một tài liệu. Theo đó, kết quả bên

trong đã chuẩn hóa chỉ đơn giản là sự tương quan giữa 2 tài liệu mô tả bởi những phân

bổ này. Vì chất lượng của sự phân bổ theo Heuristic có thể được cải tiến bằng cách

thêm những giám sát, nên phản hồi thích hợp có thể được xem là cách tiếp cận

heuristic làm mịn hóa những phân bổ không hợp lý trong những câu truy vấn ngắn.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

25

Page 26: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Nói cách khác, những từ ngữ không quan trọng bị bỏ đi và những từ ngữ quan trọng có

liên quan ngày càng được chuẩn hóa tốt hơn.

Trong thí nghiệm TREC-4, Davis và Dunning[3] đã thử 3 kỹ thuật dịch vector cho các

thuật ngữ khá phức tạp. Sử dụng 80.000 cặp câu đã gióng hàng trong một ngữ liệu bao

gồm những tài liệu của Liên Hiệp Quốc, đầu tiên họ chọn 8.000 câu tiếng Anh làm

những bản gốc tốt nhất cho mỗi câu truy vấn TREC. Sau đó, họ sử dụng những bản

dịch tiếng Tây Ban Nha của 8.000 câu đó để chọn ra 100 từ ngữ thông dụng liên quan

đến mỗi câu truy vấn. Những từ ngữ được xóa tương ứng từ tập này bằng cách sử dụng

thủ thuật cải tiến chương trình với mục đích tìm ra một câu truy vấn tiếng Tây Ban

Nha, sao cho câu truy vấn này có thể chọn những câu tiếng Tây Ban Nha giống như

cách mà câu truy vấn tiếng Anh chọn những tài liệu tiếng Anh. Bước lập trình tiến hóa

chỉ tăng độ chính xác trung bình từ 0.004 đến 0.02, nhưng theo quan sát cho thấy việc

cải tiến thêm có thể chấp nhận được nếu có sẵn một ngữ liệu huấn luyện song song

trong phạm vi có liên quan mật thiết đến phạm vi mà ta đang khảo sát.

Kỹ thuật thứ hai dựa vào cùng một ngữ liệu huấn luyện của những câu đã được gióng

hàng. Davis và Dunning đã chọn 100 thuật ngữ có xác suất lớn nhất từ tập các từ xuất

hiện trong những câu tiếng Tây Ban Nha đã được gióng hàng với 100 câu gần nghĩa

nhất với mỗi câu truy vấn tiếng Anh. Kỹ thuật này đạt độ chính xác 0.02.

Kỹ thuật cuối cùng của Davis và Dunning dựa vào việc dịch trực tiếp các vector thuật

ngữ sử dụng một toán tử tuyến tính. Họ bắt đầu bằng cách thiết lập một ma trận từ tập

các vector tfidf từ những bản dịch tiếng Tây Ban Nha của những câu đã gióng hàng và

một ma trận thứ hai là từ những bản dịch tiếng Tây Ban Nha của những câu này. Sau

đó, họ giải những phép toán trên tập những vector không xác định để tìm ra một toán

tử tuyến tính dùng cho việc dịch ma trận tiếng Tây Ban Nha sang ma trận tiếng Anh.

Sau đó, họ dùng toán tử đó để dịch vector tfidf của mỗi câu truy vấn tiếng Anh sang

một vector tfidf tiếng Tây Ban Nha và sử dụng vector được dịch để sắp xếp những tài

liệu tiếng Tây Ban Nha. Tuy nhiên, họ cảnh báo rằng những giải thuật của họ để tính

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

26

Page 27: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

toán tử tuyến tính chỉ là một cách ban đầu, còn rất nhiều cách tốt hơn có thể sử dụng

kỹ thuật này.

Giáo sư Oard và những giáo sư khác trong trường Đại học University of Maryland đã

đưa ra một phương pháp dịch dựa vào vector thuật ngữ khác dựa trên ngữ liệu song

song đã được gióng hàng ở mức từ . Xây dựng dựa vào những kỹ thuật gióng hàng

cụm từ tương tự với những kỹ thuật của Van de Eijk, họ mô tả một kỹ thuật dùng danh

sách các từ (ngữ) song ngữ trong đó những cách dịch khác nhau của mỗi từ được gán

những giá trị thích hợp. Họ dùng từ song ngữ này như một toán tử tuyến tính để ánh xạ

những vector truy vấn sang ngôn ngữ khác. Họ cho rằng phương pháp này có thể kết

hợp với khả năng của một hệ thống tìm kiếm văn bản dựa vào thống kê để khai thác

thông tin chính xác, nhưng kỹ thuật này vẫn chưa được thực hiện và cấu trúc của danh

sách từ (ngữ) song ngữ được đặt ra cũng đang là một nhiệm vụ khó thực thi.

1.3.3.3 Chỉ mục ngữ nghĩa ngầm (Latent Semantic Indexing):

Một kỹ thuật thống kê khác được áp dụng để tìm kiếm tài liệu đa ngôn ngữ là kỹ thuật

chỉ mục ngữ nghĩa ngầm (Latent Semantic Indexing – LSI). Ý tưởng cơ bản là sử dụng

một ma trận phân tích để xác định những thành phần chính của vector không gian

được xác định bởi tập tài liệu, và sau đó chiếu vector lên không gian được mở rộng bởi

những thành phần chính đó. Trong kỹ thuật LSI, những thành phần chính được xem là

thể hiện cho những khái niệm quan trọng, trong khi những thành phần ít quan trọng

hơn được xem là những biến đổi trong cách sử dụng khác nhau của từ. Vì thế LSI nhấn

mạnh khía cạnh quan trọng của tfidf và bỏ qua hiệu quả của cách sử dụng từ ngữ khác

nhau. Sau đó, các tài liệu được so sánh bằng cách sử dụng phép đo độ tương đồng

bằng hàm số cosin và được sắp xếp để hiển thị.

Hướng tiếp cận căn bản đã được Michael L.Littman nêu rõ trong [4]. LSI kiểm tra tính

giống nhau của các ngữ cảnh mà trong đó các từ xuất hiện và tạo ra một không gian

đặc tính có các từ đồng xuất hiện trong cùng ngữ cảnh thì ở gần nhau. Nghĩa là, đầu

tiên phương pháp này tạo ra một biểu diễn giữ lại các đặc điểm giống nhau về nghĩa

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

27

Page 28: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

của các từ và sau đó sử dụng biểu diễn này để tìm kiếm. Không gian đặc tính ban đầu

sẽ phản ánh các mối quan hệ tương quan này. LSI sử dụng một phương pháp từ đại số

học tuyến tính, việc phân rã các giá trị đơn (SVD) để tìm ra tầm quan trọng của các

mối quan hệ. Không cần phải sử dụng bất cứ từ điển nào, bất cứ cơ sở tri thức nào để

quyết định mối kết hợp giữa các từ vì chúng được bắt nguồn từ việc phân tích số học

các văn bản tồn tại. Các mối quan hệ đã được biết được xác định cho một lĩnh vực

riêng và được tạo ra hoàn toàn tự động.

Kĩ thuật phân rã các giá trị đơn có quan hệ mật thiết với việc phân rã vector và việc

phân tích các thừa số. Để có nhiều thông tin tìm kiếm và để lọc các ứng dụng chúng ta

tạo một ma trận lớn cụm từ - tài liệu, theo cách mà hướng tiếp cận vector hoặc

Boolean làm. Ma trận này được phân rã thành một tập k thường là 200 – 300, các thừa

số chung từ tập này có thể được xấp xỉ bằng cách kết hợp tuyến tính; việc phân tích

này có liên quan đến cấu trúc ngầm (latent) trong ma trận. Hình 1.4 minh họa ảnh

hưởng của LSI lên việc biểu diễn các từ bằng cách sử dụng hình học. Phương pháp

vector truyền thống biểu diễn các tài liệu như là sự kết hợp tuyến tính của các cụm từ

trực giao, như được trình bày ở phần trên của hình, để góc giữa hai tài liệu sẽ phụ

thuộc vào tần số mà hai từ đồng xuất hiện trong hai tài liệu, không quan tâm đến tương

quan giữa hai từ. Trong hình ta thấy, Doc 3 liên chứa Term 2, Doc 1 chứa Term 1 và

Doc 2 chứa cả hai. Ngược lại, LSI biểu diễn các từ như là các giá trị liên tục trên mỗi

chiều k. Vì số các thừa số hoặc các chiều thì nhỏ hơn rất nhiều so với số lượng các từ,

nên các từ sẽ không độc lập như mô tả ở hình dưới. Khi hai từ được sử dụng trong

cùng một ngữ cảnh (tài liệu), chúng sẽ có cùng một vector trong biểu diễn LSI có

chiều tối giản.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

28

Page 29: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Standard Vector Space Mode (ndims=nternns)

Term1

Tern

2

Doc3

Doc2

Doc1

Reduced LSI Vector Space Model (ndims<<nterns)

0

2

4

6

8

10

12

0.5 1 1.5 2 2.5 3 3.5

LSI Dimension 1

LSI D

imen

sion

2

Doc1 Doc3

Doc2

Doc4

Hình 1.4 Biểu diễn các từ trong vector chuẩn so vớ

Kết quả của LSI là một tập các vector biểu diễn vị trí của m

diễn LSI có k chiều. Các qui trình tìm kiếm bằng cách sử

GVHD: TS. Hồ Bảo Quốc Nguyễ TS. Đinh Điền Nguyễ

29

Term 4

Term 2Te

rm 1

4

i vect

ỗi từ

dụng

n Thịn Thị

Term 3

4.5 5 5.5

or tối giản LSI

và tài liệu trong biểu

các từ trong một câu

Hồng Nhung - 0112235 Tuyết Mai - 0112229

Page 30: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

truy vấn để nhận ra một điểm trong không gian một cách tự động, câu truy vấn sẽ được

định vị tại vector tổng được đánh trọng số của các vector thành phần Các tài liệu sau

đó sẽ được sắp xếp dựa trên sự giống nhau của chúng đối với câu truy vấn, thường là

dùng giá trị cosin để tính. Trong khi hầu hết các ngữ cảnh tìm kiếm phổ biến liên quan

đến các tài liệu trả về thỏa các câu truy vấn của người dùng , việc biểu diễn LSI cho

phép nhiều ngữ cảnh tìm kiếm hơn. Vì cả vector từ lẫn vector tài liệu đều được biểu

diễn trong cùng một không gian, nên chúng ta có thể tìm kiếm sự giống nhau giữa bất

cứ sự kết hợp nào của các từ và các tài liệu.

Các tài liệu mới ( hoặc các từ mới ) có thể được thêm vào biểu diễn LSI bằng cách sử

dụng một thủ tục gọi là “folding in”. Bất cứ tài liệu nào không được dùng trong việc

xây dựng không gian ngữ nghĩa được đặt tại vector tổng của các vector thành phần của

nó. Trong tìm kiếm tài liệu đơn ngữ, phương pháp LSI cho hiệu quả tương đương với

phương pháp vector chuẩn trong hầu hết các trường hợp, và tốt hơn 30% trong một vài

trường hợp.

1.3.3.4 Đánh giá ưu khuyết điểm:

Ưu điểm:

Phương pháp dựa trên ngữ liệu cho độ chính xác của các bản dịch cao hơn so với

phương pháp dựa trên MRD. Do đó làm cho độ hiệu quả của hệ thống tìm kiếm khá

cao.

Khuyết điểm:

Khuyết điểm lớn nhất của phương pháp này là sự thiếu thốn ngữ liệu lớn. Để xây dựng

một ngữ liệu huấn luyện lớn cần rất nhiều thời gian và chi phí rất cao.

1.4 Một số công trình nghiên cứu trong và ngoài nước:

1.4.1 Ở Việt Nam:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

30

Page 31: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Theo tìm hiểu của chúng tôi, trong nước hiện nay đã có một số công trình nghiên cứu

liên quan như sau:

1. “Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin trên văn

bản tiếng Việt”, Hồ Bảo Quốc, Đồng Thị Bích Thủy, Hội thảo quốc gia về

Công nghệ thông tin – Thái Nguyên – Việt Nam 8/2003.

2. “An Introduction to Vietnamese Information Retrieval”, Marie-France BRUANDET, Jean-Pierre CHEVALLET, Dong Thi Bich Thuy, Bao-Quoc Ho.

Ngoài các nghiên cứu này, hiện tại còn có đề tài nghiên cứu khoa học trọng điểm đại

học quốc gia TPHCM (2005) đang trong giai đoạn phát triển: “Xây dựng chương trình

trợ giúp tìm kiếm thông tin bằng tiếng Việt” do PGS.TS Phan Thị Tươi đại học Bách

Khoa TPHCM làm chủ nhiệm đề tài.

1.4.2 Trên thế giới:

Đối với tiếng Việt: hiện có hai đề tài liên quan đến tìm kiếm xuyên ngữ

bằng tiếng Việt:

1. “Cross Language Medical Information Retrieval”, Trần Đức Tuấn, Nicolas Goercebu - Đại học Rennes.(đang trong giai đoạn chạy thử nghiệm)

2. “CLIR in English and Vietnamese”, Nguyễn Văn Bé Hai, Ross Wilkinson, Justin Zabel - RMIT.

Đối với các ngôn ngữ khác: có rất nhiều công trình nghiên cứu đã được

công bố cũng như ứng dụng đã được đưa vào sử dụng từ rất sớm:

Liên tục trong các năm 1997, 1998 L.Ballesteros và Bruce Croft[1][5][6] đã đưa ra các

bài báo liên quan đến các vấn đề trong hướng tiếp cận dựa trên từ điển: “Phương pháp

dựa trên từ điển cho hệ thống tìm kiếm xuyên ngữ”, “Kỹ thuật dịch ngữ và mở rộng

câu truy vấn cho hệ thống tìm kiếm xuyên ngữ”, “Giải quyết việc khử nhập nhằng cho

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

31

Page 32: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

tìm kiếm xuyên ngữ”. Trong đó, họ đã sử dụng từ điển song ngữ Anh-Tây Ban Nha để

tìm kiếm các tài liệu tiếng Anh và tiếng Tây Ban Nha.

Bên cạnh Ballesteros, Davis và Hull, trong năm 1998 này Yamabana [7] đã xây dựng

hệ thống tìm kiếm xuyên ngữ Anh – Nhật theo hướng tiếp cận dựa trên dịch máy và

kết hợp với việc lựa chọn từ dựa trên tần số rút trích từ ngữ liệu không song song.

Năm 2002, Atsushi Fujii và Tetsuya Ishikawa [8] đã công bố hệ thống tìm kiếm xuyên

ngữ Nhật – Anh.theo hướng tiếp cận dựa trên ngữ liệu đơn ngữ. Trong hệ thống này

ngoài việc dịch một từ thông thường, Atsushi còn dịch các từ ghép.

1.5 Kết luận:

Các kỹ thuật dựa trên vốn từ được điều khiển đã phát triển rất tốt, nhưng cấu trúc đầy

đủ của từ điển đồng nghĩa tự động vẫn còn quá đơn giản. Hơn nữa, những kỹ thuật tìm

kiếm khái niệm đa ngữ như kỹ thuật mở rộng câu truy vấn có thể khai thác thông tin

được mã hóa trong từ điển mà con người không can thiệp được ở mức index hoặc thời

gian truy vấn vì thế giới hạn việc ước lượng tính hiệu quả trong ngôn ngữ của cùng

một kỹ thuật trong cùng một phạm vi. Nếu không có một cấu trúc từ điển tự động hiệu

quả, miền giới hạn của những kỹ thuật tìm kiếm dựa vào khái niệm sẽ vẫn còn rất lớn.

Sự non nớt của những kỹ thuật dựa vào ngữ liệu cho thấy những từ điển đồng nghĩa

trên thực tế vẫn là một thành phần quan trọng với bất kỳ hệ thống tìm kiếm đa ngôn

ngữ nào, bất chấp mô hình so khớp chính xác hay mô hình tìm kiếm dựa trên sắp xếp

được sử dụng. Hơn nữa, sự tích hợp từ điển với những kỹ thuật dựa trên thống kê ngữ

liệu là một phạm vi của những nghiên cứu hiện tại trong ngôn ngữ học tính toán, và có

một số tính năng được tận dụng khi kết hợp hai kỹ thuật lại. Bởi vì những từ điển đồng

nghĩa phức tạp nhất dùng cho việc tìm kiếm đa ngữ hiện tại bị điều khiển bởi những hệ

thống từ vựng nên những hiệu quả của nghiên cứu đang diễn ra là đòn bẩy cho nghiên

cứu của chúng ta.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

32

Page 33: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Những phạm vi khác nhau của những ngữ liệu song song có sẵn và ngữ liệu có sẵn

những đánh giá thích hợp vẫn là một trở ngại lớn nhất cho việc đánh giá những kỹ

thuật dựa vào ngữ liệu. Chúng ta không biết rằng một thể hiện của một ngữ liệu song

song lớn ứng với một tập các câu truy vấn có liên quan với những đánh giá thích hợp

là sẵn có. Nếu không có một ngữ liệu như thế thì một thiết kế thực nghiệm tốt nhất có

thể có được thiết lập là để huấn luyện trên một ngữ liệu song song từ phạm vi giống

với phạm vi của ngữ liệu đánh giá. Thật không may, chúng ta không biết được bất kỳ

kỹ thuật nào để ước lượng độ hiệu quả, hoặc độ sai lệch khi kết hợp giữa sự huấn

luyện và phạm vi đánh giá. Nếu không có ngữ liệu song song có sẵn những đánh giá

thích hợp và không có cách tính ước lượng hiệu quả của một phạm vi khác thì sẽ

không thể đưa ra những khảo sát cuối cùng từ những nghiên cứu có quy mô lớn như

những nghiên cứu của Davis và Dunning .

Việc thực hiện những kỹ thuật đơn ngữ trong điều kiện thí nghiệm tương tự dường như

là một điểm chuẩn làm cận trên của hiệu quả tìm kiếm. Không có một bằng chứng nào

cho thấy những kỹ thuật đa ngữ có thể vượt qua hẳn những kỹ thuật đơn ngữ. Fluhr và

Radwan đã chỉ ra rằng việc hạ thấp biên của độ hiệu quả của một hệ thống tìm kiếm đa

ngữ so với độ hiệu quả của hướng tiếp cận theo module (theo hướng tiếp cận này dịch

máy hoàn toàn tự động được dùng để tiền xử lý câu truy vấn) là hợp lý. Sự hoà hợp

của hai quan điểm này làm việc so sánh những kỹ thuật tìm kiếm đa ngữ qua những thí

nghiệm khác nhau dễ dàng hơn. Tuy nhiên, nguồn tài nguyên yêu cầu ở đây để nhận ra

khả năng tiềm tàng của những hệ thống dịch máy hiện đại hoàn toàn tự động để có thể

giới hạn tiện ích của phương pháp này trong những nghiên cứu nhỏ hơn.

Một sự khác biệt quan trọng giữa tìm kiếm đơn ngữ và tìm kiếm đa ngữ là có nhiều

nghĩa xuất hiện tạo ra điểm giới hạn chủ yếu. Cụ thể là tính nhiều nghĩa của từ trở

thành một vấn đề lớn trong tìm kiếm đa ngữ hơn là trong tìm kiếm đơn ngữ khi kích cỡ

của phạm vi tăng. Ba nhà nghiên cứu thực hiện với những thí nghiệm rất khác nhau đã

công bố rằng tính nhiều nghĩa của từ có thể được giảm bớt bằng cách sử dụng thông

tin ngữ pháp và ngữ nghĩa trong đó loại đơn giản nhất là cụm từ. Điều này cho thấy

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

33

Page 34: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

việc khử nhập nhằng nghĩa của từ (cũng như cụm từ) chỉ ra khả năng có hạn trong ngữ

cảnh đơn ngữ, nhưng đó là một bước đi có lợi cho nghiên cứu xa hơn.

Vấn đề quan trọng trong ứng dụng của bất cứ kỹ thuật xử lý ngôn ngữ tự nhiên nào

cho việc tìm kiếm đa ngữ là cải thiện độ chính xác mà không bị ảnh hưởng của độ bao

phủ. Điều này giải thích cho sự khảo sát những kỹ thuật tương đối đơn giản được thiết

kế làm giảm hẳn những ý nghĩa trong phạm vi đó. Một trong những khó khăn thường

gặp trong khi dịch câu truy vấn là đối với những câu truy vấn ngắn có thể làm tăng

nguy cơ gây ra hiệu quả ngược lại vì tính nhiều nghĩa của từ bằng cách giới hạn ngữ

cảnh theo nghĩa của từ. Để giải quyết vấn đề này, ta sử dụng thông tin có cấu trúc từ

không gian tài liệu để làm tăng phạm vi cụ thể của việc dịch câu truy vấn.

Trong ba hướng tiếp cận của tìm kiếm xuyên ngữ có thể nói hướng tiếp cận dựa trên từ

điển là khả thi nhất trong bối cảnh hiện nay của tiếng Việt. Như đã nêu trong phần ưu

và khuyết điểm của hướng tiếp cận này, ta có thể nhận thấy tiếp cận dựa trên từ điển

không đòi hỏi một nguồn tài nguyên lớn hay khó tìm kiếm. Thêm vào đó, nguồn tài

nguyên từ điển điện tử ở nước ta cũng khá phong phú. Chúng ta có thể tận dụng các từ

điển này cho việc xây dựng một từ điển máy đọc cho hệ tìm kiếm xuyên ngữ. Đây

cũng là lý do mà chúng tôi lựa chọn hướng tiếp cận dựa trên từ điển cho hệ thống tìm

kiếm xuyên ngữ. Mặc dù hiệu quả của nó chưa cao, nhưng chính việc khắc phục

khuyết điềm này sẽ là động lực cho các nghiên cứu tiếp theo.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

34

Page 35: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Chương 2: CƠ SỞ LÝ THUYẾT

Trong chương này, chúng tôi trình bày các cơ sở lý thuyết mà dựa vào đó xây dựng hệ

thống. Chúng tôi không có tham vọng trình bày chi tiết, đầy đủ tất cả các hướng tiếp

cận mà chỉ trình bày tổng quan một số hướng tiếp cận và từ đó nhận xét, đánh giá từng

hướng tiếp cận để có thể đưa ra các lựa chọn thích hợp nhất cho hệ thống. Chúng tôi sẽ

trình bày các nội dung:

Từ điển máy đọc - MRD (Machine Readable Dictionary).

Các phương pháp tách từ.

Các phương pháp khử nhập nhằng.

2.1 Giới thiệu về MRD (Machine Readable Dictionary) 2.1.1 Sơ lược lịch sử phát triển MRD trên thế giới:

2.1.1.1 Lịch sử của những tài nguyên từ vựng máy đọc:

Những hệ thống xử lý ngôn ngữ (NLP – Natural Language Processing) trước đây có

khuynh hướng sử dụng những từ điển đồng nghĩa và từ điển ngữ pháp có từ và cú pháp

đơn giản. Về cơ bản, những từ điển này chỉ chứa số lượng từ tương đối (ít hơn 1.000

từ so với 20.000 từ thông dụng mà người bình thường sử dụng) và chấp nhận là đã

đúng ở trong một vài cấu trúc cú pháp. Những ràng buộc này làm những nhà nghiên

cứu tập trung vào những điều khó khăn trước mắt của NLP chẳng hạn như phân tích

hình thái, dịch theo ngữ pháp và ngữ nghĩa.

Mười năm trở lại đây, những nhà nghiên cứu bắt đầu nhận ra được vấn đề “đầu vào

không giới hạn” (unrestricted input) với mục tiêu cuối cùng là cho phép hệ thống NLP

nhận bất cứ đầu vào nào của ngôn ngữ đang xét. Điều này là một thách thức lớn khi

xét đến kho thành ngữ sẵn có trong tiếng Anh và một số ngôn ngữ khác đặc biệt là văn

nói.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

35

Page 36: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Tuy nhiên để hệ thống NLP có thể giải quyết được vấn đề đầu vào không giới hạn,

những nhà nghiên cứu cần hiểu rõ cả về từ ngữ và ngữ pháp của ngôn ngữ đang xét.

Sau đây chúng ta xét những tài nguyên từ vựng đã được phát triển.

2.1.1.2 Những tài nguyên từ vựng trong năm 1980:

Câu hỏi đặt ra là: “Nguồn tài nguyên từ vựng dễ hiểu nhất nào trong NLP là sẵn

có?”.Vào năm 1980, câu trả lời sẽ là từ điển.

Một MRD thường chỉ ở dạng băng từ sắp xếp chữ trên máy tính từ một từ điển đã

được in trước đó mặc dù nó có chứa một vài thông tin từ điển không có trong phiên

bản in. (Dạng băng từ sắp xếp chữ trên máy tính này bao gồm tất cả thông tin cần có

khi chuyển một từ điển thành bản in, chẳng hạn như lời hướng dẫn, thay đổi font, ký

hiệu đặc biệt, …)

Trong những năm gần đây, máy tính góp phần quan trọng vào sự phát triển từ điển và

MRD. Những giai đoạn triển khai này được mô phỏng bằng những phiên bản máy đọc

đầu tiên của những từ điển dùng cho người dùng có trình độ cao như: Oxford

Advanced Leaner’s Dictionary (OALD), Longman Dictionary of Contemporary

English (LDOCE) và Collins Cobuild English Language Dictionary (COBUILD).

Mỗi từ điển khác nhau về độ liên quan đến máy tính khi chúng được đưa vào sản xuất:

OALD (Oxford Advanced Leaner’s Dictionary):

OALD là dạng máy đọc trong những năm cuối thập niên 70, về cơ bản nó giống

băng từ xếp chữ. Ở đây máy tính không có vai trò gì trong việc chuẩn bị từ điển

thực sự.

LDOCE (Longman Dictionary of Contemporary English):

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

36

Page 37: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Loại băng từ máy tính này có vào đầu những năm 80 cũng là dạng máy đọc,

người sáng chế đã sử dụng máy tính hỗ trợ kiểm tra sự sẵn sàng của nó để đảm bảo

về sự đúng đắn của những định nghĩa từ. Thông tin từ điển thêm vào cũng có trong

băng từ nhưng không có trong từ điển in.

COBUILD (Collins Cobuild English Language Dictionary):

COBUILD liên quan đến máy tính trong cả 4 giai đoạn phát triển của nó: thu

thập dữ liệu, chọn mục từ, cấu trúc những định nghĩa mục từ và sắp xếp mục từ.

Những thủ tục máy tính cũng được dùng để đảm bảo sự đúng đắn và hoàn hảo của

mục từ.

2.1.1.3 Những tài nguyên từ vựng trong năm 1990:

Câu hỏi đặt ra là: “Nguồn tài nguyên từ vựng dễ hiểu nhất nào trong NLP là sẵn có?”.

Vào năm 1990, câu trả lời sẽ là ngữ liệu.

Ngữ liệu là sự lựa chọn chiến thuật của tài liệu xử lý ngôn ngữ tự nhiên (toàn văn bản,

mẫu từ những văn bản hoặc đôi khi không nối câu, từ một hay nhiều ngôn ngữ) được

lưu trữ ở dạng máy đọc. Một ví dụ của ngữ liệu là ngữ liệu văn nói tiếng Anh, bao

gồm 50.000 từ của văn nói tiếng anh của người Anh được ghi âm từ kênh phát thanh

BBC. Nó tập hợp từ nghiên cứu hỗ trợ viết bằng tiếng Anh.

Từ điển COBUILD được phát triển bởi một nhóm nghiên cứu của khoa Anh ngữ

trường đại học Birmingham (cộng tác với Collins Publishers). Không giống những nhà

phát triển từ điển trước đây, nhóm COBUILD sử dụng cách tiếp cận khách quan hơn

để chọn từ, thay vì dựa vào trực giác. Họ xác định những gì là chính yếu trong từ điển

tiếng Anh (chẳng hạn như những từ thông dụng nhất trong ngôn ngữ mà người học cần

làm quen) và để làm việc này họ phân tích thống kê một ngữ liệu.

Đầu tiên, Dự án COBUILD liên quan đến tập hợp những văn bản xuất hiện tự nhiên từ

những nguồn khác nhau, với mục đích xây dựng một ngữ liệu điển hình bằng tiếng

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

37

Page 38: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Anh. Tuy nhiên, trước khi việc thu thập dữ liệu này diễn ra, cần xác định một chiến

lược thu thập. Vì mục đích của dự án là tạo ra một từ điển cho người học nâng cao nên

cần xác định những khía cạnh mà tiếng Anh có liên quan đến nhu cầu người sử dụng

trên thế giới:

Cách viết và đọc

Ngôn ngữ chung và rộng rãi (không dùng từ kỹ thuật)

Sử dụng hiện hành (từ 1960)

Ngôn ngữ tự nhiên (không mang kịch tính)

Văn xuôi, một ít tiểu thuyết (không có thơ)

Ngôn ngữ người lớn (từ 16 tuổi trở lên)

Tiếng Anh chuẩn (không có tiếng địa phương)

Sử dụng chủ yếu là tiếng Anh của người Anh (một số là tiếng

Anh của người Mỹ hoặc nước khác)

Tập văn bản này lấy kết quả từ ngữ liệu Birmingham Main Corpus 7.3 triệu từ được

dùng để:

(1) chọn những từ xuất hiện trong từ điển (từ Main Corpus, 132.000 từ gốc

được xác định là có thể đưa vào từ điển).

(2) cung cấp dữ liệu từ điển chẳng hạn bằng cách tìm từ đó xuất hiện trong

những ngữ cảnh khác nhau.

Một ngữ liệu đảo với 20 triệu từ cũng được tạo ra được dùng trong trường hợp một số

từ không được thêm vào Main Corpus. Ví dụ, nếu một từ nào đó không xuất hiện trong

Main Corpus, nhưng nó vẫn được thêm vào trong từ điển, lúc này ngữ liệu đảo sẽ là ví

dụ của cách sử dụng nó.

Ngữ liệu hiện nay có ở Birmingham tập trung vào sự phát triển của ngữ liệu

MONITOR, được đưa ra bởi Antoinette Renouf ở Sinclair (1987) rằng: “Ngữ liệu này

động hơn dạng thống kê, nó gồm số lượng lớn các văn bản được tổ chức bằng điện tử

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

38

Page 39: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

mà có thể đọc bằng máy tính. Một phần dữ liệu sẽ được lưu trữ tại thời điểm nào đó

nhưng nơi chứa sẽ bị xóa sau khi xử lý. Đối tượng này là để “giám sát” dữ liệu, từ

những khía cạnh khác nhau, để lưu lại những sự kiện thay đổi tự nhiên của ngôn ngữ.”

Dữ liệu văn bản được thu thập thường xuyên, chủ yếu từ CD-ROMS xếp chữ của

những tờ báo và tạp chí. (Rõ ràng điều này không thể hiện là mẫu cấu trúc tỉ mỉ bằng

tiếng Anh của Main Corpus). Một phương pháp “drag-net” đang được dùng để kiểm

soát MONITOR Corpus về từ mới, cách dùng mới hoặc nghĩa của những từ cũ, từ

không còn được dùng nữa, … Ví dụ, sự xuất hiện và phát triển của những từ và cụm từ

mới như “grunge”, “risc” và “Mother of all …” có thể được lưu ý.

Đến năm 1992, Meijs đưa ra một từ điển đơn ngữ phức tạp nhưng hợp lý bao gồm

những thông tin8 sau:

1. Dạng của từ gốc.

2. Từ loại: danh từ, động từ, tính từ, …

3. Thông tin ngữ pháp kèm thêm: khả năng đếm, bổ ngữ trực tiếp hay hiểu

ngầm, …

4. Biến cách: số nhiều, thì quá khứ, dạng bất qui tắc, …

5. Âm vị: cách đọc và nhấn âm.

6. Nghĩa của từ, bằng cách định nghĩa hoặc tham khảo đến đồng nghĩa.

7. Ví dụ bằng cách khác nhau của một từ có thể sử dụng.

8. Thành ngữ và những cụm từ đặc biệt trong đó có từ gốc.

9. Dẫn xuất, từ ghép, …

10. Cách sử dụng ghi chú, cách dùng đặc biệt, …

2.1.2 Vai trò và cấu trúc của MRD:

2.1.2.1 Vai trò của MRD:

8 Những tiêu chuẩn này được biểu hiện bởi mục từ “default” của OALD, LDOCE và COBUILD

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

39

Page 40: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Đối với tiếng Anh và một số ngôn ngữ phổ biến khác trên thế giới thì việc xử lý tự

động ngôn ngữ tự nhiên ngày càng trở nên phổ biến và đạt được những thành tựu đáng

kể. Tuy nhiên, đối với tiếng Việt của chúng ta, các kết quả này còn hạn chế do nhiều

nguyên nhân khác nhau và trong đó có nguyên nhân do thiếu những cơ sở dữ liệu cơ

bản dạng điện tử cần thiết cho việc xử lý ngôn ngữ tự động bằng máy tính. Một trong

những cơ sở dữ liệu đó chính là cơ sở dữ liệu từ điển tiếng Việt chuyên dùng cho máy

tính để xử lý tiếng Việt.

Việc xử lý ngôn ngữ tự nhiên bằng máy tính bao gồm nhiều bài toán khác nhau, như:

phân tích hình thái, cú pháp, ngữ nghĩa,… cho các cấp độ từ, ngữ, câu, văn

bản,…nhưng tất cả các công việc xử lý ấy đều cần truy cập đến cơ sở dữ liệu từ điển

điện tử (cơ sở dữ liệu về từ trong ngôn ngữ đó). Vì vậy, việc tiên quyết cho mọi bài

toán xử lý ngôn ngữ chính là cần phải xây dựng được từ điển điện tử mà máy tính có

thể “đọc” được (trong chuyên môn, từ điển này được gọi tắt là MRD: Machine

Readable Dictionary).

2.1.2.2 Cấu trúc của MRD:

Trong phạm vi nghiên cứu của luận văn, chúng tôi muốn nêu lên một số vấn đề cần

giải quyết trong việc xây dựng từ điển MRD cho tiếng Việt, tiếng Anh và tiếng Hoa9,

như: cấu trúc vĩ mô, cấu trúc vi mô của từ điển, đặc điểm về hình thái, ngữ pháp và

ngữ nghĩa của những đơn vị “mục từ” (entry) trong từ điển, tính quốc tế của những

tiêu chí lựa chọn mục từ sao cho từ điển này có thể kế thừa, giao tiếp với các hệ xử lý

ngôn ngữ tự động thông dụng (tiếng Anh) trên thế giới. Trong phần này, chúng tôi

cũng sẽ đề cập đến cách thức xây dựng tự động MRD và cách tổ chức cấu trúc dữ liệu

cho MRD.

9 Nguyên nhân lựa chọn ba ngôn ngữ Việt, Anh, Hoa chúng tôi đã nêu ở phần đặt vấn đề.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

40

Page 41: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Ở đây, ta cần phân biệt từ điển MRD với các từ điển điện tử dành cho người (như từ

điển của Lạc Việt, Vi Tính Đồng Nai,..) dù là chúng ở dạng điện tử (máy đọc được),

nhưng không phải dùng cho máy, mà dùng cho người sử dụng.

Từ điển MRD (dành cho máy “đọc”) có cách tổ chức cấu trúc và lưu trữ những loại

thông tin không giống như từ điển dành cho người dùng. Chẳng hạn, trong MRD

không cần chứa các thông tin về ngữ âm (phonetics), về từ nguyên (etymology), giải

thích, câu ví dụ, … nhưng nó lại chứa các thông tin được coi là hiển nhiên, những

thông tin không cần nêu ra trong từ điển dành cho người sử dụng (vì những thông tin

này con người hoàn toàn suy ra được bằng tri thức về thế giới thực hay bằng vốn

sống).

Từ điển MRD cần có cách tổ chức nhất quán, chặt chẽ, chính xác, đầy đủ về cấu trúc

và về lượng thông tin để máy tính hoàn toàn dựa vào đó mà xử lý công việc được giao

một cách máy móc. Vì vậy, để xây dựng được từ điển MRD này, chúng ta phải giải

quyết triệt để về tiêu chí lựa chọn mục từ (cấu trúc vĩ mô). Đây là vấn đề vô cùng nan

giải vì nó liên quan đến tiêu chí nhận diện ranh giới từ (đặc biệt là tiếng Việt, một thứ

tiếng của loại hình ngôn ngữ đơn lập). Thông tin được lưu trữ trong mỗi mục từ (cấu

trúc vi mô) phải hoàn toàn chính xác, nhất quán về chính tả, về bộ mã ký tự, về cách

trình bày. Tuyệt đối không thể ghi nhập nhằng như từ điển của người dùng. Ngoài ra,

việc tổ chức MRD sao cho nó có tính liên thông với các từ điển MRD khác, tương

thích với các hệ xử lý ngôn ngữ khác trên thế giới. Việc tổ chức MRD tiếng Việt này

cũng cần có tính mở để chúng ta có thể cập nhật, thay đổi một cách dễ dàng và nhanh

chóng.

Cuối cùng, việc xây dựng, quản lý, cập nhật một cơ sở dữ liệu khá lớn (hàng mấy vạn

từ) với yêu cầu chính xác cao như thế phải được xây dựng một cách tự động trên cơ sở

các kho dữ liệu, các từ điển điện tử có sẵn có liên quan.

2.1.3 Khai thác tài nguyên từ điển:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

41

Page 42: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Từ từ điển MRD, chúng ta có thể khai thác để phục vụ rất nhiều bài toán xử lý ngôn

ngữ tự nhiên khác nhau:

Nhờ cấu trúc vĩ mô (danh sách từ của ngôn ngữ), cho phép ta xử lý tự

động các bài toán: gán nhãn ranh giới từ, kiểm lỗi chính tả.

Nhờ các trường thông tin lưu trong cấu trúc vi mô, chúng ta có thể xử lý

các bài toán như: phân tích hình thái từ; gán nhãn từ loại; phân tích cú pháp;

phân tích ngữ nghĩa.

Nhờ trường tần suất sử dụng, chúng ta có thể rút ra danh sách các từ, các

cấu trúc ngữ pháp được sử dụng thường xuyên nhất (danh sách tối thiểu) để

phục vụ việc giảng dạy ngoại ngữ.

Để có thể khai thác tốt từ điển MRD, chúng ta nhất thiết phải tuân theo các qui tắc

biểu diễn, lưu trữ nhất quán, đơn trị khi xây dựng từ điển. Nghĩa là không thể giải

thích theo kiểu nước đôi, kiểu tương tự, mang tính hàm ý,... Tuy những cách giải thích

này chấp nhận được đơn vị con người (tự hiểu, tự suy ra dựa trên tri thức về thế giới

thực), nhưng không thể chấp nhận được đối với máy (xử lý máy móc).

2.1.4 Xây dựng từ điển tự động:

Đối với các tiếng biến hình (như tiếng Anh, Pháp, Nga,..), việc xây dựng danh sách tất

cả các từ trong ngôn ngữ có thể thực hiện được dễ dàng thông qua việc quét trên ngữ

liệu lớn (đúng chính tả), xem xem những từ nào không có từ điển sẽ được thêm vào từ

điển. Tuy nhiên, đối với các thứ tiếng đơn lập như tiếng (Việt, Hoa, Thái, ..), chúng ta

không thể làm theo cách thức trên được. Trong các thứ tiếng đơn lập này, để xác định

được từ mới chưa có trong từ điển, ta cần phải tách từ. Mà muốn tách từ, ta cần có từ

điển chứa những từ cần tách. Đây là vấn đề “quả trứng – con gà”. Để giải quyết vấn đề

lưỡng nan này, gần đây đã có mô hình của J.S.Chang, Y.C.Lin và K.Y.Su [9] dùng để

tách từ cho ngữ liệu lớn dựa trên một ngữ liệu nhỏ cho tiếng Hoa để từ đó xây dựng tự

động từ điển tiếng Hoa. Từ ngữ liệu nhỏ (seed corpus) gồm 1.000 câu đã được tách từ,

để tách từ cho ngữ liệu lớn khoảng 310.000 từ bằng cách dùng kỹ thuật ước lượng

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

42

Page 43: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Viterbi để lặp đi lặp lại sự điều chỉnh các thông số tách từ cho đến khi các thông số

này hội tụ. Các tác giả cũng áp dụng thành công phương pháp này để gán nhãn từ loại

cho tiếng Hoa với độ chính xác đến 73%.

Ngoài cách tiếp cận dựa trên ngữ liệu như trên, người ta còn khai thác các từ điển điện

tử của người bằng cách: cấu trúc hoá (đánh dấu các truờng) cho từ điển của người rồi

sau đó rút trích thông tin từ những trường có liên quan. Hiện nay, nguồn tài nguyên từ

điển điện tử là khá phong phú, đây là một thuận lợi để chúng ta có thể xây dựng các

MRD “máy đọc” khá hoàn chỉnh phục vụ các hệ thống NLP. Đây chính là lí do mà

chúng tôi chọn phương pháp này cho đề tài.

2.1.5 Cấu trúc vĩ mô và vi mô của từ điển MRD:

Cấu trúc vĩ mô là cấu trúc bao gồm toàn thể các mục từ được sắp xếp trong từ điển

theo một trật tự xác định (còn được gọi là cấu trúc tổng thể hay cấu trúc bảng từ).

Cấu trúc vi mô là cấu trúc bao gồm toàn bộ những thông tin được trình bày một cách

có hệ thống trong mỗi mục từ (còn gọi là cấu trúc mục từ).

Để xây dựng cấu trúc vĩ mô cho từ điển MRD một cách tự động, chúng ta phải lần lượt

giải quyết các vấn đề sau: tiêu chí lựa chọn mục từ, thứ tự sắp xếp các mục từ, yếu tố

liên thông với cơ sở dữ liệu từ điển quốc tế.

Vấn đề lựa chọn mục từ để đưa vào từ điển phụ thuộc vào tiêu chí lựa chọn mục từ,

tiêu chí nhận diện từ, phân biệt từ với các đơn vị khác (thấp hoặc cao hơn từ). Đây là

một vấn đề vô cùng khó khăn đối với các ngôn ngữ đơn lập. Nếu trong các ngôn ngữ

đơn lập (như Việt, Hoa,..), đơn vị được chọn để đưa vào mục từ này là tiếng (hay âm

tiết) hay chữ (theo âm Hán-Việt là tự), hay còn gọi là từ chính tả, thì ta phải gọi đây là

“tự điển” để phân biệt với “từ điển”.

2.1.6 Một số từ điển MRD:

2.1.6.1 Từ điển tiếng Anh EDIC:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

43

Page 44: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

2.1.6.1.1 Cấu trúc vĩ mô từ điển tiếng Anh EDIC:

Cấu trúc vĩ mô ở đây chính là danh sách mục từ tiếng Anh trong EDic. Tiêu chí lựa

chọn mục từ trong từ điển EDic bao gồm tất cả các từ (words), các ngữ (phrases)

tương đương với một từ trong tiếng Việt. Ngoài ra, EDic còn chứa các từ ghép

(compound), ngữ cố định (phrasal), thành ngữ (idiom), tục ngữ (proverb), từ viết tắt

(abbreviations), tên riêng (proper names). Ví dụ: program; top-down; programming

language (ngôn_ngữ lập_trình); make up one’s mind (quyết định); out of sight, out of

mind (xa mặt, cách lòng); IPL; Von-Neumann;…

Về mặt hình thái học (morphology), trong cấu trúc vĩ mô của từ điển, tác giả chỉ đưa

vào các từ nguyên gốc và các dẫn xuất (derivations) của từ, chứ không đưa vào các

biến cách (inflections) của từ. Có nghĩa là trong từ điển sẽ chứa: program,

programmer, coprogrammer, … nhưng không chứa programs, programming,

programmed, …

Với từ điển tiếng Anh, mục từ chúng ta cần chọn một trong 3 cách thức sau:

1. Chỉ lưu từ gốc: tất cả các dạng biến cách hay dẫn xuất sẽ được phân tích

hình thái để đưa về từ gốc. Cách làm này tiết kiệm bộ nhớ lưu trữ, nhưng

không đảm bảo tính trung thực về mặt ngữ nghĩa của từ. Cách này thích hợp

cho những bài toán đơn giản như: kiểm lỗi chính tả.

2. Lưu cả từ gốc, dẫn xuất và biến cách: cách này tốn bộ nhớ, bị trùng lắp

thông tin, nhưng đảm bảo tìm kiếm nhanh, giải thuật xử lý đơn giản.

3. Lưu từ gốc và dẫn xuất: đây là giải pháp trung gian, vừa tiết kiệm bộ

nhớ, vừa không vi phạm ngữ nghĩa, chỉ cần phân tích hình thái biến cách

đơn giản.

2.1.6.1.2 Cấu trúc vi mô từ điển Anh EDIC:

2.1.6.1.2.1 Thông tin về hình thái:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

44

Page 45: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Bao gồm các thông tin về:

• Dạng của từ (word form), ví dụ: “program”, “book”,…

• Mã hình thái của từ (word morphology): từ nguyên gốc, dạng bất quy tắc,

như có gấp đôi phụ âm hay không, hay kết hợp với phụ tố (affix) nào…

• Mã loại của từ (word type): từ đơn, từ ghép; thành ngữ, viết tắt, …

Mã biến thể của từ (word variants): các biến thể khác của từ (nếu có): “programme”,

“colour”, “centre”, ...

2.1.6.1.2.2 Thông tin về ngữ pháp:

Bao gồm các thông tin về:

• Từ loại (Parts-of-speech) của từ, như: danh từ, động từ, tính từ,…

• Tiểu từ loại (Subcategory): như danh từ thuộc loại con nào (danh từ đếm

được, không đếm được,…), động từ loại con nào (tha động từ, tự động

từ,…),…

• Mã biến cách (inflection): thì (tense):quá khứ/hiện tại/tương lai; thể

(voice): bị động/chủ động; giống (gender): đực/cái/trung; số (number):

ít/nhiều,…

• Đặc tính cú pháp (syntactic features): từ này dùng trong cấu trúc nào,

mẫu câu (verb pattern, noun pattern,…) nào.

• Ngữ đi kèm (collocation/phrase/idiom): từ này hay đi kèm với những từ

nào, dùng trong ngữ (thành ngữ, tục ngữ) nào.

Riêng trong việc gán nhãn từ pháp, cả 3 thông tin: từ loại, tiểu từ loại và mã biến cách

nói trên sẽ được tích hợp vào chung nhãn từ pháp của PTB (Pann Tree Bank).

2.1.6.1.2.3 Thông tin về ngữ nghĩa:

Bao gồm các thông tin về:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

45

Page 46: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

• Nghĩa tiếng Việt (meaning) của từ. Trong phần này, các từ tiếng Việt đều

được phân định ranh giới từ. Ví dụ: từ “relationship” sẽ có phần nghĩa tiếng

Việt là: “mối/N quan_hệ/N”; “high-speed printer”: “máy_in/N tốc_độ/N

cao/J”;…

• Đặc điểm tiếng Việt: khi dịch ra tiếng Việt, cần hiệu chỉnh gì về nghĩa

(thêm, bớt các tiểu từ, loại từ, định từ,…), về vị trí.

• Nhãn ngữ nghĩa của từ (semantic tag): từ thuộc ý niệm nào, như: HUM,

ANM, PHO,… các ý niệm này chính là các nhãn ngữ nghĩa của từ.

• Vai trong ngữ pháp cách (case role): Agent (Human), Instrument

(Object),…

• Thông tin về nhóm đồng nghĩa (synonym)/phản nghĩa (antonym).

2.1.6.1.2.4 Thông tin về ngữ dụng:

Bao gồm các thông tin về:

• Lĩnh vực sử dụng (field): từ này thường được dùng trong những lĩnh vực

nào, ví dụ: Tin học, toán học, y học,...

• Tần số xuất hiện (frequency): từ này có thường được dùng hay không.

Tần suất xuất hiện của từ được đo bằng công thức Mmf 10log−= với m là số

lần xuất hiện của từ và N là chiều dài văn bản thực hiện phép đo. Ví dụ: f=3,

có nghĩa là từ này xuất hiện với tần số 1/1000.

• Mã về tình thái (modality): dùng trong cảnh huống nào (trọng, thân,

tục,…).

2.1.6.1.3 Ví dụ một số mục từ trong từ điển tiếng Anh EDIC:

Đến nay, trong EDic đã tích hợp được hầu hết các thông tin quan trọng và cần thiết

nhất. Dưới đây là ví dụ của một số mục từ (entry) của EDic:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

46

Page 47: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Word Lemma Mor POS grm SEM Meaning Fre Field

on-line On_line C J STA trực_tuyến/J 2.021 cpt

Display Display W Vt Vcom hiển_thị/V 2.456 cpt

Display Display W Ns ART màn/N

hiển_thị/V

2.126 cpt

Children Child W Ns Pl HUM trẻ_em/N 2.673

Bank Bank W Ns NAT bờ/N sông/N 2.842

Bảng 2.1. Một số mục từ của EDic

Việc tích hợp các thông tin nói trên vào trong từ điển được thực hiện một cách bán tự

động bằng cách dùng mô hình thống kê của ngôn ngữ học – máy tính để thống kê tự

động trên những nguồn ngữ liệu lớn như: từ điển Anh-Việt, Brown, SUSANNE,

SEMCOR,… nhằm rút trích thông tin, sau đó các thông tin này sẽ được hiệu chỉnh bởi

người trước khi tích hợp vào từ điển.

2.1.6.2 Từ điển tiếng Việt VDIC:

2.1.6.2.1 Cấu trúc vĩ mô từ điển tiếng Việt VDIC:

Về cấu trúc vĩ mô của từ điển tiếng Việt VDic, bên cạnh các tiêu chí về tính nhất quán,

hướng đến văn phong Khoa học-Kỹ thuật, tác giả vẫn tuân theo các tiêu chí truyền

thống về chọn mục từ trong từ điển tiếng Việt phổ thông do GS.Hoàng Phê chủ biên

[10]. Từ điển điện tử tiếng Việt VDic này bao gồm khoảng 50.000 mục từ được lựa

chọn theo các tiêu chí cụ thể như sau[11]:

1. Từ điển bao gồm các từ/ngữ được sử dụng phổ biến trong các sách, báo,

tài liệu khoa học, kỹ thuật, nhất là trong tin học, không chứa các từ cổ. Từ điển

cũng chứa các ngữ cố định, từ láy (nhưng không chứa dạng láy).

2. Những danh từ chỉ loại (classifier, loại từ) sẽ không được tích hợp vào

trong mục từ. Ví dụ: trong từ điển sẽ chỉ có mục từ “thư”, “sách”, “bò”,… chứ

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

47

Page 48: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

không có chứa bức thư/lá thư/cánh thư, quyển sách/cuốn sách, con bò,…Đối với

các mục từ này, thông tin về các loại từ có thể có của nó được ghi thêm vào trong

cấu trúc vi mô của nó. Xin xem danh sách loại từ ở phụ lục 9.1.2.

3. Những danh từ chỉ loài (categories) hay chủng loại (subcategories) sẽ

được tích hợp vào trong mục từ của từ điển. Ví dụ: “máy” – máy tính, máy in,

máy quét, máy vẽ, máy phát, máy đọc mã vạch, máy quay dĩa,…; “bộ” – bộ đếm,

bộ xử lý, bộ điều giải, bộ thu, bộ phát, … Riêng đối với những danh từ chỉ loài có

tính tổng quát và tính phổ biến cao mà trong thực tế có thể vắng mặt khi sử dụng,

tác giả sẽ ghi chú đặc điểm này vào trong cấu trúc vi mô của nó. Ví dụ: “bệnh”

trong bệnh lao, bệnh ho gà, bệnh uốn ván,… sẽ có đặc điểm này. Để xác định

được đầy đủ và chính xác các danh từ chỉ loài và danh từ chỉ chủng loại, tác giả

phải dựa trên cây phân loài có tính tổng quát của mạng WordNet [12].

4. Chứa những mục từ được sản sinh theo phương thức tựa phụ tố, như: -

hoá, -viên, -học, bất-, liên-, phó - , siêu-,… trong điện toán hoá, lập trình viên, vật

lý học, phó giám đốc, siêu sao,… được hình thành từ việc đối chiếu các phụ tố

dẫn xuất trong tiếng Anh tương ứng với hình vị tựa phụ tố có gốc Hán-Việt trong

tiếng Việt. Ví dụ: các phụ tố trên sẽ tương ứng với các phụ tố –ize, -or/-ian/-er/-

ist/…, -logy, in-, inter-, vice-, super-/hyper-/meta-,… trong tiếng Anh. Danh sách

các phụ tố dẫn xuất trong phụ lục 9.1.1.

5. Chỉ riêng với các đơn vị còn gây tranh cãi về tư cách từ, tác giả mới sử

dụng thêm thông tin từ vựng hoá của từ tiếng Anh tương ứng để chọn. Ví dụ:

đường thẳng (line), nhà tranh (cottage) là từ, còn nhà gạch (brick house) không là

từ. Còn các trường hợp khác (như: “ox” - “bò đực”), tác giả phải áp dụng các tiêu

chí ngôn ngữ học, chứ không thể xem tương đương.

6. Các mục từ trong từ điển được xếp tự động theo: mẫu tự tiếng Việt, dấu

thanh, và sau cùng mới xét đến mẫu tự kế (thứ tự mẫu tự và dấu thanh như cũ).

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

48

Page 49: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Ví dụ: “…ba bai bang bao bay bà bài bàn bành bào bày bả bải bản bảng…” (đây

là cách sắp xếp mà các từ điển điện tử hay sử dụng).

7. Để xác định tần suất sử dụng của từ, tác giả đã xây dựng từ điển tần số

tiếng Việt tự động bằng cách thống kê bằng máy tính trên một ngữ liệu (corpus)

tiếng Việt 30 triệu từ thuộc nhiều chủng loại văn bản khác nhau. Tác giả dựa vào

tần suất này để chọn lựa những mục từ thông dụng nhất, tránh những từ ít dùng.

8. Để giải quyết vấn đề thiếu từ thông dụng: đối với tiếng Anh, người ta dễ

dàng nhận diện được từ thiếu bằng chương trình kiểm lỗi chính tả (spelling-

checker). Tuy nhiên đối với tiếng Việt thì đây là một bài toán khó và tác giả đã

giải quyết được phần lớn các trường hợp thiếu này thông qua các mô hình xử lý

tách từ và liên kết từ Anh-Việt.

2.1.6.2.2 Cấu trúc vi mô từ điển tiếng Việt VDIC:

Cấu trúc vi mô của VDic hoàn toàn khác với cấu trúc vi mô của từ điển tiếng Việt

truyền thống (vì từ điển truyền thống là dùng cho người, còn VDic là từ điển điện tử

dùng cho máy). Cấu trúc vi mô (microstruture) của từ điển MRD tiếng Việt bao gồm

những thông tin có cấu trúc chứa trong mỗi mục từ nhằm điều khiển việc xử lý ngôn

ngữ tự động của máy. Về chuẩn chính tả tiếng Việt, tác giả vẫn tuân theo chuẩn chính

tả như trong từ điển Hoàng Phê. Về mã tiếng Việt, tác giả sử dụng mã Unicode. Tuy

nhiên, tác giả vẫn đáp ứng việc tìm kiếm từ điển với các biến thể chính tả khác bằng

cách mã hoá dấu thanh khi lưu trữ và có bộ so sánh mờ (fuzzy) khi tìm kiếm.

2.1.6.2.2.1 Thông tin về hình thái:

Dạng của từ (word form), ví dụ: “sách”, “thắng_lợi”, “chị”,…

• Mã loại của từ (word type): từ đơn, từ ghép (đẳng lập, chính phụ); từ láy,

thành ngữ, tục ngữ, từ viết tắt, từ gốc Hán, …

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

49

Page 50: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Mã đặc tính hình thái: như thường kết hợp được với các yếu tố nào: từ chỉ loại, chỉ

hướng,…Ví dụ: “sách” sẽ đi với danh từ chỉ loại “quyển”, “cuốn”.

2.1.6.2.2.2 Thông tin về ngữ pháp:

Từ loại (Parts-of-speech) của từ, như: danh từ, động từ, tính từ,…

• Tiểu từ loại (Subcategory): như tiểu loại danh từ nào (danh từ đếm được,

không đếm được,…), tiểu loại động từ nào (ngoại động từ, nội động

từ,…),…

• Đặc tính cú pháp (syntactic feature): về thì (tense): quá khứ, hiện tại,

tương lai; thể (voice): bị động, chủ động; giống (gender); số (number),…

• Đặc tính cấu trúc (structure/pattern): dùng trong cấu trúc/mẫu câu nào.

Ngữ đi kèm (collocation/phrase): động từ “nhắm” thường đi với “mắt”.

2.1.6.2.2.3 Thông tin về ngữ nghĩa:

Nghĩa (meaning) của từ bằng tiếng Anh có kèm theo từ loại. Ví dụ: “book/NN”,

“win/VB”, “elder/JJ sister/NN”,… Chúng ta sử dụng trường này để liên kết với từ

tiếng Anh tương ứng trong các ngữ liệu có sẵn.

• Mã ngữ nghĩa của từ (semantic code): như HUM, ANM, PHO,… các

nhãn ngữ nghĩa này cũng chính là các nhãn ngữ nghĩa dùng trong từ điển

EDic.

2.1.6.2.2.4 Thông tin về ngữ dụng:

• Lĩnh vực sử dụng (field): từ này thường được dùng trong những lĩnh vực

nào, ví dụ: Tin học, toán học, y học,...

• Tần số xuất hiện (frequency): từ này có thường được dùng hay không.

Tần suất xuất hiện của từ được đo bằng công thức Nmf 10log−=

với m là số

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

50

Page 51: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

lần xuất hiện của từ và N là chiều dài văn bản thực hiện phép đo. Ví dụ: f=3,

có nghĩa là từ này xuất hiện với tần số 1/1000.

Mã về tình thái (modality): từ này dùng trong cảnh huống nào: trịnh trọng, thân mật,

thông tục,….

2.1.6.2.3 Ví dụ một số mục từ trong từ điển VDIC:

Đến nay, trong VDic đã tích hợp được hầu hết các thông tin quan trọng và cần thiết

nhất. Dưới đây là ví dụ của một số mục từ (entry) của VDic:

Từ Hình

thái

từ loại ngữ

pháp

ngữ

nghĩa

nghĩa t.Anh tần số lĩnh

vực

Máy_tính C Ns Cnt ART computer/N 2.221 cpt

Hiển_thị C Vt Vcom Display/V 1.956 cpt

Đường W Ns Cnt LIN line/N 2.087

Đường W Nm uncnt CHM sugar/N 1.987

Bảng 2.2. Một số mục từ của VDic

2.2 Các phương pháp tách từ: 2.2.1 Mô hình WFST: 2.2.1.1 Giới thiệu:

Mô hình WFST của Richard W. Sproat tỏ ra khá hiệu quả (chính xác trên 95%) khi áp

dụng cho tiếng Hoa. Mô hình này cho ra kết quả phân đoạn từ với độ tin cậy (xác suất)

kèm theo. Vì vậy, khi hệ cho ra nhiều ứng viên có độ tin cậy xấp xỉ như nhau, thì việc

lựa chọn lời giải tối ưu gặp khó khăn. Để khắc phục khuyết điểm này trong công trình

[13] các tác giả đã kết hợp thêm tầng thứ hai là mạng neural để khử nhập nhằng các

trường hợp tầng thứ nhất WFST cho ra nhiều ứng viên có kết quả ngang nhau.

2.2.1.2 Mô hình tách từ bằng WFST và mạng Neural:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

51

Page 52: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Trong mô hình này, tầng tiền xử lý có nhiệm vụ xử lý định dạng văn bản: như tiêu đề,

đoạn, câu; chuẩn hoá về chính tả tiếng Việt: cách bỏ dấu, cách viết các ký tự y, i,…

trong tiếng Việt (ví dụ: vật lý = vật lí, thời kỳ = thời kì, …)

Sau đó câu được chuyển sang tầng WFST. Trong tầng này tác giả xử lý thêm các vấn

đề liên quan đến đặc thù của tiếng Việt, như: từ láy, tên riêng, … Cuối cùng, nếu còn

nhập nhằng câu sẽ được chuyển sang tầng khử nhập nhằng bằng mạng Neural (Hình

2.1)

Thông tin ngữ cảnh Bắt đầu

2.2.1.2.1 Tầng WFST: 2.2.1.2.1.1 Xây dựng từ điển trọng số:

16 16 16 16

Giá trị xuất (0<x<1) 1( )

1ii hT

f he−=

+

Tầng nhập

Tầng ẩn

Tầng xuất

Tiền xử lý

Tầng WFST

Hình 2.1: Sơ đồ mô hình WFST_NN

Kết thúc

t<To

Mạng Neural

Yes

No

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

52

Page 53: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Trong mô hình WFST, thì việc phân đoạn từ có thể được xem như là một sự chuyển

dịch trạng thái có xác xuất (Stochastic Transduction). Chúng ta miêu tả từ điển D là

một đồ thị biến đổi trạng thái hữu hạn có trọng số. Giả sử:

H: là tập các từ chính tả tiếng Việt (hay còn gọi là “tiếng”)

P: là từ loại của từ (POS: Part-Of-Speech)

Mỗi cung của D có thể là:

• Từ một phần tử của H tới một phần tử của H, hoặc

• Từ ε (ký hiệu kết thúc từ) tới một phần tử của P.

Nói cách khác, mỗi từ được miêu tả trong từ điển là một dãy tuần tự các cung: bắt đầu

bằng một trạng thái ban đầu của D, được gán nhãn bằng một phần tử S thuộc H, và kết

thúc bởi một cung được gán nhãn là một phần từ của ε x P. Nhãn này biểu thị một chi

phí ước lượng (estimated cost) (lấy log của xác suất). Chúng ta biểu diễn câu cần tách

là một máy nhận (acceptor) trạng thái hữu hạn không có trọng số (FSA – Finite State

Acceptor) I trên H. Giả sử đã tồn tại một hàm Id mà đầu vào là FSA A, và đầu ra là

một chuyển dịch (transducer) mà các phần tử trong đó chỉ bao gồm các phần tử thuộc

A (gọi là D*). Mỗi từ được kết thúc bởi một cung biểu diễn sự chuyển đổi giữa ε và từ

loại của chúng. Xác suất chuyển đổi được tính bằng cách lấy log của xác suất trong

một tập mẫu lớn theo công thức:

⎟⎠⎞

⎜⎝⎛−=

Nft logcos

Trong đó, f: tần số của từ

N: kích thước tập mẫu

Xác suất này được lưu vào trong từ điển. Đối với các trường hợp từ mới (unknown)

chưa gặp, tác giả áp dụng xác suất có điều kiện Good-Turning để tính toán trọng số

cho các từ mới này.

Giả sử ta có XYZ, trong đó XY là từ cơ bản, Z là hậu tố. Ta cần tính: cost(XYZ)

Gọi p(Z): xác suất trong trường hợp này của Z (trường hợp Z đứng kề XY)

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

53

Page 54: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

))((cos)(cos)(cos

)(*)())((

ZunseentXYtXYZt

ZpZ

ZunseenpZunseenp

+=⇒

⎟⎠⎞

⎜⎝⎛=⇒

với cost được tính theo công thức trên.

Do đó trong từ điển, đối với các từ tiền tố và hậu tố (ta tạm gọi là Z) tác giả lưu thêm

các xác suất của Z khi Z đứng liền sau một từ loại nhất định.

2.2.1.2.1.2 Xây dựng dãy các khả năng phân đoạn từ:

Vấn đề ở đây là giảm sự bùng nổ tổ hợp khi sinh ra các dãy các từ có thể từ một dãy

các tiếng có trong câu. Thật vậy, giả sử một câu gồm n âm tiết, mà trong tiếng Việt thì

một từ có tối đa 4 âm tiết tức là ta sẽ có tối đa 2n-1 cách phân đoạn từ khác nhau. Một

câu tiếng Việt trung bình có 24 âm tiết thì lúc đó ta phải giải quyết 8.000.000 trường

hợp phân đoạn từ có thể trong một câu.

Ở đây, một phương pháp mới được đề xuất là kết hợp sử dụng từ điển để hạn chế sinh

ra các bùng nổ tổ hợp này. Khi phát hiện thấy một cách phân đoạn từ nào đó không

phù hợp (không có trong từ điển, không phải là từ láy, không phải là danh từ riêng…)

thì loại bỏ các nhánh xuất phát từ cách phân đoạn từ đó. Đối với phương pháp này sẽ

thu được một danh sách gồm chỉ vài trăm trường hợp phân đoạn từ có thể so với

8.000.000.

2.2.1.2.1.3 Lựa chọn khả năng phân đoạn từ tối ưu:

Sau khi có được một danh sách các cách phân đoạn từ có thể có của câu, tác giả chọn

trường hợp phân đoạn từ có tổng trọng số bé nhất như sau:

Ví dụ: input = “tốc độ truyền thông tin sẽ tăng cao”

Dictionary = “tốc độ” 8.68

= “truyền” 12.31

= “truyền thông” 12.31

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

54

Page 55: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

= “thông tin” 7.24

= “tin” 7.33

= “sẽ” 6.09

= “tăng” 7.43

= “cao” 6.95

Id(D)*D* = “Tốc độ # truyền thông # tin # sẽ # tăng # cao.” 48.79(1)

= “Tốc độ # truyền # thông tin # sẽ # tăng # cao.” 48.70(2)

BestPath = “Tốc độ # truyền # thông tin # sẽ # tăng # cao.” 48.79(1)

(1): 8.68+12.31+7.33+6.09+7.43+6.95=48.79

(2): 8.68+12.31+7.24+6.09+7.43+6.95=48.70

2.2.1.2.2 Tầng mạng Neural:

Sau khi cho câu được phân đoạn từ qua mô hình WFST. Để xác định kết quả phân

đoạn từ trên có thực sự hợp lệ hay không, tác giả định nghĩa một ngưỡng giá trị t0 với

ý nghĩa như sau: nếu sự chênh lệch về trọng số (giữa các cách phân đoạn khác nhau

với cách phân đoạn có trọng số nhỏ nhất) lớn hơn t0 thì đó là kết quả phân đoạn từ có

trọng số nhỏ nhất đó đúng của câu và được chấp nhận. Còn nếu sự chênh lệch đó

không lớn hơn t0, thì cách phân đoạn có trọng số nhỏ nhất đó chưa được xem là kết

quả phân đoạn đúng của câu.

Lúc này, ta sẽ đưa những cách phân đoạn từ của câu này qua mô hình mạng Neural để

xử lý tiếp.

Ví dụ: Sau khi qua phần xử lý WFST ta chỉ được ba cách phân đoạn có trọng số nhỏ

nhất nhưng sự chênh lệch trọng số không lớn hơn t0:

1. học sinh/N học/V sinh học/N

2. học sinh/N học sinh/N hoc/V

3. hoc/V sinh học/N sinh học/N

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

55

Page 56: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Thực tế trong tiếng Việt, có những dãy các loại từ không thể tuần tự đứng cạnh nhau

theo luật ngữ pháp tiếng Việt. Nếu ta muốn lọc lại những trường hợp mập mờ trên

bằng luật cú pháp tiếng Việt, ta lại đụng đến vấn đề vô cùng phức tạp là phân tích cú

pháp tiếng Việt.

Chúng ta xét lại ví dụ ở phần trên, mô hình mạng neural được đề xuất dùng để ước

lượng giá 3 dãy từ loại: NNV, NVN, VNN. Mô hình này được học bằng chính các câu

mà cách phân đoạn từ vẫn còn nhập nhằng sau khi qua mô hình thứ nhất. Khi đó tác

giả phân đoạn từ bằng tay cho các câu nhập nhằng này và sau đó đưa vào máy học. Để

thực hiện việc kiểm tra sự hợp lệ của một dãy các từ loại trong một câu, tác giả dử

dụng một “ngữ cảnh k” cho mỗi từ có trong câu, ta sử dụng một cửa sổ trượt có kích

thước là k từ và mảng mô tả của nó trượt trên câu cần xét bắt đầu từ từ đầu tiên đến từ

cuối cùng trong câu. Thực tế mô hình mạng gồm 6 nút nhập, 10 nút ẩn và một nút

xuất.

Tầng nhập của mạng được kết nối hoàn toàn với một tầng ẩn gồm 10 nút với một hàm

truyền. Những nút ẩn này lại được kết nối hoàn toàn với một tầng xuất chỉ gồm 1 nút.

Nút xuất là một giá trị thực nằm giữa 0..1. Biểu thị cho khả năng hợp lệ của một dãy

các từ loại đứng liền nhau trong một cửa sổ trượt. Khi cửa sổ trượt trượt từ đầu câu

đến cuối câu, cộng dồn các kết quả lại với nhau và gán giá trị này vào thành trọng số

của câu. Hàm truyền được chọn là hàm sigmoid:

Thi i

ehf

−+

=1

1)(

đây là một hàm thông dụng trong các mạng neural. Câu được chọn tức là câu có

trọng số lớn nhất.

2.2.1.3 Đánh giá mô hình WFST:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

56

Page 57: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Mô hình WFST nhận diện từ có thể chính xác đến 97%, tỉ lệ này tuỳ thuộc vào loại

văn bản. Vì thế sự phong phú mục từ của từ điển vẫn là điều quyết định kết quả của hệ

thống.

2.2.2 Mô hình MMSEG:

MMSEG [14] là hệ thống nhận diện từ cho văn bản tiếng quan thoại dựa trên hai biến

thể của thuật toán Maximum Matching.

Mô hình MMSEG là một mô hình tách từ hiệu quả nhất hiện nay. Sau đây là cơ sở lý

thuyết của mô hình MMSEG (thực hiện trên tiếng Hoa) mà nhóm VCL đã sử dụng để

áp dụng cho tiếng Việt. Do tiếng Việt cùng một loại hình ngôn ngữ với tiếng Hoa (đơn

lập) nên hiệu quả của mô hình này khi áp dụng cho tiếng Việt cũng không chênh lệch

lắm so với tiếng Hoa.

Một vấn đề trong phân tích bằng máy của dữ liệu tiếng Hoa là không có ranh giới từ

trong các văn bản in. Vì từ là đơn vị ngôn ngữ cơ bản cần phải xác định từ trong văn

bản tiếng Hoa sao cho việc phân tích trở nên tốt hơn. Mục đích của nghiên cứu này là

phát triển một hệ thống xác định từ vựng dựa trên hai biến thể thuật toán Maximum

Matching. Hệ thống bao gồm một từ điển, hai thuật toán matching và bốn luật khử

nhập nhằng. Kết quả là hệ thống nhận diện thành công 98.41% từ trong một mẫu văn

bản gồm 1.013 từ.

2.2.2.1 Những khó khăn trong xử lý nhận diện từ:

Vì từ là một đơn vị ngôn ngữ cơ bản, cần phải nhận diện từ trong văn bản tiếng Hoa để

thực hiện việc phân tích tự động và xử lý văng bản tiếng Hoa. Tuy nhiên, có những

khó khăn đặt ra trong việc xử lý nhận diện từ.

Một là, hầu hết các tự bản thân nó có thể là từ một tự. Hơn nữa, chúng có thể

liên kết với tự khác hình thành từ nhiều tự. Điều này dẫn đến nhiều nhập nhằng

trong tách từ.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

57

Page 58: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Hai là, việc ghép từ là thiết bị tạo các dạng từ có thể có trong tiếng Hoa hiện

đại. Khó mà biết được một từ ghép tần số thấp là từ hay ngữ, và từ điển không

thể thu thập hết tất cả các từ ghép tần số thấp.

Ba là, những tự cùng nhóm cũng được dùng để lập danh từ riêng. Việc xác định

danh từ riêng cũng sẽ là một vấn đề. Cuối cùng, một vài cấu trúc hình vị như từ

láy và cấu trúc “A-not-A” cũng được quan tâm.

Hầu hết những phương pháp nhận diện từ đều sử dụng một trong những thuật toán

matching. Chiến lược cơ bản là kết chuỗi các tự nhập vào với một tập lớn các mục từ

trong từ điển có sẵn để tìm tất cả (hoặc một số) những phân tích có thể có. Bởi vì chỉ

có một phân tích là đúng nên phải khử nhập nhằng.

2.2.2.2 Thuật toán Maximum Matching và những biến thể của nó:

Những những nghiên cứu khác biệt nhau về những thuật toán khử nhập nhằng. Một

các đơn giản nhưng lại hiệu quả đó là thuật toán Maximum Matching. Maximum

Matching có nhiều dạng.

2.2.2.2.1 Thuật toán Maximum Matching đơn giản:

Dạng cơ bản để giải quyết nhập nhằng của từ.

Ví dụ:

Giả sử có một dãy các tự: C1, C2, …, Cn.

Duyệt từ đầu dãy, chúng ta xác định đâu là từ.

Đầu tiên, chúng ta tìm trong từ điển xem _C1_ có phải là từ một tự không, tiếp

tục cho _C1C2_ và như thế cho đến khi có chuỗi liên kết dài hơn từ dài nhất có trong

từ điển. Từ hợp lý nhất sẽ là liên kết dài nhất có trong từ điển. Chúng ta chọn từ này,

sau đó tiếp tục qui trình này cho đến khi xác định được từ cuối cùng trong dãy.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

58

Page 59: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

2.2.2.2.2 Thuật toán Maximum Matching phức tạp:

Chen và Liu đã đưa ra một biến thể khác của Maximum Matching phức tạp hơn dạng

cơ bản. Luật kết lớn nhất này phát biểu rằng: phân tích hợp lý nhất là bộ ba từ với

chiều dài lớn nhất. Từ đầu dãy, chúng ta xác định đâu là từ. Nếu có những phân tích

nhập nhằng (ví dụ: _C1_ là từ nhưng _C1C2_ cũng là từ, …) thì chúng ta tìm tiếp hai

từ nữa để tìm tất cả các bộ ba từ có thể có với từ đầu tiên là _C1_ hoặc _C1C2_.

Ví dụ, đây là những bộ ba từ:

1. _C1_ _C2_ _C3C4_

2. _C1C2_ _C3C4_ _C5_

3. _C1C2_ _C3C4_ _C5C6_

Bộ ba dài nhất là bộ thứ ba. Từ đầu tiên, _C1C2_ của bộ thứ ba này sẽ là từ đúng.

Chúng ta lấy từ này và tiếp tục từ tự C3 cho đến khi xác định được từ cuối cùng. Luật

này đạt độ chính xác đến 99.69% và 93.21% nhập nhằng được giải quyết.

2.2.2.2.3 Những thuật toán khử nhập nhằng khác:

Bên cạnh Maximum Matching, còn có nhiều thuật toán khử nhập nhằng khác. Nhiều

thông tin khác nhau được sử dụng trong xử lý nhập nhằng. Ví dụ, xác suất và thống kê,

ngữ pháp, và hình thái. Hầu hết các phương pháp đều cần một từ điển được cấu trúc tốt

có những thông tin như tần số tự và từ, các lớp ngữ pháp của từ, và một tập các luật

ngữ pháp và hình thái.

2.2.2.3 Tổng quan về hệ thống MMSEG:

Hệ thống MMSEG thực thi cả hai dạng đơn giản và phức tạp của thuật toán Maximum

Matching đã nêu trên. Hơn nữa, để khử nhập nhằng không chỉ sử dụng thuật toán

Maximum Matching phức tạp mà là phải dùng thêm ba luật khử nhập nhằng nữa. Một

trong ba luật này đươc đưa ra bởi Chen và Liu (1992) và hai luật còn lại là mới có.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

59

Page 60: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Những luật này sẽ được đề cập sau. Hệ thống không có những luật đặc biệt để xử lý

tên riêng và những cấu trúc hình thái cụ thể như từ láy và cấu trúc “A-not-A”.

Phải lưu ý là MMSEG không phải thiết kế cho hệ thống ở mức “chuyên nghiệp” đòi

hỏi nhận diện đúng đến 100%. Hơn nữa, MMSEG được xem là nền chung cho những

thuật toán khử nhập nhằng mới dựa vào đó mà đánh giá. Tuy nhiên, chúng ta sẽ thấy

được rằng phiên bản hiện tại của MMSEG đã đạt đến độ chính xác rất cao, cao như

những thuật toán khác được đăng ở những tạp chí học thuật.

2.2.2.3.1 Từ điển:

Phần đầu tiên của từ điển bao gồm 124.499 mục từ đa tự. Chiều dài của những mục từ

từ điển này là 2 đến 8 tự. Sự phân bố các mục từ như sau:

File Mô tả

CHR2.LEX 74.803 từ hai tự

CHR3.LEX 25.578 từ ba tự

CHR4.LEX 22.188 từ bốn tự

CHR5.LEX 1.122 từ năm tự

CHR6.LEX 512 từ sáu tự

CHR7.LEX 240 từ bảy tự

CHR8.LEX 56 từ tám tự

Bảng 2.3: Phân bố các mục từ trên các file

Từ điển đơn giản là danh sách chuỗi các tự có tổ chức. Không có thông tin thêm nào

liên qua đến mỗi chuỗi. Nền tảng của từ điển là một danh sach các từ tiếng Hoa đưa ra

bởi tác giả (Tsai, 1996). Sau đó, danh sách này được tạo bằng cách trộn các danh sách

từ tiếng Hoa có sẵn trên Internet (Tsai, 1996).

Phần thứ hai của từ điển gồm có 13.060 tự và tần số sử dụng của chúng (Tsai, 1996).

Tần số tự được sử dụng trong luật cuối cùng của khử nhập nhằng.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

60

Page 61: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

2.2.2.3.2 Thuật toán Matching:

Đơn giản: Đối với tự Cn trong chuỗi các tự, kết chuỗi con bắt đầu bởi Cn với từ

điển và tìm tất cả những mối kết có thể.

Phức tạp: Đối với tự Cn trong chuỗi các tự, tìm tất cả các bộ ba từ bắt đầu bởi

Cn có thể có, không quan tâm từ đầu tiên có bị nhập nhằng hay không. Những

bộ ba từ này chỉ được tạo ra khi có một nhập nhằng của từ đầu tiên.

2.2.2.3.3 Những luật khử nhập nhằng:

Bốn luật khử nhập nhằng được dùng. Những luật Maximum Matching áp dụng cho

những phân tích nhập nhằng từ cả hai giải thuật matching đơn giản và phức tạp. Ba

luật còn lại không áp dụng cho những phân tích nhập nhằng từ thuật toán matching

dơn giản.

1. Luật 1: Maximum matching:

(a) Maximum Matching đơn giản: lấy từ có chiều dài dài nhất.

(b) Maximum Matching phức tạp: lấy từ đầu tiên từ bộ có chiều dài dài nhất.

Nếu có nhiều hơn một bộ dài nhất thì áp dụng luật tiếp theo.

2. Luật 2: Độ dài trung bình của từ lớn nhất. Ở cuối mỗi chuỗi thường gặp

những bộ chỉ có một hoặc hai từ. Ví dụ, những bộ sau có cùng độ dài và

cùng biến đổi của chiều dài từ.

1. _C1_ _C2_ _C3_

2. _C1C2C3_

Luật 2 cho phép lấy từ đầu tiên của bộ có trung bình độ dài từ lớn nhất.

Trong ví dụ trên, ta sẽ lấy từ _C1C2C3_ từ bộ thứ hai. Giả thiết của luật này

là ta gặp trường hợp từ nhiều tự nhiều hơn gặp từ một tự.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

61

Page 62: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Luật này chỉ có lợi khi thiếu một hoặc một vài vị trí trong bộ. Khi bộ là bộ

ba thì luật này không được hiệu quả lắm. Bởi vì bộ ba từ có cùng tổng độ

dài dĩ nhiên sẽ có cùng độ dài trung bình. Vì thế chúng ta cần một giải pháp

khác.

3. Luật 3: Độ biến đổi nhỏ nhất chiều dài từ. Có một vài điều kiện nhập nhằng

mà luật 1 và luật 2 không thể giải quyết. Ví dụ, hai bộ sau đây có cùng chiều

dài:

1. _C1C2_ _C3C4_ _C5C6_

2. _C1C2C3_ _C4_ _C5C6_

Luật 3 cho phép lấy bộ đầu tiên với độ biến đổi chiều dài từ nhỏ nhất. Trong

ví dụ trên, ta lấy từ _C1C2_ từ bộ đầu tiên. Luật này cũng giống luật mà

Chen và Liu đã đưa ra năm 1992 (tuy nhiên, họ áp dụng luật này ngay sau

luật 1). Giả thiết của luật này là những chiều dài từ đều bằng nhau. Nếu có

hơn một bộ có cùng độ biến đổi nhỏ nhất chiều dài từ thì áp dụng luật tiếp

theo.

4. Luật 4: Tổng lớn nhất của độ tự do hình vị của các từ một tự. Ví dụ sau cho

hai bộ cung độ dài, độ thay đổi và độ dài trung bình của từ:

1. _C1_ _C2_ _C3C4_

2. _C1_ _C2C3_ _C4_

Cả hai bộ này đều có hai từ một tự và có một từ hai tự. Từ nào là đúng nhất?

Ở đây, chúng ta quan tâm đến từ một tự. Những tự tiếng Hoa khác nhau về

độ tự do hình vị. Một vài tự hiếm khi được sử dụng hình vị tự do, nhưng

những tự khác thì có độ tự do cao hơn. Tần số đồng xuất hiện của một tự có

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

62

Page 63: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

thể được quản lý bởi chỉ mục của độ tự do hình vị của nó. Một tự có tần số

cao thì được xem là từ một tự và ngược lại.

Công thức được sử dụng để tính toán tổng độ tự do hình vị là tổng logarit

tần số của tất cả các từ một tự trong một bộ. Cơ sở cho phép chuyển đổi

logarit này là cùng một lượng khác nhau về tần số không có một ảnh hưởng

nhất định đến dãy sắp xếp tất cả các tần số.

Luật 4 cho phép lấy từ đầu tiên của bộ với tổng lớn nhất của logarit tần số.

Vì không thể có hai tự có chính xác cùng một tần số nên sẽ không có nhập

nhằng sau khi áp dụng luật này.

2.2.2.4 Đánh giá hệ thống MMSEG:

Độ chính xác của hệ thống MMSEG cao như những hệ thống khác đã công bố trên các

tạp chí học thuật. Điều này chứng tỏ MMSEG là một hệ thống xác định từ tiếng Hoa

thành công.

Bốn luật giải quyết nhập nhằng đã được chứng minh là hoàn toàn hiệu quả. Luật 1

(Maximum Matching) giải quyết hầu hết nhập nhằng. Đặc biệt là luật 3 (chiều dài từ

trung bình dài nhất) giải quyết được vấn đề nhập nhằng hơn cả sự mong đợi. Và nó

hoàn toàn chính xác. Một cuộc kiểm tra đã cho thấy rằng, hầu hết sự nhập nhằng mà

luật 3 đã giải quyết là sự nhập nhằng của câu kết thúc.

Điều đáng ngạc nhiên là, rất ít nhập nhằng được giải quyết bằng luật 2 (smallest

variance of word lengths). Điều này có lẽ là do trật tự của các luật. Trong một phiên

bản trước đây của MMSEG, luật 2 được sử dụng trước luật 3. Trong phiên bản đó, luật

2 đã giải quyết nhập nhằng nhiều hơn so với phiên bản hiện hành.

Luật 4 (largest sum of degree of morphemic freedom of one-character words) cũng

thực hiện rất tốt. Điều này cho thấy rằng thông tin về thống kê là rất hữu ích cho việc

khử nhập nhằng.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

63

Page 64: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Như đã đề cập, MMSEG được thiết kế để làm nền chung cho những thuật toán giải

quyết nhập nhằng mới thử nghiệm. Điều chúng tôi muốn làm trong tương lai là đưa ra

công thức cho giả thuyết về cách những người đọc tiếng Hoa nhận diện từ và ranh giới

từ trong lúc đọc. Sau đó chúng tôi sử dụng MMSEG để kiểm thử những thuật toán

này. Cùng thời điểm đó, chúng tôi sẽ thiết kế những thí nghiệm để thu thập dữ liệu do

người làm. Bằng cách so sánh kết quả của chương trình máy tính với kết quả do người

làm chúng tôi hy vọng chứng minh được tính thực tế của mỗi thuật toán.

2.3 Các phương pháp khử nhập nhằng: 2.3.1 Giới thiệu:

Việc nghiên cứu trong lĩnh vực CLIR tập trung chủ yếu vào các phương pháp để dịch

câu truy vấn. Việc dịch toàn bộ tài liệu của một tập lớn các tài liệu là không thực tế, vì

vậy việc dịch câu truy vấn là một cách có thể thực hiện được. Các phương pháp để

dịch câu truy vấn đó là dịch dựa trên từ điển, dùng ngữ liệu song song hoặc ngữ liệu so

sánh để thực thi mô hình dịch và sử dụng kỹ thuật dịch máy MT (Machine

Translation). Trong đó phương pháp dịch dựa trên từ điển đã được trình bày ở trên.

Bất chấp các kết quả thực nghiệm hứa hẹn mà các phương pháp này đạt được, cản trở

chính để phát triển tính hiệu quả của CLIR là giải quyết tính nhập nhằng của các bản

dịch.

Ngoài vấn đề này thì nguồn tài nguyên sẵn có cũng là mặt hạn chế cho mỗi phương

pháp tiếp cận. Điều này sẽ dẫn đến nhiều vấn đề hơn khi số ngôn ngữ trong truyền

thông điện tử ngày càng mở rộng. Các hệ thống dịch máy có thể được sử dụng, nhưng

để dịch được chính xác thì cần cung cấp nhiều ngữ cảnh hơn cho một câu truy vấn.

Việc phát triển một hệ thống như thế đòi hỏi một khoảng thời gian dài và một khối

lượng tài nguyên khổng lồ. Ngay cả khi hệ thống làm việc tốt cho một cặp ngôn ngữ

nào đó, thì việc thêm các cặp ngôn ngữ mới cũng đòi hỏi nhiều nỗ lực mới. Hướng tiếp

cận trong đề tài của Mark W.Davis và William C.Ogden[15] là dịch thông qua MRD

và khử nhập nhằng bằng cách sử dụng từ loại (POS) và phân tích ngữ liệu song song.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

64

Page 65: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Tuy nhiên ngữ liệu song song thì rất khó tiếp cận. Chúng có khuynh hướng là nằm

trong một lĩnh vực hẹp và có thể sẽ không hiệu quả khi khử nhập nhằng trong một lĩnh

vực tổng quát. Mặc dù ngữ liệu so sánh không phải là các bản dịch trực tiếp, nhưng nó

chứa các tài liệu liên kết với nhau theo chủ đề. Tuy nhiên, điều này không cho thấy rõ

là việc xây dựng các tập tài liệu song song sẽ dễ dàng. Bởi vì, với ngữ liệu song song,

câu hỏi đặt ra là những phương pháp khử nhập nhằng nào khác có thể được sử dụng

trong một ngữ cảnh khái quát hơn để làm mạnh thêm các kỹ thuật này. Phương pháp

dịch dựa trên từ điển đã khơi nguồn cho các nghiên cứu khác. Phương pháp này dựa

trên tính sẵn có của MRD. Từ điển cũng như các tài nguyên đã đề cập khác đều độc

quyền hoặc rất đắt. Mặc dù các từ điển trực tuyến càng này càng trở nên có rộng rãi

hơn nhưng độ bao phủ và chất lượng của chúng không thể đáp ứng yêu cầu của chúng

ta.

Bất chấp phương pháp tiếp cận mà hệ thống xuyên ngữ sử dụng, nhập nhằng trong khi

dịch vẫn là vấn đề cần thiết phải giải quyết. Các tài nguyên dùng trong tìm kiếm xuyên

ngữ có thể đòi hỏi nhiều nỗ lực thủ công để xây dựng và khó có thể đạt được.Vì thế

những phương pháp dựa vào tài nguyên sẵn có đã ra đời.

Dưới đây chúng tôi sẽ trình bày các phương pháp khử nhập nhằng khi dịch dựa trên từ

điển.

2.3.2 Khử nhập nhằng:

Độ hiệu quả của tìm kiếm xuyên ngữ khi sử dụng MRD có thể thấp hơn 60% so với

tìm kiếm đơn ngữ. Việc dịch đơn giản bằng MRD gây ra những bản dịch nhập nhằng.

Các câu truy vấn của ngôn ngữ đích có thể được dịch bằng cách thay thế các từ trong

ngôn ngữ nguồn hoặc các khái niệm nhiều từ tương đương trong ngôn ngữ đích. Lỗi

dịch xảy ra là do 3 nguyên nhân sau:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

65

Page 66: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

(1) Thứ nhất, việc thêm nhiều từ không liên quan vào câu truy vấn. Điều này

là do một mục từ trong từ điển có thể chỉ liệt kê một vài nghĩa của từ, và mỗi

nghĩa lại có một hoặc nhiều cách dịch.

(2) Thứ hai, thuật ngữ kỹ thuật thường không được tìm thấy trong từ điển

chung.

(3) Thứ ba, lỗi khi dịch các khái niệm nhiều từ giống như là ngữ hoặc dịch

chúng rất tệ. Các công trình trước đây cho thấy cách mở rộng câu truy vấn có

thể được sử dụng để giảm lỗi dịch và đem đến hiệu quả cho tìm kiếm xuyên

ngữ là 68% so với đơn ngữ. Tuy nhiên, vẫn còn nhiều vấn đề cần phải xem xét

và cải tiến.

Theo giả thuyết của L.Ballesteros, các bản dịch đúng của các từ trong câu truy vấn sẽ

đồng xuất hiện và các bản dịch không đúng có khuynh hướng không đồng xuất hiện.

Thông tin này có thể được sử dụng để dịch các ngữ thành phần, vì thế làm giảm sự

nhập nhằng khi dịch “word by word”.

2.3.2.1 Dựa trên ngữ liệu song song (Parallel Corpus):

Ngữ liệu song song chứa một tập các tài liệu và bản dịch của chúng trong một hoặc

nhiều ngôn ngữ khác. Việc phân tích các tập tài liệu này có thể được sử dụng để suy ra

các cách dịch tốt nhất giữa các ngôn ngữ trong ngữ liệu. L.Ballesteros đã sử dụng việc

phân tích ngữ liệu song song để quan sát tác động của việc khử nhập nhằng lên tính

hiệu quả của CLIR. Kỹ thuật này là một cải tiến kỹ thuật đã được sử dụng trong đề tài

của Davis và Odgen [15].

Các câu truy vấn của ngôn ngữ nguồn (tiếng Tây Ban Nha) đầu tiên được đánh thẻ từ

loại. Mỗi cụm từ trong câu truy vấn nguồn được thay thế bởi tất các bản dịch có cùng

từ loại có thể có trong ngôn ngữ đích. Nếu không có bản dịch nào thích hợp cho một

thẻ của cụm từ trong câu truy vấn thì các bản dịch của tất cả các từ loại được liệt kê

trong từ điển sẽ được trả về. Có thể có một hoặc nhiều cách dịch một cụm từ cho

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

66

Page 67: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

trước. Khi một hoặc nhiều cách dịch được trả về, cụm từ tốt nhất được chọn thông qua

việc khử nhập nhằng bằng ngữ liệu song song.

Dưới đây là một ví dụ về cách khử nhập nhằng bằng ngữ liệu song song trong đề tài

của L.Ballesteros. Ông đã cải tiến qui trình khử nhập nhằng trong [3], cụ thể như sau:

30 tài liệu tiếng Tây Ban Nha đầu tiên được tìm kiếm từ ngữ liệu song song UN bằng

một câu truy vấn tiếng Tây Ban Nha. 5000 cụm từ đầu tiên dựa trên việc sắp xếp của

Rochio được lấy ra từ các tài liệu tiếng Anh UN thoả 30 tài liệu tiếng Tây Ban Nha.

Các bản dịch của một từ trong câu truy vấn được sắp xếp dựa trên điểm của chúng

trong danh sách 5000 cụm từ. Các bản dịch ở đầu bảng được chọn là bản dịch tốt nhất

cho từ đó. Nếu không có bản dịch nào trong danh sách, thì không thực hiện việc khử

nhập nhằng và tất cả các bản dịch đều được chọn. Phương pháp này khác với phương

pháp trong NMSU ở 2 chỗ. Thứ nhất là, L.Ballesteros đã dùng ngữ liệu được dóng

hàng ở mức tài liệu thay cho ngữ liệu dóng hàng ở mức câu. Thứ hai là, thay vì dùng

cách khử nhập nhằng dựa trên các tài liệu đứng đầu được tìm kiếm thỏa câu truy vấn,

họ đã tìm kiếm các câu đứng đầu thỏa câu truy vấn. Sau đó chọn những từ mà hầu hết

các câu tìm kiếm tới là bản dịch cho các từ chưa được dịch cũng được các câu này tìm

kiếm tới tương tự như thế.

2.3.2.2 Khử nhập nhằng bằng cách dùng tần số đồng xuất hiện (Co-

ocurrence):

Các bản dịch chính xác của các từ trong câu truy vấn có thể sẽ đồng xuất hiện trong

các tài liệu của ngôn ngữ đích và các bản dịch không chính xác có khuynh hướng

không đồng xuất hiện. Chúng tôi sử dụng giả thuyết này như là nền tảng cho phương

pháp khử nhập nhằng khi dịch. Cho các bản dịch có thể của hai từ trong ngôn ngữ

nguồn, chúng ta sẽ tìm ra bản dịch tốt nhất bằng cách tính tần số đồng xuất hiện cho

từng cặp từ.

Cho hai từ trong ngôn ngữ nguồn, tìm tất cả các bản dịch tương đương với cùng từ

loại cho mỗi từ. Phát sinh một tập các cặp {a,b} trong đó a là bản dịch của từ thứ nhất,

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

67

Page 68: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

b là bản dịch của từ thứ hai. Tính tần số đồng xuất hiện của mỗi phần tử trong tập bằng

ma trận em.

⎟⎟⎠

⎞⎜⎜⎝

⎛+

−= 0,

),(max),(

ba

ab

nnbaEnn

baem (*)

Trong đó: na, nb là số lần a, b xuất hiện trong ngữ liệu

nab là số lần cả a và b xuất hiện trong một cửa số văn bản có t từ

Nnn

baEn ba=),(

N: số cửa sổ văn bản trong ngữ liệu.

Mỗi tập sẽ được sắp xếp theo điểm em và tập đứng đầu sẽ được chọn là bản dịch thích

hợp. Nếu có nhiều hơn một tập đứng đầu, thì tất cả các bản dịch đó đều được chọn.

Phương pháp này khác với phương pháp của Dagan ở chỗ họ ghép cặp các từ đã được

dịch thông qua mối quan hệ ngữ pháp ví dụ như quan hệ chủ ngữ - động từ. Việc lựa

chọn được thực hiện thông qua một mô hình thống kê dựa trên tỉ lệ của tần số đồng

xuất hiện cho 1 bản dịch so với tần số đồng xuất hiện của tất cả các bản dịch.

2.3.2.3 So sánh hai phương pháp:

Lisa Ballesteros[5] đã đánh giá độ hiệu quả của hai phương pháp này bằng cách dịch

word by word (WBW) 60 cụm từ dựa vào từ điển và sau đó lần lượt khử nhập nhằng

bằng cả hai phương pháp. Kết quả khử nhập nhằng sẽ được người đánh giá. Theo

phỏng đoán của L.Ballesteros thì phương pháp dựa trên tần số đồng xuất hiện cũng

cho kết quả tương đương với phương pháp dựa trên ngữ liệu song song.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

68

Page 69: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

KNN chính xác bằng ngữ liệu

song song

KNN không chính xác

bằng ngữ liệu song song

KNN chính xác

bằng TSĐXH

36 11

KNN không chính

xác bằng TSĐXH

3 10

Bảng 2.4: Kết quả so sánh hai phương pháp khử nhập nhằng

Các thực nghiệm ở bước 0.5 [14] cho thấy rằng phương pháp dựa trên tần số đồng xuất

hiện thì tốt hơn phương pháp dựa trên ngữ liệu song song. Khi phương pháp tần số

đồng xuất hiện khử nhập nhằng một từ không chính xác thì sẽ không có đủ ngữ cảnh

để nội suy bản dịch chính xác.

Các lỗi trong phương pháp dựa trên ngữ liệu là liên quan đến việc có rất ít hoặc không

có tài liệu nào liên quan đến câu truy vấn. Nguyên nhân là do phạm vi hẹp hoặc do các

lĩnh vực khác nhau của các ngữ liệu song song mà chúng ta có. Nghiên cứu của L.

Ballesteros dựa trên ngữ liệu song song UN chứa các tài liệu liên quan đến vấn đề hòa

bình và an ninh quốc tế, và sức khỏe và giáo dục ở các quốc gia phát triển. Tập các câu

truy vấn cũng khái quát hơn. Mặc dù từ điển có một số từ vựng về các lĩnh vực

chuyên ngành nhưng việc thiếu các tài liệu có liên quan sẽ ngăn chặn việc khử nhập

nhằng câu truy vấn trong các lĩnh vực riêng biệt. Theo nghiên cứu của L.Ballesteros

thì phương pháp khử nhập nhằng dựa trên TSĐXH sẽ hiệu quả hơn phương pháp dựa

trên ngữ liệu song song. Điều này đặc biệt chính xác khi chúng ta không thể dựa trên

các nguồn tài nguyên thuộc về một lĩnh vực riêng biệt nào đó hoặc thậm chí là các

nguồn tài nguyên có các lĩnh vực trùng lắp.

Lisa Ballesteros dùng phương pháp dịch WBW để dịch các câu truy vấn và các ngữ

danh từ sẽ được dịch thông qua từ điển ngữ danh từ. Phương pháp dựa trên TSĐXH

(CO) khử nhập nhằng các bản dịch dựa trên TSĐXH của nó với các bản dịch khác

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

69

Page 70: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

trong cùng một ngữ. Phương pháp dựa trên ngữ liệu song song (PLC) sử dụng ngữ

cảnh của câu truy vấn khử nhập nhằng tất cả các bản dịch bất chấp là bản dịch đó có

nằm trong ngữ hay không. L.Ballesteros cũng đã thực hiện so sánh hai phương pháp

này với hệ thống dịch máy SYSTRAN.

Sử dụng cơ sở ban đầu là việc dịch WBW, bảng 2.5 so sánh hiệu quả của CO, PLC với

hai hệ thống dịch máy. Hệ thống đầu tiên là hệ thống tìm kiếm web T1 và thứ hai là hệ

thống SYSTRAN. Bảng này cũng cho thấy hiệu quả của tìm kiếm xuyên ngữ so với

đơn ngữ. Phương pháp CO hiệu quả hơn và cho độ bao phủ cũng như độ chính xác cao

hơn phương pháp PLC. Hệ thống SYSTRAN MT thì hiệu quả tương đương với PLC.

Có một sự khác nhau rất lớn giữa hệ thống MT T1 với phương pháp CO, cả hai đều

đạt đến 79% so với tìm kiếm đơn ngữ. Đây là một kết quả đáng khích lệ bởi vì nó

chứng minh được rằng thông tin về việc đồng xuất hiện có thể được sử dụng một cách

thành công để gia tăng độ hiệu quả của hệ thống dịch máy.

Phương pháp Độ chính xác % thay đổi % so với đơn ngữ

Đơn ngữ 0.3869 -

WBW 0.2331 60

PLC 0.2551 9.4 65

CO 0.3057 31.1 79

T1 0.3066 31.5 79

SYSTRAN 0.2584 10.8 67

Bảng 2.5: So sánh các phương pháp khử nhập nhằng

2.4 Kết luận:

Căn cứ vào các cơ sở lý thuyết đã được trình bày ở trên, chúng tôi lựa chọn các giải

pháp cho hệ thống của mình như sau:

Phương pháp dịch: dựa vào các từ điển MRD

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

70

Page 71: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Tách từ: sử dụng module tách từ cài đặt theo hệ thống MMSEG cho tiếng

Việt.

Khử nhập nhằng: dùng phương pháp tần số đồng xuất hiện kết hợp với ngữ

liệu song song và đơn ngữ.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

71

Page 72: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Chương 3: PHÂN TÍCH và THIẾT KẾ

Trong chương này, chúng tôi sẽ trình bày chi tiết về phân tích và thiết kế hệ thống theo

các phương pháp đã được lựa chọn ở chương 2. Nội dung trình bày bao gồm các phần

sau:

Tổng quan về hệ thống.

Phân tích và thiết kế hệ thống.

Xây dựng hệ thống.

3.1 Tổng quan hệ thống: 3.1.1 Phát biểu bài toán:

Chúng tôi xây dựng một hệ thống đáp ứng các yêu cầu sau:

Hệ thống cho phép người dùng nhập vào câu truy vấn bằng tiếng Việt.

Chuyển ngữ câu truy vấn tiếng Việt này sang ngôn ngữ đích (Anh và

Hoa). Việc chuyển ngữ này sẽ được thực hiện dựa trên từ điển song ngữ

Việt – Anh và Anh – Hoa . Do trong quá trình dịch sẽ có trường hợp một

từ trong ngôn ngữ nguồn có nhiều bản dịch trong ngôn ngữ đích nên cần

phải khử nhập nhằng. Phương pháp khử nhập nhằng được chọn ở đây là

phương pháp dựa trên ngữ liệu song song.

Sau khi chuyển ngữ câu truy vấn, thực hiện tìm kiếm các tài liệu có liên

quan đến câu truy vấn bằng cả ba thứ tiếng Việt, Anh và Hoa.

Sắp xếp các tài liệu theo thứ tự giảm dần về độ liên quan của tài liệu và

câu truy vấn, sau đó hiển thị kết quả cho người dùng.

3.1.2 Mô hình hệ thống:

Với các yêu cầu trên chúng tôi đề nghị mô hình hệ thống như sau:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

72

Page 73: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Người dùng

Câu truy vấn tiếng Việt

Câu truy vấn tiếng Anh

Câu truy vấn tiếng Hoa

Công cụ truy xuất – IR Engine

Các tài liệu có liên quan đến câu truy vấn ở cả ba ngôn ngữ Việt –

Anh – Hoa

Chuyển ngữ câu truy vấn Dịch

Khử nhập nhằng

Các từ điển

Ngữ liệu

Trộn các tài liệu

Hình 3.1 Mô hình hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Công việc chính của hệ thống là chuyển ngữ câu truy vấn sang tiếng Anh và tiếng

Hoa. Qui trình chuyển ngữ gồm hai bước như sau:

Dịch câu truy vấn sang tiếng Anh và tiếng Hoa dựa vào các từ điển MRD.

Khử nhập nhằng câu truy vấn dựa vào ngữ liệu song ngữ và ngữ liệu đơn ngữ.

Sau khi có ba câu truy vấn tiếng Việt, tiếng Anh và tiếng Hoa, hệ thống sẽ gọi công cụ

tìm kiếm để tìm các tài liệu có liên quan; sau đó sắp xếp các kết quả trả về xen kẽ theo

từng ngôn ngữ một và trả về cho người dùng.

3.1.3 Phát sinh quản lý:

3.1.3.1 Thành viên tham gia và vai trò của từng thành viên:

S

T

T

Tên công việc Người

thực

hiện

TGTH10

(ngày)

Kết quả

nhận

Kết quả chuyển

giao

Yêu cầu

chất lượng

10 TGTH: thời gian thực hiện

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

73

Page 74: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

1 Nghiên cứu lý thuyết

(A)

Tuyết Mai

Hồng

Nhung

56 Phương pháp

chuyển ngữ và khử

nhập nhằng

2 Mô tả phạm vi hệ thống

(B)

Tuyết Mai

Hồng

Nhung

1 Mô tả phạm vi hệ

thống.

Rõ ràng

3 Phát sinh quản lý

(C)

Tuyết Mai

Hồng

Nhung

2 Mô tả phạm vi

hệ thống

Mô tả nghiệp vụ,

các yêu cầu chức

năng, phi chức

năng

Chính xác và

cụ thể

4 Phân tích usecase

(D)

Hồng

Nhung

3 Mô tả nghiệp

vụ, các yêu

cầu chức năng,

phi chức năng

Sơ đồ usecase Đúng đắn, đầy

đủ

5 Thiết kế usecase và sơ

đồ tuần tự

(E)

Tuyết Mai 12 Sơ đồ usecase Sơ đồ usecase hoàn

chỉnh và sơ đồ tuần

tự

Đúng đắn, đầy

đủ

6 Thiết kế lớp

(F)

Hồng

Nhung

Tuyết Mai

14 Sơ đồ usecase Sơ đồ lớp Đúng đắn, đầy

đủ

7 Thiết kế giao diện

(G)

Tuyết Mai

Hồng

Nhung

3 Sơ đồ usecase,

sơ đồ tuần tự,

sơ đồ lớp

Các giao diện ứng

dụng

Đẹp, thân

thiện với

người dùng

8 Viết báo cáo

(H)

Tuyết Mai

Hồng

Nhung

5 Kết quả của

các công việc

trên

Báo cáo Chính xác, đầy

đủ

9 Cấu trúc hóa từ điển

điện tử dành cho người

và rút trích các thông

tin từ các trường có liên

quan (I)

Tuyết Mai 7 Các từ điển

dành cho

người

Các từ điền MRD

cần dùng cho hệ

rhống

Chi tiết, rõ

ràng, đầy đủ

10 Tiến xử lý ngữ liệu Hồng

Nhung

14 Ngữ liệu thô

ban đầu

Ngữ liệu phù hợp

với nhu cầu sử

Đấy đủ, chi ,

tiết

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

74

Page 75: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

(J) dụng của hệ thống

11 Hoàn chỉnh báo cáo

(K)

Tuyết Mai

Hồng

Nhung

3 Kết quả của

các công việc

trên

12 Cài đặt module chuyển

ngữ và khử nhập nhằng

(L)

Hồng

Nhung

7 MRD và ngữ

liệu đã được

xử lý

Module chuyển

ngữ và khử nhập

nhằng

Đạt độ chính

xác cao khi

dịch

13 Cài đặt module tìm

kiếm và sắp xếp tài liệu

(M)

Tuyết Mai

7 Module

chuyển ngữ và

khử nhập

nhằng

Phiên bản anpha Tìm kiếm và

hiển thị cho

người dùng

các tài liệu có

liên quan

14 Hoàn chỉnh báo cáo

(N)

Tuyết Mai

Hồng

Nhung

3 Kết quả của

các công việc

trên

Chính xác, đầy

đủ

15 Kiểm tra, chạy thử và

cải tiến chương trình

(O)

Tuyết Mai

Hồng

Nhung

7 Phiên bản

anpha

Phiên bản bêta Tăng tốc độ

cùa chương

trình và có

giao diện hỗ

trợ tối đa cho

người dùng

16 Sửa chữa các lỗi nếu có

và hoàn chỉnh chương

trình.

(P)

Tuyết Mai

Hồng

Nhung

7 Phiên bản bêta Chương trình hoàn

chỉnh

Tốc độ nhanh,

hiệu quả tìm

kiếm cao , giao

diện thân thiện

17 Hoàn chỉnh báo cáo lần

cuối cùng

(Q)

Tuyết Mai

Hồng

Nhung

3 Báo cáo lần

trước và kết

quả của các

công việc trên

Báo cáo hoàn chỉnh Chính xác, đầy

đủ

3.1.3.2 Kế hoạch thực hiện và sơ đồ PERT:

STT Công việc Công việc kết thúc

trước đó

Thời gian thực

hiện

Thời gian tối

thiểu

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

75

Page 76: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

1 A 56 50

2 B A 1 1

3 C B 2 2

4 D A 3 3

5 E D 12 10

6 F E 14 12

7 G E 3 3

8 H F 5 4

9 I 7 7

10 J 7 7

11 K H, I, J 3 2

12 L G 14 12

13 M L 7 6

14 N M, K 3 3

15 O M 7 6

16 P O 7 6

17 Q P,N 3 3

Bảng 3.1 Bảng phân kế hoạch thực hiện

Hình 3.2: Sơ đồ Gantt

3.2 Phân tích – thiết kế hệ thống: 3.2.1 Mô hình Usecase:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

76

Page 77: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Dựa trên đặc tả của bài toán và mô hình hệ thống chúng ta có mô hình usecase như

sau:

Tim tai lieu

Chuyen ngu

Nguoi dung

Sap xep tai lieu

Hình 3.3: Mô hình Usecase

3.2.2 Đặc tả usecase:

3.2.2.1 Usecase chuyển ngữ:

Tóm tắt: chức năng thực hiện qui trình chuyển ngữ câu truy vấn do

người dùng nhập vào.

Dòng sự kiện:

o Dòng sự kiện chính:

Hệ thống yêu cầu người dùng nhập vào câu truy vấn tiếng

Việt (đúng chính tả).

Sau khi dịch câu truy vấn dựa trên các từ điền sẽ thực hiện

khử nhập nhằng các bản dịch và chọn ra bản dịch tốt nhất.

Khi người dùng chọn chức năng tìm kiếm, hệ thống sẽ

chuyển bản dịch của câu truy vấn cho usecase tìm kiếm,

đồng thời hiển thị kết quả chuyển ngữ lên màn hình.

o Dòng sự kiện khác:

Nếu câu truy vần là rỗng thì thông báo cho người dùng

biết.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

77

Page 78: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

3.2.2.2 Usecase tìm tài liệu:

Tóm tắt : chức năng này sẽ download các trang kết quả tìm kiếm

được từ google dựa vào các câu truy vấn – kết quả chuyển ngữ

của chức năng chuyển ngữ.

Dòng sự kiện:

o Dòng sự kiện chính:

Nhận kết quả chuyển ngữ của usecase chuyển ngữ

và gọi Google thực hiện.

Phân tích trang kết quả do Google gửi về.

o Dòng sự kiện khác: không có

3.2.2.3 Usecase sắp xếp tài liệu:

Tóm tắt: sắp xếp các tài liệu nhận được theo trình tự Việt – Anh –

Hoa.

Dòng sự kiện:

o Dòng sự kiện chính:

Nhận các kết quả được phân tích trong usecase tìm

kiếm và lần lượt sắp xếp xen kẽ theo tiếng Việt,

tiếng Anh và tiếng Hoa.

o Dòng sự kiện khác: không có.

3.2.3 Sơ đồ tuần tự:

Căn cứ vào các đặc tả usecase trên ta có các sơ đồ tuần tự sau:

3.2.3.1 Usecase chuyển ngữ:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

78

Page 79: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

: N

guoi

dun

g:fr

mTi

mK

iem

cong

cu

tach

tu

Dic

h du

a va

o M

RD

cong

cu

khu

nhap

nha

ng

2: c

au tr

uy v

an

5: c

ac tu

kho

a da

tach

3: ta

ch tu

4: lo

ai b

o ca

c tu

co

trong

sto

plis

t

6: d

ich

tu k

hoa

7: c

ac b

an d

ich

cua

cac

tu k

hoa

8: k

hu n

hap

nhan

g

1: n

hap

cau

truy

van

9: c

ac tu

kho

a da

khu

nha

p nh

ang

Hình 3.4: Usecase chuyển ngữ

3.2.3.2 Usecase tìm tài liệu:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

79

Page 80: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

:frmTimKiem cong cu tim tai lieu

1: cac tu khoa da khu nhap nhang

2: tim tai lieu theo tu khoa

3: tai lieu tim duoc

Hình 3.5: Usecase tìm tài liệu

3.2.3.3 Usecase sắp xếp tài liệu:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

80

Page 81: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

: Nguoi dung

:frmTimKiem Cong cu sap xep tai lieu

1: tai lieu tim duoc

2: phan tich tai lieu

3: sap xep tai lieu

4: tai lieu da sap xep

6: ket qua cuoi cung

5: hien thi tai lieu

Hình 3.6: Usecase sắp xếp tài liệu

3.2.4 Thiết kế lớp:

3.2.4.1 Sơ đồ lớp:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

81

Page 82: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

TimKiemloaiTimKiem

XuLyChuoiTimKiem()DownloadKetQua()LayCacTrangKeTiep()PhanTichTrangKetQua()

TachTuhStopListDuongDanSL

TachTu()LoaiBoTrongStopList()

KhuNhapNhangtuDienTSNguontuDienTSDicharrDocarrHashnDoctypedirectory

TSDXHTrongSongNgu()TSDXHTrongDonNgu()TimBanDichTotNhatTrongDonNgu()TimBanDichTotNhatTrongSongNgu()KhoiTaoTuDien()KhoiTaoNguLieu()KhoiTaoMangHash()DocNguLieu()TimTanSo()ChuanHoaTu()

frmTimKiemm_TachTum_KhuNhapNhangm_DichTuTuDienm_TimKiem

bnTimKiem_Click()DichAnh()DichHoa()HienThiKetQua()

* 1* 1 *1 *1

*

1

*

1

TuDienthuMucTuDienarrXml

LayTuDien()LoadTuDien()LoadTuDien_Arr()SetDir()KhoiTaoHashTable()

DichTuTuDienarrXmlcptDicduongDanTuDiendicAnhdicHoa

KhoiTaoTuDien()TranslateOneLanRecursion()Normal()CheckInStrArr()TranslateRecursion()

*

1

*

1

* 1* 1

Hình 3.7: Sơ đồ lớp

3.2.4.2 Đặc tả cho từng lớp:

3.2.4.2.1 TachTu:

Biến thành phần:

STT Tên biến Kiểu Ràng

buộc

Khởi

động

Ý nghĩa Ghi

chú

1 hStopList HashTable Lưu các từ, cụm

từ có trong

stoplist

2 duongDanSL Chuỗi Lưu đường dẫn

của file stoplist

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

82

Page 83: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Hàm thành phần:

STT Tên hàm Tham số Kết quả Xử lí Ghi

chú

1 TachTu m_Query: chuỗi Chuỗi Gọi dll tách từ

2 LoaiBoTrongStopList arrWord: mảng

chuỗi

Mảng chuỗi Lần lượt duyệt qua

các phần tử của

mảng chuỗi truyền

vào, nếu chuỗi nào

không có trong

hStopList thì giữ lại.

3.2.4.2.2 TuDien:

Biến thành phần:

STT Tên biến Kiểu Ràng

buộc

Khởi

động

Ý nghĩa Ghi

chú

1 thuMucTuDien Chuỗi Lưu đường dẫn của

thư mục chứa các tập

tin từ điển

2 arrXml[] XmlDocum

ent

Lưu nội dung của các

tâp tin từ điển

Hàm thành phần:

STT Tên hàm Tham số Kết quả Xử lí Ghi

chú

1 SetDir m_Dir: chuỗi void Khởi tạo đường dẫn

2 LoadTuDien() m_filename: xmlDocument Đọc file xml và lưu

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

83

Page 84: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

chuỗi vào XmlDocument

3 LoadTuDien_Arr() m_Directory arr_XmlDoc[] Lần lượt load các

file có trong thư

mục vào mảng

xmlDocument

4 LayTuDien() Không có arr_XmlDoc[] - Gọi hàm

LoadTuDien_Arr()

- Trả về

arr_XmlDoc nhận

được sau khi gọi

hàm

5 KhoiTaoHashTable() m_Filename:

chuỗi

HashTable Đọc file và khởi tạo

hashtable

3.2.4.2.3 DichTuTuDien:

Biến thành phần:

STT Tên biến Kiểu Ràng

buộc

Khởi

động

Ý nghĩa Ghi

chú

1 arrXml[] XmlDocument Mảng các tài liệu xml

lưu thông tin của từ

điển chung

2 cptDic XmlDocument Lưu nội dung của các

tâp tin từ điển chuyên

ngành

3 dicThuong TuDien Dùng để load các từ

điển thông thường

4 dicChuyen

Nganh

TuDien Dùng để load các từ

điển chuyên ngành

5 Directory Chuỗi Đường dẫn của ứng

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

84

Page 85: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

dụng

Hàm thành phần:

STT Tên hàm Tham số Kết quả Xử lí Ghi

chú

1 KhoiTaoTuDien() lan: int void Tùy vào giá trị của lan:

- lan = 1(tiếng Anh): khởi

tạo đường dẫn, các từ điển

thông thường và từ điển

chuyên ngành tiếng Anh.

- lan =2 (tiếng Hoa): khởi

tạo từ điển tiếng Hoa.

2 TranslateRecursion() word: chuỗi

lan: int

arrTran[]:

chuỗi

arrSyn[]:

chuỗi

indexTran:

int

indexSyn:

int

indexRef:

int

void Tìm nghĩa của word trong

ngôn ngữ lan bằng cách đệ

qui như sau:

- Lần lượt duyệt qua các file

xml từ điển tìm node có

<TXT_V> là word

- Kiểm tra các giá trị trong

<TXT_E> hay <TXT_C>

tương ứng đã có trong mảng

arrTran hay arrSyn hay

chưa?

- Nếu chưa: lưu các

<TXT_E> hoặc <TXT_C>

vào arrTran.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

85

Page 86: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

count: int - Tăng indexTran.

- Kiểm tra giá trị tương ứng

của <SYN> đã có trong

arrTran hay chưa?

- Nếu chưa: lưu giá trị của

<SYN> vào arrSyn.

- Tăng indexSyn.

- Nếu không có <TXT_E>

hay <TXT_C> thì xét đến

<REF>.

- Gọi hàm dịch cho giá trị

của <REF> để tìm nghĩa.

- Mỗi lần gọi đệ qui thì giảm

giá trị count xuống 1.

- Nếu count = 0 thì dừng đệ

qui.

3 TranslateOne

LanRecursion()

arrWord[]:

chuỗi

count: int

lan: int

arrSyn[]:

chuỗi

Ma trận

chuỗi hai

chiều

- Gọi hàm dịch cho từng

phần tử của arrWord.

- Trả về mảng hai chiều là

các bản dịch của mảng

arrWord.

4 Normal() m_str: chuỗi Chuỗi - Chuẩn hóa chuỗi: loại bỏ

khoảng trắng đầu và cuối

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

86

Page 87: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

chuỗi.

5 CheckInStrArr() Word: chuỗi

arrWord[]:

chuỗi

Bool - Kiểm tra xem word có

trong arrWord không?

- Nếu có thì trả về false.

- Nếu không thì trả về true.

3.2.4.2.4 KhuNhapNhang:

Biến thành phần:

STT Tên biến Kiểu Ràng

buộc

Khởi

động

Ý nghĩa Ghi

chú

1 arrDoc Ma trận

chuỗi hai

chiều

Mỗi phần tử của ma trận

là một câu trong một file

ngữ liệu.

2 TuDienTSNg

uon

XmlDocu

ment

Lưu tần số xuất hiện của

từng từ của ngôn ngữ

nguồn trong ngữ liệu.

3 TuDienTSDi

ch

XmlDocu

ment

Lưu tần số xuất hiện của

từng từ của ngôn ngữ đích

trong ngữ liệu.

4 arrHash Ma trận

hashtable

hai chiều

Mỗi phần tử của ma trận

lưu các từ trong một câu

của một file ngữ liệu. (các

key của hashtable là các

từ)

5 nDoc int Lưu số file có trong ngữ

liệu

6 Type int Cho biết kiểu khử nhập

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

87

Page 88: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

nhằng:

- type = 1: đơn ngữ Anh

- type = 2: song ngữ Anh-

Việt

- type = 3: đơn ngữ Hoa

- type = 4: song ngữ Hoa-

Việt

7 Directory Chuỗi Lưu đường dẫn của ứng

dụng

Hàm thành phần:

STT Tên hàm Tham số Kết

quả

Xử lí Ghi

chú

1 TSXHTrongSongNgu() word1: chuỗi

word2: chuỗi

arrDoc[][]:

chuỗi

Float - Lần lượt duyệt qua từng

phần tử của arrDoc và tìm

xem chuỗi word1 hay

word2 xuất hiện bao

nhiêu lần?

- Trả về số lần xuất hiện.

2 TSXHTrongDonNgu() wordSrc: chuỗi

wordDes:

chuỗi

arrDoc[][]:

chuỗi

float - Lần lượt duyệt qua từng

phần tử của arrDoc và tìm

xem chuỗi wordSrc hay

wordDes xuất hiện bao

nhiêu lần?

- Trả về số lần xuất hiện.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

88

Page 89: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

3 TimBanDich

TotNhatTrongDonNgu()

arrWord1[]:

chuỗi

arrWord2[]:

chuỗi

strResult:

chuỗi

void - Lần lượt tính tần số

đồng xuất hiện của từng

cặp phần tử của 2 mảng

arrWord1 và arrWord2

bằng cách gọi hàm

TSDXHTrongDonNgu().

- Tìm cặp có tần số cao

nhất.

- Nếu các cặp đều có tần

số bằng không thì chọn

cặp đầu tiên là bản dịch

tốt nhất.

4 TimBanDichTotNhat

TrongSongNgu()

arrWord1[]:

chuỗi

arrWord2[]:

chuỗi

strResult:

chuỗi

void - Lần lượt tính tần số

đồng xuất hiện của từng

cặp phần tử của 2 mảng

arrWord1 và arrWord2

bằng cách gọi hàm

TSDXHTrongSongNgu()

- Tìm cặp có tần số cao

nhất.

- Nếu các cặp đều có tần

số bằng không thì chọn

cặp đầu tiên là bản dịch

tốt nhất.

5 KhoiTaoTuDien() Không có Void - Tùy vào giá trị của type

mà khởi tạo đường dẫn và

các từ điển cần thiết

- Gọi hàm

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

89

Page 90: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

KhoiTaoNguLieu() và

KhoiTaoMangHash()

6 KhoiTaoMangHash () type: int Void Cắt câu trong các file

ngữ liệu thành từng từ và

lưu vào mảng HashTable.

7 KhoiTaoNguLieu() Directory:

chuỗi

Void Lần lượt đọc các file ngữ

liệu vào lưu vào các phần

tử của arrDoc

8 DocNguLieu() m_Filename:

chuỗi

Mảng

chuỗi

Mỗi phần tử của mảng

chuỗi được trả về là một

câu trong file ngữ liệu

9 TimTanSo() word: chuỗi,

dicXml:

xmlDocument,

lan: int

float Tìm tần số xuất hiện của

từ trong một ngôn ngữ

trong file từ điển tần số

được lưu trong

xmlDocument.

10 ChuanHoaTu() m_word: chuỗi Chuỗi Chuẩn hóa từ : xóa

khoảng trắng đầu và cuối

chuỗi

3.2.4.2.5 TimKiem:

Biến thành phần:

STT Tên biến Kiểu Ràng

buộc

Khởi

động

Ý nghĩa Ghi

chú

1 loaiTimKiem int Cho biết ngôn ngữ cần

tìm :

- type = 0: tiếng Việt.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

90

Page 91: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

- type = 1: tiếng Anh

- type = 2: tiếng Hoa

Hàm thành phần:

STT Tên hàm Tham số Kết quả Xử lí Ghi

chú

1 XuLyChuoiTimKiem() nSearchEngine: int,

szQuery: chuỗi,

Chuỗi - Thêm vào chuổi

tìm kiếm font của

file input và file

output là “utf-8”.

- Tùy vào

nSearchEngine mà

thêm vào chuỗi tìm

kiếm loại ngôn ngữ.

2 DownLoadKetQua() nSearchEngine: int,

szQuery: chuỗi,

node[]: chuỗi ,

index: int

Mảng chuỗi - Gọi hàm xử lý

chuỗi tìm kiếm.

- Gọi hàm download

Webpage theo chuỗi

tìm kiếm.

- Gọi hàmPhanTich

– TrangKetQua và

lưu vào node[].

- Gọi hàm

LayCacTrang_

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

91

Page 92: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

KeTiep()

3 LayCacTrangKeTiep() strFile: chuỗi Mảng chuỗi - Duyệt qua chuỗi

strFile, tìm vị trí của

chuỗi “<div

class=\"n\">”

- Lặp:

+ Tìm vị trị của

chuỗi "href=\""

, cắt chuỗi bắt đầu

từ vị trí tìm thấy và

lưu vào một mảng

chuỗi.

+ Tăng biến i.

+ Lặp cho đến khi

không tìm thấy

chuỗi "href=\""

4 PhanTichTrangKetQua() webpage:

StreamReader

index: int

node[]: mảng chuỗi

void - Trong khi index <

1000 và vẫn tìm

thấy chuỗi "<p

class=\"g\">"

thì lặp.

- Cắt chuỗi từ vị trí

tìm thấy trước đó

đến vị trí vừa tìm và

lưu vào node.

-Tăng index thêm 1

đơn vị.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

92

Page 93: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

3.2.4.2.6 frmTimKiem:

Biến thành phần:

STT Tên biến Kiểu Ràng

buộc

Khởi

động

Ý nghĩa Ghi

chú

1 bnSearch Button

2 m_TachTu TachTu Dùng để tách từ

câu truy vấn

3 m_DichTuTuDie

n

DichTuTuDien Dịch câu truy vấn

4 m_KhuNhapNha

ng

KhuNhapNhang Khử nhập nhằng

các kết quả sau khi

dịch

5 m_TimKiem TimKiem Tìm kết quả theo

các câu truy vấn

Hàm thành phần:

STT Tên hàm Tham số Kết

quả

Xử lí Ghi

chú

1 DichAnh() arrWord[]: chuỗi

numW: int

Chuỗi - Gọi hàm dịch cùa đối

tượng

m_DichTuTuDien cho

mảng arrWord.

- Khử nhập nhằng kết

quả dịch bằng cách gọi

các hàm của đối tượng

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

93

Page 94: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

m_KhuNhapNhang.

2 DichHoa() arrWord[]: chuỗi

numW: int

Chuỗi - Gọi hàm dịch cùa đối

tượng

m_DichTuTuDien cho

mảng arrWord.

- Khử nhập nhằng kết

quả dịch bằng cách gọi

các hàm của đối tượng

m_KhuNhapNhang.

3 HienThiKetQua() thutu: int,

E_nodes[]: mảng chuỗi,

V_nodes[]: mảng chuỗi,

C_nodes[]: mảng chuỗi

void Lần lượt hiển thị các

kết quả xen kẽ Việt –

Anh – Hoa lên màn

hình

4 OnBnSearchClick() Không có void - Gọi hàm DichAnh(),

DichHoa().

- Lấy kết quả tìm kiếm

bằng cách gọi hàm

DownloadKetQua()

của đối tượng

m_TimKiem

- Gọi hàm hiển thị kết

quả.

3.2.5 Thiết kế giao diện:

3.2.5.1 Màn hình chính:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

94

Page 95: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Hình 3.8: Màn hình chính

Danh sách các đối tượng thể hiện:

STT Tên Loại/Kiểu Ý nghĩa Ghi chú 1 txtQuery A_TextBox Nhập câu truy vấn 2 cmbDesLan A_ComboBox Danh sách ngôn ngữ

đích

3 cmbDisplayLan A_ComboBox Danh sách ngôn ngữ hiển thị

4 cmdTimKiem A_Button Nút tìm kiếm 5 txtEnglish A_TextBox Câu truy vấn tiếng

Anh

6 txtChinese A_TextBox Câu truy vấn tiếng Hoa

7 lkAbout A_LinkButtom Link đến trang About

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

95

1

4 2

3

5

7

6

Page 96: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

3.2.5.2 Màn hình kết quả:

3

2

1

5 4

Hình 3.9: Màn hình kết quả

Danh sách các đối tượng thể hiện: ngoài các đối tượng như màn hình chính còn có một số đồi tượng thể hiện như sau:

STT Tên Loại/Kiểu Ý nghĩa Ghi chú 1 lblViet1 A_Label Hiển thị kết quả tiếng

Việt

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

96

Page 97: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

2 lblEnglish1 A_Label Hiển thị kết quả tiếng Anh

3 lblChinese1 A_Label Hiển thị kết quả tiếng Hoa

4 Hiển thị các kết quả còn lại

5 Các link button Hiển thị kết quả ở các trang kế tiếp.

3.3 Xây dựng hệ thống: 3.3.1 Tổ chức các MRD:

Trong luận văn này, chúng tôi xây dựng hai MRD Việt – Anh và Việt – Hoa cho hệ

thống vì từ điển Việt – Anh là thể hiện của từ điển song ngữ có loại hình ngôn ngữ

khác nhau (đơn lập và biến hình), còn Việt – Hoa là thể hiện của từ điển song ngữ có

loại hình ngôn ngữ giống nhau (đơn lập). Điều này cho thấy khả năng tìm kiếm trên

các loại hình ngôn ngữ khác nhau của hệ thống.

3.3.1.1 Giai đoạn tiền xử lý:

Để phục vụ cho việc tạo lập từ điển MRD, công việc đầu tiên và mất nhiều thời gian

nhất là thu thập và chỉnh lý các kho dữ liệu có sẵn, tìm kiếm nguồn dữ liệu tối ưu.

Trong luận văn này chúng tôi sử dụng các kho dữ liệu có sẵn kế thừa từ [16].

Trước khi sử dụng các dữ liệu này, chúng tôi tiến hành giai đoạn tiền xử lý như sau:

Loại bỏ các từ không có nghĩa trong từ điển.

Chuẩn hoá các ký tự đặc biệt, tạo sự nhất quán trong toàn bộ các từ điển đầu

vào.

Thống nhất chuyển hết các dữ liệu nguồn về mã Unicode.

Trước giai đoạn tiền xử lý, mục từ của từng từ điển (điện tử của người) có cấu trúc

như sau:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

97

Page 98: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Việt – Anh: ứng với một từ gốc tiếng Việt (V) sẽ có một hoặc nhiều từ loại (P),

ứng với mỗi từ loại (P) lại có một hoặc nhiều nghĩa tiếng Anh (E) hoặc tham

chiếu (R) của từ đó và mỗi nghĩa tiếng Anh (E) có một hoặc nhiều ví dụ (Ex)

của nó.

V

PP P

Ví dụ: một số mục từ trong từ điển Việt – Anh:

(1) @a

* excl

- O; oh (exclamation of surprise, regret, ect.)

=a, đồ_chơi đẹp quá!+ Oh! What a nice toy!

=a, tội nghiệp quá+Oh!What a pity!

- By the way

=a, còn một vấn_đề này nữa +By the way, there's this one other question

Hình 3.10: Cấu trúc cây của mục từ trong từ điển Việt – Anh

E EE E R

Ex Ex Ex Ex

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

98

Page 99: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

* noun

- Acre (100 square meters)

(2) @kỳ thi

* noun

- examination

=kỳ_thi tuyển+competitive examination

Việt – Hoa: ứng với một từ gốc tiếng Việt (V) sẽ có một hoặc nhiều nghĩa tiếng

Hoa (C) hoặc có tham chiếu của từ đó (R) và mỗi nghĩa tiếng Hoa (C) có một

hoặc nhiều ví dụ (Ex) của nó.

V

Ví dụ: một số mục từ trong từ điển Việt– Hoa:

(1) *Máy tính

1.電腦

2. 計算機

&Máy tính bức xạ: 射線計算機

C C R

Ex Ex Ex

Hình 3.11: Cấu trúc cây của mục từ trong từ điển Việt – Hoa

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

99

Page 100: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

&Máy tính điện tử: 電子計算機

(2) *Chế

1. 譏諷

2. 制造

&chế ra cái máy: 造出機器

3. 泡 制

&chế thuốc: 制藥

4. 制度

&đế chế: 帝制

5. 守制

&đang có chế không được cưới xin: (~古)孝服在身,不得婚娶

Sau giai đoạn tiền xử lý, mục từ của từng từ điển có cấu trúc như sau:

Việt – Anh: ứng với một từ gốc tiếng Việt (V) sẽ có một từ loại (P), một nghĩa

tiếng Anh (E) hoặc một tham chiếu (R) của từ đó.

Ví dụ: một số mục từ trong từ điển Việt – Anh:

(1) @a

* excl

- O; oh (exclamation of surprise, regret, ect.)

(2) @a

* excl

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

100

Page 101: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

- By the way

(3) @a

* noun

- Acre (100 square meters)

Việt – Hoa: ứng với một từ gốc tiếng Việt (V) sẽ có một nghĩa tiếng Hoa (C)

hoặc có một tham chiếu của từ đó (R).

Ví dụ: một số mục từ trong từ điển Việt– Hoa:

(1) *Máy tính

-電腦

(2) *Máy tính

-計算機

Sau khi đã tiền xử lý xong các từ điển, chúng tôi tiến hành tạo từ điển MRD bằng cách

đánh cấu trúc các trường.

3.3.1.2 MRD Việt – Anh (VEDic): 3.3.1.2.1 Cấu trúc vĩ mô, vi mô của VEDic:

Để đảm bảo tính đơn trị của MRD, trong một mục từ mỗi từ tiếng Việt ứng với một từ

loại sẽ có một nghĩa tiếng Anh, một lĩnh vực, một tham chiếu và đồng nghĩa Anh của

nó. Chẳng hạn, MRD Việt – Anh có cấu trúc mục từ như sau:

Từ tiếng Việt Từ loại Nghĩa tiếng Anh Lĩnh vực Ref11 Đồng nghĩa Anh

Máy tính Noun Computer Tin_học

Lật tẩy Verb Unmask Uncloak

Luận bàn Verb Bàn

11 Ref: từ viết tắt của Reference nghĩa là từ tham chiếu (tiếng Việt).

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

101

Page 102: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

luận

Luân lý Noun Morals Ethical motive,

ethics, morality

Bảng 3.1: Ví dụ một số mục từ trong từ điển Việt – Anh

Các trường lĩnh vực, ref được rút trích ngay trong từ điển điện tử Việt – Anh. Trường

đồng nghĩa Anh được thêm vào dựa trên từ điển đồng nghĩa tiếng Anh của mạng

WORDNET.

3.3.1.2.2 Cấu trúc dữ liệu của VEDic:

Các mục từ trong file từ điển sau khi tiền xử lý được lưu vào mảng phụ theo dạng cấu

trúc sau:

typedef struct _tagLoaiTu_PhienAm_Nghia

{

CString loaiTu; //từ loại

CStringArray nghia; //Các nghĩa tiếng Anh tương ứng theo từ loại

}LOAITU_PA_NGHIA;

typedef LOAITU_PA_NGHIA *NGHIA_ANHS;

typedef struct _tagTU_VE

{

CString TuGoc; //từ gốc

NGHIA_ANHS NghiaAnh; //các nghĩa của từ gốc

}TU_VE;

Như vậy trong mỗi node của mảng này chỉ lưu thông tin của:

Từ tiếng Việt

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

102

Page 103: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Nghĩa tiếng Anh

Vì mảng này có dung lượng khá lớn nên ta khai báo dữ liệu theo kiểu con trỏ động để

tiết kiệm bộ nhớ:

typedef TU_VE* TUDIEN_VE;

TUDIEN_VE = new TU[50000];

Mảng thứ hai là mảng chính chứa các thông tin cần quan tâm để sau khi được xử lý

xong sẽ lấy thông tin cho từ điển MRD:

typedef struct _tagTu_VEDic

{

CString TuTV; //từ tiếng Việt

CString TuLoai; //từ loại của từ tiếng Việt

CString NghiaAnh; //nghĩa tiếng Anh

CString LinhVuc; //lĩnh vực của từ tiếng Anh

CString TuThamChieu; //từ tham chiếu của từ tiếng Việt

CString DongNghiaAnh; //từ đồng nghĩa theo từ tiếng Anh

}TU_VEDic;

Mảng này cũng được khai báo dữ liệu theo kiểu con trỏ động như sau:

typedef TU_VEDic* VEDic;

VEDic = new TU_VEDic[100000];

Tuy nhiên, để việc khai thác MRD dễ dàng và tận dụng ưu điểm (dễ mang chuyển,

truy xuất nhanh) của cấu trúc tập tin xml chúng tôi tổ chức từ điển như sau:

<VEDIC>

<ENTRY>

<TXT_V> từ tiếng Việt</TXT_V>

<POS>từ loại</POS>

<TXT_E>nghĩa tiếng Anh</TXT_E>

<FIELD>lĩnh vực</FIELD>

<REF>từ tham chiếu tiếng Việt</REF>

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

103

Page 104: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

<SYN>từ đồng nghĩa tiếng Anh</SYN>

</ENTRY>

<ENTRY>

</ENTRY>

</VEDIC>

3.3.1.3 MRD Việt – Hoa (VCDic): 3.3.1.3.1 Cấu trúc vĩ mô, vi mô của VCDic:

Tương tự đối với MRD Việt – Hoa, cấu tạo mục từ như sau:

Từ tiếng Việt Ref Nghĩa tiếng Hoa

Chi phiếu Ngân phiếu 支票

Máy tính 電腦

Máy tính 電子計算機

chế 譏諷

chế 制造

Bảng 3.2: Ví dụ một số mục từ của từ điển Việt – Hoa

3.3.1.3.2 Cấu trúc dữ liệu của VCDic:

Các mục từ trong file từ điển sau khi tiền xử lý được lưu vào mảng phụ theo dạng cấu

trúc sau:

typedef struct _tagNGHIA

{

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

104

Page 105: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

CString TuThamChieu; //từ tham chiếu của từ tiếng Việt

CString NghiaHoa; //các nghĩa tiếng Hoa

}NGHIA;

typedef NGHIA* NGHIA_HOAS;

typedef struct _tagTU_VC

{

CString TuGoc; //từ gốc

NGHIA_HOAS NghiaHoa; //các nghĩa của từ gốc

}TU_VC;

Như vậy trong mỗi node của mảng này chỉ lưu thông tin của:

Từ tiếng Việt

Các nghĩa tiếng Hoa

Vì mảng này có dung lượng khá lớn nên ta khai báo dữ liệu theo kiểu con trỏ động để

tiết kiệm bộ nhớ:

typedef TU_VC* TUDIEN_VC;

TUDIEN_VC = new TU_VC[50000];

Mảng thứ hai là mảng chính chứa các thông tin cần quan tâm để sau khi được xử lý

xong sẽ lấy thông tin cho từ điển MRD:

typedef struct _tagTu_VCDic

{

CString TuTV; //từ tiếng Việt

CString TuThamChieu; //từ tham chiếu của từ tiếng Việt

CString NghiaHoa; //nghĩa tiếng Hoa

}TU_VCDic;

Mảng này cũng được khai báo dữ liệu theo kiểu con trỏ động như sau:

typedef TU_VCDic* VCDic;

VCDic = new TU_VCDic[100.000];

VCDic cũng đã được chuyển đổi thành dạng xml:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

105

Page 106: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

<VCDIC>

<ENTRY>

<TXT_V> từ tiếng Việt</TXT_V>

<REF>từ tham chiếu</REF>

<TXT_C>nghĩa tiếng Hoa</TXT_C>

</ENTRY>

<ENTRY>

</ENTRY>

</VCDIC>

3.3.2 Phương pháp tìm kiếm dựa trên MRD:

3.3.2.1 Dịch dựa trên từ điển:

Trình tự dịch dựa trên từ điển như sau:

Bước 1: Tách từ12 câu truy vấn mà người dùng nhập vào.

Bước 2: Loại bỏ các từ có trong stoplist (đây là những từ mang ít

nghĩa như : đây, đó, này, …).

Bước 3: Lần lượt tìm các bản dịch của các từ dựa vào MRD.

3.3.2.1.1 Tách từ câu truy vấn:

Để tách từ câu truy vấn chúng tôi sử dụng module tách từ dựa trên mô hình MMSEG

(áp dụng cho tiếng Việt) của nhóm VCL13.

3.3.2.1.2 Loại bỏ các từ có trong stoplist:

12 Từ ở đây chúng tôi dùng đó là từ từ điển (từ từ điển là từ mà dựa vào đặc tính của nó mà người ta đưa nó vào từ điển). 13 VCL – Vietnamese Computational Linguistics

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

106

Page 107: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Danh sách các stoplist được xây dựng dựa trên từ điển như sau: các từ có từ loại là

thán từ, hình thái từ, trợ từ, trạng từ, đại từ,… sẽ được thêm vào stoplist. Đây là những

từ ít mang nghĩa và không ảnh hưởng đến kết quả tìm kiếm nên cần được bỏ đi. Trong

câu truy vấn nếu có từ xuất hiện trong stoplist thì sẽ bị loại ra khỏi danh sách từ khóa.

3.3.2.1.3 Tìm các bản dịch dựa vào MRD:

Bằng cách so khớp chính xác từ trong danh sách từ khóa (từ khóa là kết quả của tách

từ sau khi loại bỏ các từ có trong stoplist) với từ tiếng Việt có trong MRD, chương

trình sẽ tìm ra nghĩa tiếng Anh của từ tiếng Việt. Nếu mục từ đó có từ đồng nghĩa thì

hệ thống sẽ lấy luôn cả từ đồng nghĩa để thêm vào câu truy vấn.

Ở đây có một số vấn đề cần được giải quyết như sau:

Nếu từ tiếng Việt không có nghĩa tiếng Anh (tiếng Hoa), chỉ có

trường REF thì chương trình sẽ tìm nghĩa của REF để lấy ra nghĩa tiếng

Anh (tiếng Hoa) của từ tiếng Việt đó.

Chưa xác định được từ loại của các từ khóa, do đó nghĩa tiếng

Anh (tiếng Hoa) của từ tiếng Việt ở tất cả các từ loại sẽ được trả về.

Nếu từ khóa không được tìm thấy trong từ điển, lúc này có hai

trường hợp xảy ra:

Từ khóa là tên riêng hoặc là tiếng nước ngoài : trả về chính

từ đó.

Từ điển thiếu từ: hiện nay chương trình chúng tôi chấp

nhận giải pháp là nếu từ điển thiếu từ nào thì trả về chính từ đó.

(Chúng tôi sẽ cố gắng đến tối đa để hạn chế lỗi này, nhưng công

việc này chỉ ở mức thủ công).

3.3.2.2 Khử nhập nhằng:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

107

Page 108: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Một trong những khó khăn của việc phát triển CLIR một cách có hiệu quả là việc giải

quyết tính nhập nhằng trong quá trình dịch. Và các nguồn tài nguyên sẵn có cũng là

một vấn đề. Ở đây chúng tôi chọn kỹ thuật dựa trên số liệu thống kê việc đồng xuất

hiện từ ngữ liệu, kỹ thuật này có thể được sử dụng để làm giảm tính nhập nhằng và đạt

được hiệu suất khá cao.

Từ công thức của Lisa chúng tôi sử dụng hai ngữ liệu để khử nhập nhằng : ngữ liệu

đơn ngữ và ngữ liệu song song.

* Đơn ngữ: * Song ngữ: B

Target Language . b1

A B . b2 . b1 a1 . . A. a2 . . b2 . Source

Language a3 . . b3 .

.

Hình 3.12: Mô hình khử nhập nhằng dựa trên ngữ liệu đơn ngữ và song ngữ

Đối với ngữ liệu đơn ngữ (khoảng 100.000 câu tiếng Anh và 77.000 câu tiếng Hoa)

chúng tôi áp dụng theo đúng công thức (*). Giả sử câu truy vấn do người dùng nhập

vào là : “mạng máy tính”, bằng phương pháp dịch “word by word” dựa trên từ điển ta

được tập các bản dịch:

“Mạng” có tập bản dịch là T1 = {“net”, “network”, “darn”}

“Máy tính” có tập bản dịch là T2 = {“computer”, “calculator”, “arithmometer” }.

Áp dụng (*) ta tính:

. .

...

Target Language Target Language

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

108

Page 109: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

⎟⎟⎠

⎞⎜⎜⎝

⎛+

−= 0,

),(max),(

ba

ab

nnbaEnn

computernetem

Tương tự tính : em(net, calculator), em(net, arithmometer),…. Sau đó chọn cặp

có tần số lớn nhất là cặp dịch tốt nhất. Trường hợp tần số của các cặp bằng nhau thì ta

chọn cặp đầu tiên là cặp dịch tốt nhất.

Với ngữ liệu song song chúng tôi sử dụng lại công thức tính tần số đồng xuất hiện của

Lisa như trên nhưng a, b sẽ là hai từ ở hai ngôn ngữ khác nhau. Ta giả sử a là từ ở

ngôn ngữ nguồn và b là bản dịch của nó trong ngôn ngữ đích. Khi đó ta sẽ tính tần số

đồng xuất hiện của a và b dựa theo công thức (*) với nab là số lần b là bản dịch của a

trong ngữ liệu song song. Cụ thể như sau:

a = “máy tính”

b thuộc tập bản dịch T = {“computer”, “calculator”, “arithmometer”}

Ta lần lượt tính tần số đồng xuất hiện của từng cặp từ:

co(máy tính, computer) = ( )

computertinhmay

computertinhmay

nncomputertinhmayEnn

+

− ,(,

Tương tự tính co(“máy tính”, “calculator”) và co (“máy tính”, “arithmometer”). Sau

đó ta tìm tần số lớn nhất trong ba tần số trên và chọn bản dịch tốt nhất cho “máy tính”.

Nếu tần số của các cặp từ bằng nhau thì từ đầu tiên trong từ điển sẽ được chọn là bản

dịch tốt nhất.

Sau khi áp dụng cụ thể hai phương pháp trên vào module dịch và khử nhập nhằng

chúng tôi nhận thấy phương pháp khử nhập nhằng dựa trên ngữ liệu song song cho kết

quả tốt hơn ngữ liệu đơn ngữ. Điều này là hợp lý vì đối với ngữ liệu song song ta đã có

các tài liệu được dóng hàng ở mức câu (nghĩa là với một câu tiếng Việt thì ta sẽ có câu

tiếng Anh tương ứng của nó), do đó khi a và b đồng xuất hiện trong một cặp câu thì

xác suất b là bản dịch của a là rất lớn.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

109

Page 110: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Như đã nói ở trên, ngữ liệu song song là rất hiếm và thường thuộc về một lĩnh vực nào

đó nên việc khử nhập nhằng cũng bị giới hạn. Ngữ liệu song song mà chúng tôi sử

dụng để khử nhập nhằng các bản dịch tiếng Anh được kế thừa từ [16]. Việc khử nhập

nhằng sẽ rất chính xác nếu câu truy vấn cũng nằm trong lĩnh vực này. Còn đối với các

lĩnh vực khác việc khử nhập nhằng sẽ có độ chính xác không cao.

Riêng đối với tiếng Hoa, hiện nay chúng tôi vẫn chưa xây dựng được ngữ liệu song

song cần thiết cho việc khử nhập nhằng nên chúng tôi sẽ sử dụng phương pháp khử

nhập nhằng dựa trên ngữ liệu đơn ngữ cho các bản dịch tiếng Hoa.

3.3.3 Tìm kiếm tài liệu bằng công cụ tìm kiếm:

3.3.3.1 Giới thiệu:

Sau khi câu truy vấn tiếng Việt được dịch và khử nhập nhằng ta sẽ có thêm 2 câu truy

vấn: một câu tiếng Anh và một câu tiếng Hoa. Lúc này ta sẽ gửi cả 3 câu truy vấn

(Việt – Anh – Hoa) cho hệ thống tìm kiếm đơn ngữ để nhận về các tài liệu có liên

quan. Tiếp theo chương trình sẽ trộn cả 3 kết quả tìm được theo trình tự Việt – Anh –

Hoa và hiển thị cho người dùng.

Trong các hệ thống tìm kiếm đơn ngữ trên Internet hiện nay, có thể nói Google là công

cụ tìm kiếm mạnh nhất và rất được ưa chuộng nhờ vào tính chính xác và tốc độ của nó.

Google có khả năng tìm kiếm rất tốt bằng cho nhiều ngôn ngữ khác nhau đặc biệt là

tiếng Anh và tiếng Việt của chúng ta cũng được Google hỗ trợ khá tốt. Do đó , chúng

tôi chọn Google là công cụ hỗ trợ tìm kiếm cho hệ thống tìm kiếm xuyên ngôn ngữ

của mình.

3.3.3.2 Hệ thống tìm kiếm Google:

Nguyên tắc hoạt động của Google [17] là tìm các trang theo đề tài hoặc chủ đề có liên

quan đến câu truy vấn. Khi người dùng nhập vào câu truy vấn bình thường thì Google

sẽ mặc định dùng toán tử AND. Do đó nếu muốn tìm các tài liệu mà trong đó phải

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

110

Page 111: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

chứa toàn bộ cụm từ trong câu truy vấn thì chúng ta đặt câu truy vấn trong ngoăc kép

(“”). Điểm đặc biệt của Google là có tìm cả từ đồng nghĩa trong câu truy vấn. Kết quả

Google trả về là các trang đã được sắp xếp theo mức độ quan trọng của chúng. Mức độ

quan trọng này được đánh giá dựa vào số liên kết đến trang đó.

Để tăng hiệu quả cho hệ thống tìm kiếm của mình, chúng tôi còn thêm vào câu truy

vấn các từ đồng nghĩa. Kỹ thuật này gọi là “mở rộng câu truy vấn” (query expansion).

Đối với các từ đồng nghĩa tìm được chúng tôi sử dụng toán tử OR. Tuy nhiên, do từ

điển còn hạn chế, chỉ có một số mục từ có từ đồng nghĩa nên kỹ thuật này vẫn chưa

phát huy tính hiệu quả của nó.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

111

Page 112: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

CHƯƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM

Chương này sẽ trình bày cụ thể các kỹ thuật cài đặt cho hệ thống đồng thời trình bày

các thử nghiệm cũng như các kết quả đánh giá của hệ thống tìm kiếm. Nội dung cụ thể

như sau:

Cài đặt.

Thử nghiệm.

Đánh giá.

4.1 Cài đặt:

Chương trình được cài đặt trên nền ASP.Net (C#) và được chạy trực tuyến (on-line ).

Chương trình gồm hai phần : phần chuyển ngữ và phần tìm kiếm. Phần chuyển ngữ có

sử dụng DLL tách từ kế thừa từ [16].

4.1.1 Tiền xử lý:

Các ngữ liệu trước khi sử dụng cần phải qua bước tiền xử lý để phù hợp với hệ thống.

Các chương trình để tiền xử lý gồm có:

Chương trình xử lý tập tin từ điển ban đầu thành tập tin có cấu trúc theo yêu cầu

của MRD (đã mô tả ở trên).

Chương trình tính tần số xuất hiện của từ (Việt, Anh, Hoa) dựa trên ngữ liệu

(song ngữ, đơn ngữ)

Chương trình đánh tag các tập tin kết quả.

4.1.2 Cấu trúc dữ liệu:

Để tăng tốc độ khi tìm kiếm từ điển, cấu trúc của từ điển sẽ được đánh tag và lưu dưới

dạng XML, cấu trúc XML đồng thời cũng rất phù hợp với cấu trúc n-phân đã mô tả ở

trên (chương 3) của từ điển.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

112

Page 113: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Mỗi từ điển sẽ có nhiều tập tin và mỗi tập tin sẽ được lưu trong một đối tượng XML

Document.

Tương tự như từ điển các tập tin lưu tần số xuất hiện cũng được đánh tag và lưu dưới

dạng XML.

Ngoài mục đích làm tăng tốc độ tìm kiếm, giảm khối lượng lưu trữ, việc lưu trữ toàn

bộ dữ liệu bằng XML còn giúp cho hệ thống có thể dễ cải tiến, mở rộng và ngữ liệu

của hệ thống cũng có thể được sử dụng bằng các hệ thống khác mà không cần phải xử

lý hay xây dựng lại. Vì hiện nay XML là cấu trúc mà bất cứ ngôn ngữ lập trình nào

cũng có thể hiểu được.

4.1.3 Dịch từ từ điển:

Sau khi tách từ và loại bỏ các từ có trong stoplist, danh sách các từ khoá sẽ được dịch

sang tiếng Anh và tiếng Hoa dựa vào từ điển Việt – Anh và từ điển Việt – Hoa. Việc

tìm kiếm này tương đương với câu SQL:

“select TXT_E from Dic where TXT_V = word”

hoặc “select TXT_C from Dic where TXT_V = word”

4.1.4 Khử nhập nhằng :

Trước khi khử nhập nhằng cần phải lưu ngữ liệu vào bộ nhớ. Ngữ liệu được lưu theo

định dạng là mỗi dòng là một câu, để rõ ràng và tiện quản lý, chúng tôi lưu mỗi tâp tin

trong ngữ liệu thành một mảng chuỗi, mỗi phần tử mảng là một câu trong ngữ liệu.

Lưu ý là đối với ngữ liệu song ngữ thì các phần tử có chỉ số chẵn là phần tử lưu câu

tiếng Anh và phần tử có chỉ số lẻ lưu câu tiếng Việt.

Việc khử nhập nhằng dựa trên phương pháp tần số đồng xuất hiện của L. Ballesteros.

Thuật toán như sau:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

113

Page 114: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Cách 1: dùng ngữ liệu song ngữ

string KhuNhapNhang(string * arrTran, string word)

{

int i=0;

int max = 0;

int arrFreq[];

Tính tần số của word trong ngữ liệu

for(i=0; i < length(arrTran); i++)

{

Tính tần số của bản dịch i;

arrFreq[i]= tần số đồng xuất hiện của word và bản dịch thứ i

Áp dụng công thức (*)

So sánh max với giá trị vừa tính và gán lại giá trị cho max

}

Tìm phần tử có giá trị max trong arrFreq

return arrTran[vtmax];

}

Hàm tính tần số đồng xuất hiện:

int TinhTSDXH(string srcWord, string desWord)

{

int count = 0;

Lần lượt duyệt qua các cặp câu có trong ngữ liệu

Nếu srcWord xuất hiện trong câu i+1 VÀ desWord xuất hiện trong câu i

thì count++;

return count;

}

Cách 2: đối với ngữ liệu đơn ngữ

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

114

Page 115: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

void KhuNhapNhang(string * arrTran1, string * arrTran2, string & tran1 , string &

tran2)

{

int i=0, j=0;

int max = 0;

int arrFreq[][];

for(i=0; i < length(arrTran1); i++)

{

for(j=0; j < length(arrTran2); j++)

{

Tính tần số của bản dịch i;

Tính tần số của bản dịch j;

arrFreq[i][j] = tần số đồng xuất hiện của bản dịch i và bản dịch

thứ j

Áp dụng công thức (*)

So sánh max với giá trị vừa tính và gán lại giá trị cho max

}

}

Tìm phần tử có giá trị max trong ma trận arrFreq

tran1 = arrTran1[vtmaxi];

tran2 = arrTran2[vtmaxj];

}

Hàm tính tần số đồng xuất hiện:

int TinhTSDXH(string word1, string word2)

{

int count = 0;

Lần lượt duyệt qua các câu có trong ngữ liệu

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

115

Page 116: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Nếu word1 và word2 đồng xuất hiện trong câu i thì

count++;

return count;

}

4.1.5 Tìm kiếm:

Sau khi dịch câu truy vấn sang tiếng Anh và tiếng Pháp, kết quả này sẽ được dùng để

tìm kiếm tài liệu từ Google. Đầu tiên câu truy vấn sẽ được tiền xử lý để có thể gọi

được trên web:

string GetURL (string strQuery)

{

string URL;

URL = http://google.com.vn;

URL += "?ie=utf-8&oe=utf-8&q="+HttpUtility.UrlEncode(szQuery);

return URL;

}

Sau khi gọi Google chương trình sẽ nhận về file kết quả và thực hiện parser để lấy các

tài liệu:

string [] Parser(string strFile)

{

string node[];

int i=0;

Duyệt toàn file.

Tìm vị trí lưu thông tin các tài liệu được trả về

Gán phần tử node[i] cho chuỗi vừa lấy được.

i++;

return node;

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

116

Page 117: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

}

4.2 Thử nghiệm: 4.2.1 Module dịch và khử nhập nhằng:

Nhập vào câu truy vấn “phân tích thiết kế hệ thống thông tin”, chọn cách khử nhập

nhằng cho tiếng Anh là “Song ngữ” và tiếng Hoa mặc định là “Đơn ngữ” ta có kết quả

như hình 4.1

Hình 4.1 Module dịch và khử nhập nhằng

4.2.2 Chương trình demo trên web:

Bước 1: chạy chương trình ta sẽ có màn hình giao diện sau:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

117

Page 118: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

1

2 3 4

Hình 4.2 Màn hình giao diện

65

1: Người dùng nhập câu truy vấn

2: Chọn ngôn ngữ đích

3: Chọn ngôn ngữ hiển thị

5: Nút tìm kiếm

4: Chuỗi dịch tiếng Anh

6: Chuỗi dịch tiếng Hoa

Bước 2: Sau khi nhập câu truy vấn: “thiết kế cơ sở dữ liệu phân tán”, chọn ngôn

ngữ đích là “Anh - Hoa” và ngôn ngữ hiển thị là “ngôn ngữ nguồn và ngôn ngữ

đích”, và nhấn vào nút “Tìm kiếm”. Ta có kết quả sau:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

118

Page 119: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

3 1

Hình 4.3 Màn hình kết quả

2

1: Tài liệu tiếng Việt

2: Tài liệu tiếng Anh

3: Tài liệu tiếng Hoa

4.3 Đánh giá :

4.3.1 Module dịch và khử nhập nhằng:

Chúng tôi đã thực hiện việc dịch và khử nhập nhằng trên 100 câu tiếng Việt bao gồm

40 câu trong lĩnh vực tin học và 60 câu trong các lĩnh vực khác.

Kết quả của chuyển ngữ và khử nhập nhằng tiếng Anh được trình bày ở bảng 4.1

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

119

Page 120: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Song ngữ Đơn ngữ Khử nhập nhằng

Lĩnh vực Đúng (câu) Tỉ lệ Đúng (câu) Tỉ lệ

Tin học 36 90% 31 77,5%

Các lĩnh vực khác 50 83,33% 40 66,67%

Bảng 4.1: Kết quả dịch và khử nhập nhằng tiếng Anh

Từ các kết quả thống kê của bảng 4.1 ta dễ dàng nhận thấy việc khử nhập nhằng dựa

trên ngữ liệu song ngữ cho độ chính xác khá cao, đặc biệt là trong lĩnh vực tin học. Kết

quả này là hợp lý vì ngữ liệu song ngữ dùng để khử nhập nhằng thuộc về lĩnh vực tin

học. Tuy nhiên, kết quả đối với các lĩnh vực khác cũng khá cao, nguyên nhân là do đối

với các lĩnh vực khác thì sự nhập nhằng của các bản dịch cũng không nhiều, và thường

bản dịch đầu tiên trong từ điển là bản dịch phổ biến nên cho kết quả dịch là khá chính

xác.

Kết quả chuyển ngữ và khử nhập nhằng tiếng Hoa:

Song ngữ Đơn ngữ Khử nhập nhằng

Lĩnh vực Đúng (câu) Tỉ lệ Đúng (câu) Tỉ lệ

Tin học 25 62,5%

Các lĩnh vực khác 39 65%

Bảng 4.2: Kết quả dịch và khử nhập nhằng tiếng Hoa

Riêng đối với tiếng Hoa, do vẫn chưa xây dựng được ngữ liệu song ngữ nên chỉ có thể

khử nhập nhằng dựa trên ngữ liệu đơn ngữ. Tuy nhiên, ngữ liệu đơn ngữ mà chương

trình sử dụng không thuộc một lĩnh vực chuyên nào nên kết quả khử nhập nhằng chưa

cao. Trong tương lai, chúng tôi sẽ phát triển và hoàn thiện hơn nữa độ chính xác của

qui trình khử nhập nhằng tiếng Hoa

4.3.2 Chương trình tìm kiểm trên Web:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

120

Page 121: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Đối với chương trình tìm kiếm trên web, độ hiệu quả là khá cao, chương trình có thể

trả về các tài liệu tiếng Anh và tiếng Hoa tương đương với khi người dùng tìm kiếm

trực tiếp bằng tiếng Anh và tiếng Hoa trên Google. Đây là một kết quả đáng khích lệ.

Tuy nhiên, tốc độ tìm kiếm của chương trình lại phụ thuộc khá nhiều vào tính ổn định

của đường truyền mạng. Với chất lượng của đường mạng khá tốt thì thời gian chương

trình download các tài liệu chỉ mất khoảng 10s, thời gian tối đa để lấy tài liệu là 60s.

Nếu thời gian lấy tài liệu về từ Google lớn hơn 60s thì chương trình sẽ không hiện

được kết quả. Khuyết điểm này hiện nay vẫn chưa được khắc phục.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

121

Page 122: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Chương 5: KẾT LUẬN và HƯỚNG PHÁT TRIỂN

5.1 Kết luận:

Hệ thống tìm kiếm xuyên ngữ Việt – Anh – Hoa là hệ thống tìm kiếm xuyên ngữ đầu

tiên ở Việt Nam. Mặc dù vẫn còn một số hạn chế nhưng hệ thống đã đạt được một số

thành công nhất định. Hệ thống cho thấy việc tìm kiếm xuyên ngữ bằng tiếng Việt tuy

khác các ngôn ngữ khác nhưng hoàn toàn có thể thực hiện được.

Ngoài mục đích minh họa cho hai loại hình ngôn ngữ tiêu biểu, việc lựa chọn tiếng

Anh và tiếng Hoa cho hệ thống còn mang nhiều ý nghĩa khác. Tiếng Anh là một ngôn

ngữ quốc tế phổ biến và thông dụng, đối với tiếng Hoa, là ngôn ngữ có số lượng người

nói nhiều nhất trên thế giới; thông qua hệ thống người dùng có thể tiếp cận với kho

thông tin khổng lồ trên thế giới.

Những thành công mà hệ thống đạt được là nhờ may mắn kế thừa các kết quả từ [16].

Việc sử dụng công cụ tách từ đạt độ chính xác đến 98% là một khởi đầu tốt cho hệ

thống. Mặt khác điểm chính của hệ thống là khử nhập nhằng các bản dịch, mà qui

trình này đòi hỏi phải có ngữ liệu. Nếu không có kho ngữ liệu thì chắc chắn việc khử

nhập nhằng sẽ không đạt được độ chính xác cao. Và ngữ liệu song ngữ từ [11] lại là

một đóng góp vô cùng quan trọng cho hệ thống. Trong thời gian sắp tới chúng tôi sẽ

tiếp tục phát triển và nâng cao tính hiệu quả của hệ thống.

5.2 Huớng phát triển:

5.2.1 Đối với từ điển và ngữ liệu:

MRD Việt – Anh mà chúng tôi xây dựng có cấu trúc khá đầy đủ (gồm cả

trường lĩnh vực, tham chiếu và đồng nghĩa) tuy nhiên số lượng các mục từ còn

hạn chế đặc biệt là các từ ghép và thuật ngữ chuyên ngành. Một MRD đầy đủ

hơn sẽ giúp cho giai đoạn chuyển ngữ đạt độ chính xác cao hơn. Tuy nhiên,

việc mở rộng từ điển đòi hỏi thời gian và công sức khá lớn.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

122

Page 123: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

MRD Anh – Hoa có cấu trúc khá đơn giản. Việc bổ sung thêm những trường

như lĩnh vực, đồng nghĩa là khả thi dựa vào ngữ liệu song song.

Ngữ liệu là nguồn tài nguyên vô cùng quí và hiếm. Những ngữ liệu mà chúng

tôi dùng hiện nay là ngữ liệu song ngữ Việt – Anh (về lĩnh vực tin học) và ngữ

liệu đơn ngữ tiếng Hoa (thu thập từ các bài báo tiếng Hoa). Trong tương lai,

chúng tôi sẽ cố gắng bổ sung một số ngữ liệu ở lĩnh vực khác để việc khử nhập

nhằng đạt hiệu quả cao hơn.

5.2.2 Đối với IR Engine:

Trong luận văn này chúng tôi sử dụng Google như là một IR Engine. Ngoài

Google hiện nay còn có rất nhiều công cụ mạnh khác có khả năng tìm kiếm trên

Internet. Để tăng tính hiệu quả của việc tìm kiếm, chúng ta hoàn toàn có thể gọi

thực thi các search engine khác.

Trên thực tế các hệ thống tìm kiếm có IR Engine riêng biệt để làm công việc

tìm kiếm cụ thể. Chẳng hạn, hệ thống tìm kiếm xuyên ngữ mà chúng tôi xây

dựng có thể dùng ba IR Engine khác nhau (VIR Engine, EIR Engine và CIR

Engine) để tìm kiếm thông tin cần tìm cho ba loại ngôn ngữ Việt – Anh – Hoa.

Như vậy hướng phát triển trong tương lai là xây dựng các IR Engine chuyên

biệt cho từng ngôn ngữ giúp tăng độ chính xác khi tìm kiếm thông tin. Lúc đó

hệ thống có thể được xây dựng theo mô hình sau:

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

123

Page 124: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Người dùng

Câu truy vấn bằng tiếng Việt

Trong các IR Engine chúng ta có thể dùng kỹ thuật local feedback để mở rộng

câu truy vấn, làm phong phú hơn tài liệu tìm kiếm .

5.2.3 Mở rộng ngôn ngữ tìm kiếm cho hệ thống:

Với giả thuyết là các nguồn tài nguyên từ điển và ngữ liệu của một ngôn ngữ khác

(chẳng hạn như tiếng Pháp) là khá đầy đủ thì hệ thống của chúng tôi hoàn toàn có thể

tìm kiếm tài liệu có liên quan đến câu truy vấn trong ngôn ngữ đó. Việc bổ sung các

ngôn ngữ khác cho hệ thống chỉ là vấn đề thời gian.

Bộ dịch

Bộ khử nhập nhằng

Các từ điển

Câu truy vấn tiếng Anh

Câu truy vấn tiếng Hoa

Các tài liệu có liên quan đến câu truy vấn

bằng ba ngôn ngữ Việt - Anh - Hoa

EIR Engine

Ngữ liệu

VIR Engine CIR Engine

Hình 5.1 Mô hình của hệ thống truy xuất xuyên ngữ Việt – Anh – Hoa (dùng ba IR Engine)

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

124

Page 125: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

PHỤ LỤC 1. DANH SÁCH CÁC PHỤ TỐ TIẾNG ANH: HẬU TỐ DẪN XUẤT

Stt Hậu tố Nghĩa tiếng Việt Ghi chú, Ví dụ 1. ability khả_năng ~ readability (khả_năng đọc) 2. able có_thể ~ được;

khả_~ readable (có_thể đọc được), transferrable (khả_chuyển)

3. ably có_thể ~ được; khả_~

interchangeably (có_thể hoán_đổi được), transferrably (khả_chuyển)

4. al (thuộc về) ~ national (quốc_gia) 5. ance sự ~ assistance (sự trợ_giúp) 6. ant ~ assistant (trợ_giúp) 7. ate Làm cho ~ fascinate (làm cho chặt) 8. ation sự ~ decoration (sự-trang_trí) 9. cation sự ~ application (sự-áp_dụng)

10. ed* (đã được / bị) ~ closed-door (cửa bị đóng) 11. ee người/vật được interviewee (người được phỏng_vấn) 12. en Làm bằng ~ golden (làm bằng vàng) 13. en Làm cho ~ shorten (làm cho ngắn) 14. ence sự ~ dependence (sự-phụ_thuộc) 15. ent ~ referent (tham_khảo) 16. er* người/máy ~ printer (thợ_in, máy_in) 17. ese tiếng/người ~ Japanese (tiếng_Nhật), Vietnamese 18. ful ~ đầy handful (nắm_tay đầy), cupful 19. hood thời_kỳ ~ childhood (thời_kỳ niên_thiếu) 20. ial (thuộc về) ~ sentential (thuộc về câu) 21. ian người ~, ~_viên technician (kỹ_thuật_viên) 22. ibility khả_năng ~ comprehensibility (khả_năng hiểu) 23. ible có_thể ~ được;

khả_~ visible (có_thể nhìn thấy được), visible (khả_kiến)

24. ibly có_thể ~ được; visibly (có_thể nhìn thấy được),

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

125

Page 126: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

khả_~ visible (khả_kiến) 25. ic (có tính) ~ graphic (đồ_hoạ) 26. ing* (đang) ~ running car (xe_hơi đang chạy) 27. ion sự ~ action (hành_động) 28. ise/ize ~_hóa normalise/-ize (bình_thường_hoá) 29. ism chủ_nghĩa ~ socialism (chủ_nghĩa xã_hội) 30. ist người ~, nhà_~ scientist (nhà_khoa_học) 31. ity sự ~ activity (sự-hoạt_động) 32. ive ~ active (tích_cực) 33. less không có ~; bất_~,

vô_~ careless (bất_cẩn, không cẩn_thận)

34. let ~ nhỏ booklet (cuốn-sách nhỏ) 35. like giống như ~ humanlike (giống như người) 36. ly (một cách) ~ strongly (một cách mạnh_mẽ) 37. Ment sự ~ replacement (sự-thay_thế) 38. ness sự ~ brightness (sự-chói_sáng) 39. Logy (ngành)_~_học etymology (ngành_từ_nguyên_học) 40. or người/máy_~ editor (người_hiệu_đính),

generator (máy_phát) 41. st,nd,rd,t

h thứ ~ 31st, 32nd, 33rd ,34th (thứ 31,32,32,34)

42. tion sự ~ evolution (sự-tiến_triển) 43. Tive ~ talkative (hay nói) 44. Y có ~ cloudy, rocky (có mây, có đá)

Lưu ý: • Dấu ~ để đại diện cho thân từ. • Các hậu tố đánh dấu * là những hậu tố bị trùng với hậu tố của biến cách.

TIỀN TỐ DẪN XUẤT Stt Tiền tố Nghĩa tiếng Việt Ghi chú, Ví dụ

1. Anti chống ~, kháng_~ antivirus (chống virút), antibody (kháng_thể)

2. Auto ~ tự_động autocar (xe_hơi tự_động)

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

126

Page 127: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

3. Bi Hai ~, lưỡng_~ bicenter (lưỡng_tâm) 4. Centi Xen-ti_~ centimeter (xen_ti_mét) 5. Co đồng_~ co-author (đồng_tác_giả) 6. Counter trái ngược với ~ counterclockwise (ngược chiều kim

đồng_hồ) 7. De khử_~, giải_~ decode (giải_mã) 8. Dis khử_ discharge (khử_tích_điện) 9. Former cựu_~ former-president (cựu_tổng_thống) 10. Giga gi_ga_~ gigabyte (gi_ga_byte) 11. Hexa sáu ~, lục_~ hexagon (lục_giác) 12. Hyper siêu_~ hypertext (siêu_văn bản) 13. in, il, im,

ir (*)không ~, bất_~, vô_~

illiterate (không biết chữ), impatient (không kiên_nhẫn), irregular (bất_quy_tắc)

14. Inter ~ lẫn nhau, liên_~ interconnection (kết_nối lẫn nhau) 15. Kilo kí_lô_~ kilogram (kí_lô_gam) 16. Macro ~ vĩ mô macro-economy (kinh_tế vĩ_mô) 17. Mega mê_ga_~ megawatt (mê_ga_oát) 18. Meta siêu ~ metavariable (siêu_biến) 19. Micro vi_~ micro-instruction (vi_lệnh) 20. Mid giữa ~, trung ~ midterm (giữa kỳ, trung_hạn) 21. Milli mi_li ~ millimeter (mi_li_mét) 22. Mis ~ sai, ~ lầm mismatch (không trùng nhau) 23. Mono đơn_~ monotone (đơn_điệu) 24. Multi đa_~ multi-media (đa_phương_tiện) 25. Nano na_nô ~ nanofarad (na_nô_fara) 26. Non không ~, phi ~ non-profit (không lợi_nhuận) 27. Oct tám ~, bát_~ octal (bát_phân) 28. Over quá_~ overload (quá_tải) 29. Pent năm ~, ngũ_~ pentagon (ngũ_giác) 30. Photo quang_~ photo-electronic (quang_điện_tử) 31. Pico pi_cô_~ picofarad (pi_cô_farad) 32. Post hậu_~, sau ~ post-graduate (sau đại_học) 33. Pre tiền_~ pre-process (tiền_xử_lý) 34. Pseudo ~_giả pseudo-code (mã_giả)

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

127

Page 128: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

35. Quad bốn ~, tứ ~ quadruple (bộ bốn) 36. Re ~ lại, tái_~ re-calculate (tính_toán lại) 37. Self tự_~ self-educate (tự_học) 38. Semi bán_~ semi-conductor (bán_dẫn) 39. Stereo ~ nổi stereo-image (hình_ảnh_nổi) 40. Sub ~_con, ~ phụ subprogram (chương_trình_con) 41. Super siêu_~ super-conductor (siêu_dẫn) 42. Tele ~ từ xa, viễn ~ tele-meter (đo_lường từ xa) 43. Tera tê_ra_~ terabyte (tê_ra_byte) 44. Tri ba ~, tam_~ triangle (tam_giác), tripod (ba cực) 45. Ultra cực_~ ultraviolet (cực_tím) 46. Un không ~ unhappy (không hạnh_phúc) 47. Under dưới ~,hạ ~, ~thấp under-estimate (đánh_giá thấp) 48. Vice phó ~ vice-director (phó_giám_đốc)

(*): “in-” biến thể thành “il-” khi đứng trước “l”; thành “im-” khi đứng trước “b”, “m” hay “p” và thành “ir-” khi đứng trước “r”. Lưu ý: dấu gạch dưới (“_”) để nối các hình vị trong cùng một từ của tiếng Việt. 2. DANH SÁCH CÁC PHÓ TỪ TIẾNG VIỆT: DANH TỪ CHỈ LOẠI (KHÔNG PHẢI ĐỘNG VẬT )Stt Loại từ Ví dụ Ghi chú 1. Ang Văn 2. Bài thơ, diễn văn, 3. bản tuyên ngôn, tài liệu, tiểu thuyết 4. bộ từ điển, máy, 5. bông hoa, 6. bức tranh, thư, tượng, vách, ảnh 7. cái Bàn, ghế, đầu, thuyền;

khuyết điểm, tâm trạng chiếm đa số cho các danh từ cụ thể cũng như trừu tượng

8. cây nến, đèn, roi, bút, súng, đàn, tăm vật có hình trụ, dài 9. căn phòng, nhà 10. chiếc Bàn, ghế, thuyền, chỉ sự lẻ loi 11. con Dao, thuyền, sông, con đa số được dùng chỉ động

vật

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

128

Page 129: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

12. cơn gió, 13. cuốn Sách, tập, vở, tiểu thuyết sự vật đóng thành quyển 14. đoá Hoa 15. hòn đạn, bi, núi có dạng tròn 16. khẩu súng, đại bác 17. lá Bùa, thư, phiếu, đơn có dạng dẹp giống lá cây 18. làn Gió 19. màn kịch, 20. món Quà, nợ, 21. nền Văn hoá, độc lập, khoa học, chỉ danh từ trừu tượng 22. nóc Nhà 23. ngọn cờ, núi, 24. ngôi Nhà, đền, mộ, (sao) chỉ công trình xây dựng 25. pho tượng, truyện, sách 26. quả Bom, núi, có hình tròn (giống trái cây) 27. quyển Sách, vở 28. tấm ảnh, tranh, bảng, bìa 29. tấn tuồng, kịch 30. toà Nhà, lâu đài chỉ công trình xây dựng 31. thanh gươm, kiếm 32. thửa ruộng, đất 33. vì sao, vua 34. vở kịch, tuồng DANH TỪ CHỈ LOẠI (NGƯỜI/CON VẬT)Stt Loại từ Ví dụ Ghi chú 1. anh Sinh viên, cán bộ 2. bà chủ nhiệm, vợ 3. bác thợ, phu xe 4. chị Giáo viên, nhà báo 5. bậc vĩ nhân, anh hùng trọng 6. cái Tí, Tỉu 7. cậu học trò, con trai 8. con Gián điệp, mẹ mìn Khinh

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

129

Page 130: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

9. con Trâu, bò, gà chỉ dùng cho con vật 10. cô dược sĩ, y tá 11. chàng thi sĩ, văn nhân văn chương 12. chú Liên lạc, tài xế 13. đấng Anh hùng, thánh thần trọng 14. em học sinh, nhi đồng 15. lão quản gia, tri huyện khinh 16. mụ Đàn bà, vợ khinh 17. nàng công chúa, tiên văn chương 18. người Giáo viên, thợ nề 19. tay thầu khoán, nhà buôn khinh 20. tên sĩ quan địch, nguỵ binh khinh 21. thằng quỷ sứ, mật thám khinh 22. vị phụ lão, chủ tịch trọng 23. viên sĩ quan, đại uý 24. DANH TỪ CHỈ ĐƠN VỊ QUY ƯỚC Stt Từ Tiếng Anh Ví dụ Ghi chú

1. cân pound thịt

2. chai bottle rượu

3. chuyến time tàu, hàng đây là đơn vị lâm thời

4. cục clot Đá

5. dãy Row, line Nhà dùng với danh từ tập hợp

6. đàn herd Gà dùng với danh từ tập hợp

7. đoàn herd, người dùng với danh từ tập hợp

8. đoạn section, Văn

9. giấc sleep,slunker ngủ đây là đơn vị lâm thời

10. giọt drop nước

11. gói pack thuốc lá

12. hạt grain, drop cát, gạo

13. hàng Row, line Cây dùng với danh từ tập hợp

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

130

Page 131: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

14. hột grain gạo

15. hòn Ball, piece Đá

16. lít litter rượu

17. lon jar, pot, can gạo

18. miếng piece thịt

19. sợi string, thread dây, chỉ

20. tấn Ton sắt, vàng

21. thìa spoon Canh

22. thước metter vải

23. thúng basket gạo

24. thùng barrel, cask rượu

25. tờ sheet giấy

26. trận battle Mưa đây là đơn vị lâm thời

27. xâu thread, string Cá

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

131

Page 132: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

TÀI LIỆU THAM KHẢO

[1] Lisa Ballesteros, W.Bruce Croft . “Statistical Methods for Cross-Language

Information Retrieval ”. Computer Science Department – University of Massachusetts.

[2] Christian Fluhr, Dominique Schmit, Philippe Ortet, Faza Elkateb, Karine Gurtner,

Khaled Radwan. “Distributed Cross-Lingual Informtion retrieval”. DIST/SMTI CEA-

Saclay France.

[3 ] Mark. W .Davis and Ted. E. Dunning, March 1995. Query translation using an

evolutionary programming for multi-lingual information retrieval. In proceeding the

Fourth Annual Conference on Evolutionary Programming.

[4] Michael L. Littman, Susan T. Dumais, Thomas K. Landauer, “Automatic Cross-

Language Information Retrieval using Latent Semantic Indexing”, Computer Science

Department, Brown University.

[5] Lisa Ballesteros, W. Bruce Croft, Resolving Ambiguity for Cross-language

Retrieval, 1997.

[6] Lisa Ballesteros, W. Bruce Croft, Phrase Translation and Query Expansion

Techniques for Cross-Language Information Retrieval, 1997

[7 ] Yamabana Kiyoshi, Muraki Kazunori, Doi Shinichi, Kamei Shin-ichiro . “A

language conversion front-end for Cross-language Information Retrieval ”.

[8] Atsushi Fuiji and Tetsuya Ishikawa. 9.2002. “Japanise/English Cross-Language

Information Retrieval: Exploration of Query Translation and Translisteration”.

[9] J.S.Chang, Y.C.Lin, Y.K.Su (1995). “Automatic Construction of a Chinese

Electronic Dictionary”. Proceedings of Workshop of ACL-1995, pp.107-120.

[10] Hoàng Phê (1998), Từ điển tiếng Việt, Trung tâm từ điển học, NXB Đà Nẵng.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

132

Page 133: Chương 1: MỞ ĐẦU - dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/luan-van-de-tai/luan-van-de-tai-cd-dh/... · 3.1.1 Phát biểu bài toán: ... ví dụ cụ thể

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

[11] Đinh Điền (2004), “Một số vấn đề trong việc xây dựng từ điển tiếng Việt điện

tử”, Tập san Khoa học Xã hội và Nhân văn – ĐH Khoa học Xã hội & Nhân văn TP

HCM, 2004 (27), trang 37 – 46.

[12] George Miller (2000): Introduction to WordNet,

http://www.cogsci.princeto.edu/~vn/.Prenceton

[13] Dien Dinh, Kiem Hoang, Toan Nguyen Van (2001), “Vietnamese Word

Segmentation”, Proceedings of NLPPRS’01 (The 6th Natural Language Processing

Pacific Rim Symposium), Tokyo, Japan, 11/2001, pg 749-756.

[14] Tsai, C. H. (1996), MMSEG: A word identification system for Mandarin

Chinese text based on two variations of the maximum matching algorithm,

Unpublished manuscript, University of Illinois at Urbana-Champaign.

[15] Mark W. Davis và William C.Ogden , 1997. “Implementing Cross-Language

Text Retrieval Systems for Large-scale Text Collections and the World Wide Web”.

Computing Research Laboratory – New Mexico State Univeristy

[16] Đinh Điền (2005). “Xây dựng và khai thác kho ngữ liệu song ngữ Anh – Việt”.

Luận án tiến sĩ ngôn ngữ học, Trường đại học Khoa học Xã hội và Nhân văn.

[17] Lê Thuý Ngọc, Đỗ Mỹ Nhung, Tìm hiểu về Search Engine và xây dựng ứng

dụng minh hoạ cho Search Engine tiếng Việt, Luận văn cử nhân tin học, GVHD:

Nguyễn Thị Diễm Tiên.

GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229

133