tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm...

26
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- Lê Mạnh Hùng Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm Chuyên Ngàng: Truyền Dữ Liệu Và Mạng Máy Tính Mã số: 10B60.48.15-0079 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2012

Upload: trinhnhan

Post on 22-Feb-2018

222 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

---------------------------------------

Lê Mạnh Hùng

Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm

Chuyên Ngàng: Truyền Dữ Liệu Và Mạng Máy Tính

Mã số: 10B60.48.15-0079

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI – 2012

Page 2: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

Luậnvănđượchoànthànhtại:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Ngườihướngdẫnkhoahọc: TS Nguyễn Hữu Quỳnh

Phảnbiện 1: ………………………………………………………………

Phảnbiện 2: ………………………………………………………………

LuậnvănsẽđượcbảovệtrướcHộiđồngchấmluậnvănthạcsĩtạiHọcviệnCôngnghệBưu

chínhViễnthông

Vàolúc: .......giờ ....... ngày ....... tháng ....... .. năm ...............

Cóthểtìmhiểuluậnvăntại:

- ThưviệncủaHọcviệnCôngnghệBưuchínhViễnthông

Page 3: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

1

MỞ ĐẦU

Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên

mọi lĩnh vực. Hằng ngày có hàng triệu văn bản, trang web được đưa lên hệ thống

máy chủ, làm phong phú hệ thống tài nguyên khổng lồ này. Tuy nhiên, chúng ta

không thể sử dụng thông tin trong hệ thống thông tin khổng lồ này nếu không tổ chức

và khai thác nguồn tài nguyên này hiệu quả.

Kỹ thuật tra cứu thông tin đã và đang được nghiên cứu, phát triển trong nhiều

lĩnh vực khác nhau như y tế, giáo dục, kinh tế...Những kiến thức liên quan đến tra

cứu thông tin là rất rộng và tổng hợp, bao gồm thuật toán, cấu trúc dữ liệu, cơ sở dữ

liệu, các hệ thống phân tán, tính toán song song, tổ chức tệp (file), khai phá dữ liệu

(data mining). Do đó, việc nghiên cứu về tra cứu thông tin sẽ rất hữu ích.

Các nghiên cứu đối với tiếng Anh đã có một số công trình công bố và một số

hệ thống được đưa vào ứng dụng []. Tuy nhiên đối với tiếng Việt, hiên nay chỉ có một

số các công trình được công bố [9,10,19] mà chưa có ứng dụng cụ thể đối với tra cứu

tiếng Việt. Vấn đề này chính là động lực để luận văn chọn đề tài “Tra cứu văn bản

tiếng Việt dựa trên kỹ thuật phân cụm”. Các đóng góp của luận văn

- Nghiên cứu, cải tiến một số phương pháp tra cứu đối với văn bản tiếng

Anh áp dụng cho tiếng Việt.

- Sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên nhằm nâng cao hiệu năng của

hệ thống tra cứu văn bản tiếng Việt.

- Trên cơ sở phương pháp đã được nghiên cứu, luận văn tiến hành xây

dựng hệ thống tra cứu thông tin và ứng dụng trong tra cứu thông tin tiếng Việt.

Cấu trúc luận văn gồm có ba chương:

Chương 1: Giới thiệu tổng quan về tra cứu văn bản.

Chương 2: Trình bày kỹ thuật tra cứu thông tin sử dụng kỹ thuật phân cụm.

Chương 3: Trình bày hệ thống tra cứu thông tin và ứng dụng vào tra cứu thông

tin tiếng Việt.

Page 4: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

2

Chương 1. TỔNG QUAN VỀ TRA CỨU VĂN BẢN

1.1 Tra cứu thông tin

1.1.1 Giới thiệu

Tra cứu thông tin là một nhánh của khoa học máy tính nhằm mục tiêu lưu trữ và cho

phép truy cập nhanh một lượng thông tin lớn. Thông tin này có thể là văn bản, đa phương

tiện hoặc âm thanh [14, 16]. Lược đồ một hệ thống tra cứu thông tin được thể hiện như Hình

1. 1.

Hinh 1.1 Tổng quan hệ thống tra cứu thông tin.

1.1.2 Các mô hình tra cứu thông tin Mô hình Boole vẫn là một mô hình được sử dụng phổ biến nhất trong các hệ thống

tra cứu thông tin thương mại. Mô hình này dựa trên lý thuyết tập hợp. Các tài liệu được biểu

diễn bởi các tập các thuật ngữ và chiến lược tìm kiếm Boole tra cứu các tài liệu khối với

truy vấn (có giá trị true).

Mô hình không gian véc tơ dựa trên giải thích không gian của cả các truy vấn và các

tài liệu. Một cải tiến của biểu diễn tài liệu trên mô hình Boole thu được bởi việc kết hợp mỗi

thuật ngữ chỉ số với một giá trị số, gọi là trọng số thuật ngữ chỉ số, biểu thị độ quan trọng

mà thuật ngữ tổng hợp nội dung thông tin của tài liệu.

Page 5: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

3

Mô hình xác suất [21] phân hạng các tài liệu theo thứ tự giảm dần của xác suất liên

quan của các tài liệu với nhu cầu thông tin của người sử dụng. 1.1.3 Một số phương pháp

tra cứu thông tin văn bản

1.1.3.1 Quét toàn bộ văn bản Cách đơn giản nhất để định vị các tài liệu chứa xâu (thuật ngữ) tìm kiếm nào đó là

tìm kiếm tất cả các tài liệu với xâu được chỉ ra (kiểm tra xâu con). “Xâu” là một chuỗi các

ký tự. Nếu truy vấn là một biểu diễn Boole phức hợp bao gồm nhiều xâu tìm kiếm, chúng ta

cần thêm một bước để xác định các đối sánh thuật ngữ có được tìm thấy bởi các kiểmtra

chuỗi con thỏa mãn biểu diễn Boole hay không.

1.1.3.2 Các tệp dấu hiệu

Cách tiếp cận tệp dấu hiệu đã thu hút nhiều sự quan tâm. Trong phương pháp này,

mỗi tài liệu sinh ra một xâu bít (‘dấu hiệu’), sử dụng bảng băm trên các từ. Các dấu hiệu tài

liệu sinh ra được lưu trữ tuần tự trong một tệp rời rạc - tệp dấu hiệu (nhỏ hơn tệp gốc rất

nhiều) và có thể được tìm kiếm nhanh hơn nhiều.

1.1.3.3 Phép đảo Mỗi tài liệu có thể được biểu diễn bởi một danh sách các từ (các từ khóa), mô tả các

nội dung tài liệu cho mục tiêu tra cứu. Tra cứu nhanh có thể thu được nếu chúng ta đảo các

từ khóa đó. Các từ khóa được lưu trữ, theo thứ tự alphabet, trong tệp chỉ số; với mỗi từ khóa

chúng ta duy trì một danh sách các con trỏ đến các tài liệu đủ điều kiện. Phương pháp này

có trong hầu hết tất cả các hệ thống thương mại [21].

1.2 Các hệ thống tra cứu thông tin dựa vào phân cụm

1.2.1 Các hệ thống tra cứu thông tin dựa vào phân cụm

Tìm kiếm dựa vào phân cụm cần thỏa mãn một truy vấn hiệu quả bởi nhận biết và chỉ

tra cứu các cụm đó. Phân cụm cải tiến độ chính xác của tra cứu như sinh ra kết quả tra cứu

có số tài liệu liên quan cao [14,16].

1.2.2 Các phương pháp phân cụm

Phương pháp phân cụm phân cấp

Một thuật toán phân cấp có thể bắt đầu bởi xem xét tất cả các tài liệu như một cụm và

sau đó tách nó thành các cụm nhỏ hơn (phân cụm chia nhỏ). Thuật toán có thể bắt đầu với

các tài liệu riêng lẻ và nhóm chúng lại với nhau thành các cụm lớn hơn (phân cụm gộp).

Page 6: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

4

Phân cụm Heuristic

Thuật ngữ “Heuristic” được sử dụng bởi các tác giả như Rijsbergen [22] đối với các

phương pháp mô tả nhận các phím tắt để thu được hiệu quả lớn hơn về mặt đòi hỏi không

gian và thời gian.

Phân cụm gia tăng

Các phương pháp gia tăng sử dụng một độ đo tương tự nhưng các phương pháp

không đòi hỏi các độ tương tự tính toán trước cho tất cả các cặp tài liệu. Tất cả các cặp tài

liệu chưa sẵn có khi khởi tạo, bởi theo xác định, các phương pháp phân cụm một dòng các

tài liệu đến. Các độ tương tự được tính toán bằng các tài liệu trong hệ thống phân cụm gia

tăng [22].

1.3 Đánh giá tra cứu thông tin

1.3.1 Đánh giá hệ thống tra cứu thông tin Để đo độ chính xác tra cứu thông tin theo cách chuẩn, chúng ta cần một tập kiểm tra

gồm ba thứ:

1. Một tập tài liệu

2. Một bộ kiểm tra nhu cầu thông tin, có thể biểu diễn như các truy vấn.

3. Một tập các đánh giá liên quan, một đánh giá nhị phân hoặc liên quan hoặc không

liên quan cho mỗi cặp tài liệu truy vấn.

Một tài liệu là liên quan nếu nó nói đến nhu cầu thông tin đã được nêu, không phải vì

nó vừa xảy ra để chứa tất cả các từ trong truy vấn. Điều khác biệt này thường bị hiểu lầm

trong thực hành, bởi vì nhu cầu thông tin không được công khai.

1.3.2 Các tập kiểm tra chuẩn

Đây là một danh sách các tập kiểm tra và các chuỗi đánh giá chuẩn. Chúng tôi tập

trung vào các tập kiểm tra cho đánh giá hệ thống tra cứu thông tin đặc biệt, những cũng đề

cập đến một cặp tập kiểm tra tương tự cho phân lớp văn bản.

1.3.3 Đánh giá các tập tra cứu không được phân hạng

Những thành phần này được cho trước, độ chính xác hệ thống đo như thế nào? Hai

độ đo cơ sở và thường được sử dụng nhất cho độ chính xác tra cứu là triệu hồi và chính xác.

Đây là lần đầu tiên được xác định cho trường hợp đơn giản nơi một hệ thống tra cứu trả về

một tập các tài liệu cho một truy vấn.

Page 7: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

5

Độ chính xác của P - Precision (P) là phần của các tài liệu được tra cứu có liên quan

cuu tra duoc muc cac sotongcuu tra duoc quan lien muc cac soPrecision (1-4)

Triệu hồi của R - Recall(R) là phần của các tài liệu liên quan được tra cứu

cuu tra muc cac sotongcuu tra duoc quan lien muc cac soecallR (1-5)

Một độ đo mà khác dựa trên độ chính xác và triệu hồi là F measure, đó là trung bình

điều hòa có trọng số của chính xác và triệu hồi:

1)1(

1)1(11

2

22 do trong

RPPR

Rp

F (1-8)

Hình 1.2 Biểu đồ so sánh trung bình điều hòa của các trung bình khác nhau

1.4 Đặc điểm của văn bản tiếng Việt

Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rời

nhau và được thể hiện bằng một chữ viết. Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ

âm, từ vựng, ngữ pháp.

1.4.1 Đặc điểm ngữ âm

Trong tiếng Việt có một loại đơn vị đặc biệt gọi là "tiếng". Về mặt ngữ âm, mỗi tiếng là

một âm tiết.

Page 8: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

6

1.4.2 Đặc điểm từ vựng

Mỗi tiếng, nói chung, là một yếu tố có nghĩa. Tiếng là đơn vị cơ sở của hệ thống các đơn

vị có nghĩa của tiếng Việt. Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để định danh sự

vật, hiện tượng..., chủ yếu nhờ phương thức ghép và phương thức láy.

1.4.3 Đặc điểm ngữ pháp

Từ của tiếng Việt không biến đổi hình thái. Đặc điểm này sẽ chi phối các đặc điểm ngữ

pháp khác. Khi từ kết hợp từ thành các kết cấu như ngữ, câu, tiếng Việt rất coi trọng phương

thức trật tự từ và hư từ.

1.5 Kết luận chương 1

Trong chương này, luận văn đã trình bày về tổng quan về khai phá dữ liệu văn bản,

các phương pháp khai phá văn bản và các phương pháp, các kỹ thuật và quy trình tra cứu

văn bản tiếng việt. Ngoài ra ở chương 1 luận văn cũng trình bày về các đặc điểm của văn

bản tiếng việt. Từ những kiến thức tổng quan này chương hai luận văn sẽ lựa trình bày chi

tiết về trích rút văn bản tiếng việt với một phương pháp cụ thể.

Chương 2. TRA CỨU VĂN BẢN TIẾNG VIỆT DỰA TRÊN KỸ

THUẬT PHÂN CỤM. Trong chương này, luận văn giới thiệu các phương pháp biểu diễn văn bản, đồng thời

trình bày chi tiết một phương pháp biểu diễn văn bản tiếng Việt có sử dụng giảm chiều

vector. Dựa trên phương pháp biểu diễn này, luận văn sử dụng phương pháp phân cụm tiếng

Việt dựa trên thuật toán cây phân cấp và hệ thống tra cứu văn bản tiếng Việt dựa trên tập dữ

liệu văn bản tiếng Việt đã được phân cụm.

2.1 Phương pháp biểu diễn văn bản

2.1.1 Khái niệm Biểu diễn văn bản là phương pháp mô tả nội dung hoặc đặc trưng của văn bản [1].

Khi biểu diễn văn bản dưới dạng véc tơ, người ta thường sử dụng thành phần véc tơ biểu

diễn tương ứng với các đặc trưng là các từ (thuật ngữ). Với giá trị của mỗi đặc trưng này gọi

là trọng số của từ (thuật ngữ), mô tả tần suất của từ (thuật ngữ) xuất hiện trong văn bản [1].

Page 9: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

7

2.1.1.1 Một số phương pháp biểu diễn văn bản

Mô hình không gian vector

Cách biểu diễn văn bản thông dụng nhất là thông qua vector biểu diễn theo mô hình

không gian vector (Vector Space Model). Đây là một cách biểu diễn tương đối đơn giản và

hiệu quả. Trong các cơ sở dữ liệu văn bản, mô hình vector là mô hình biểu diễn văn bản

được sử dụng phổ biến nhất hiện nay. Mối quan hệ giữa các trang văn bản được thực hiện

thông qua việc tính toán trên các vector biểu diễn vì vậy được thi hành khá hiệu quả.

Hình 2.1 Mô hình không gian vector.

Mô hình Boolean

Một mô hình biểu diễn vector với hàm f cho ra giá trị rời rạc với duy nhất hai giá trị

đúng và sai (true và false, hoặc 0 và 1) gọi là mô hình Boolean. Hàm f tương ứng với từ

khóa ti sẽ cho ra giá trị đúng nếu và chỉ nếu từ khóa ti xuất hiện trong văn bản đó.

Mô hình phân tích cú pháp

Trong mô hình này, mỗi văn bản đều phải được phân tích cú pháp và trả lại thông tin

chi tiết về chủ đề của văn bản đó. Sau đó, người ta tiến hành đánh chỉ số các chủ đề của

từng văn bản. Cách đánh chỉ số trên chủ đề cũng giống như khi đánh chỉ số trên văn bản

nhưng chỉ đánh chỉ số trên các từ xuất hiện trong chủ đề.

Mô hình tần suất

Trong mô hình tần suất, ma trận W = {wij} được xác định dựa trên tần số xuất hiện

của từ khóa ti trong văn bản dj hoặc tần số xuất hiện của từ khóa ti trong toàn bộ cơ sở dữ

liệu. Sau đây là một số phương pháp phổ biến:

- Phương pháp dựa trên tần số từ khóa (TF – Term Frequency)

Page 10: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

8

- Phương pháp dựa trên nghịch đảo tần số văn bản (IDF – Inverse Document

Frequency)

2.1.1.2 Phương pháp tính trọng số của từ

Trong các cách tiếp cận tính toán trọng số của từ để biểu diễn văn bản hiện nay.

Phương pháp tính trọng số dựa trên tần suất xuất hiện của từ (thuật ngữ) được sử dụng phổ

biến hiện nay.

2.1.2 Kỹ thuật giảm chiều vector biểu diễn trong văn bản tiếng Việt

2.1.2.1 Kỹ thuật giảm chiều véc tơ Xem xét một số ứng dụng ví dụ như trong một hệ thống xử lý dữ liệu (tín hiệu tiếng

nói, ảnh hoặc nhận dạng mẫu nói chung) tập các đặc trưng nếu coi là tập hợp các vec tơ giá

trị thực. Giả thiết rằng, hệ thống chỉ hiệu quả nếu số chiều của mỗi véc tơ riêng lẻ không

quá lớn. Vấn đề của giảm chiều xuất hiện khi dữ liệu có số chiều lớn hơn khả năng xử lý

của hệ thống [17

Hình 2.5 .Mô hình giảm chiều véc tơ.

2.1.2.2 Kỹ thuật giảm chiều véc tơ trong biểu diễn văn bản tiếng Việt

Khái niệm giảm chiều lần đầu được công bố bởi Bellman (1961). Bellman cho rằng

sẽ rất khó khăn khi tính toán số các đặc trưng khi số lượng từ quá nhiều.

Page 11: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

9

Hình 2.7. Một mô hình rút gọn đặc trưng văn bản

2.2 Kỹ thuật phân cụm văn bản tiếng Việt dựa trên thuật toán phân cấp

2.2.1 Phân cụm văn bản

2.2.1.1 Khái niệm phân cụm văn bản Định nghĩa: Thuật toán phân cụm nhóm tập các văn bản vào các tập con hoặc các

cụm. Mục đích của thuật toán là tạo ra các nhóm có sự liên kết bên trong, nhưng khác biệt

rõ ràng với các nhóm khác. Một cách khác các văn bản trong một cụm có thể có độ tương tự

nhau và các văn bản trong một cụm có sự khác biệt với các văn bản khác ở các cụm khác.

[16]

Hình 2.8. Một ví dụ về tập dữ liệu với cấu trúc phân cụm.

Page 12: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

10

2.2.1.2 Độ tương tự giữa hai văn bản

Có một số độ đo được sử dụng như: độ tương tự cosine (cosine similarity), hệ số

Jaccard (Jaccard coeficient), khoảng cách Euclidean (Euclidean distance), hệ số Pearson

Correlation (Pearson Correlation coeficient) [18],...

Độ đo Cosine

Độ đo cosine được sử dụng nhiều trong phân cụm văn bản để tính toán tương tự khác

nhau giữa các văn bản.

n

ii

n

ii

n

iii

BA

BA

BABAsimilarity

1

2

1

2

1

)()(

.)cos(

(2-8)

Hệ số Jaccard

Hệ số Jaccard đôi khi còn được gọi là hệ số Tanimoto. Đối với văn bản, hệ số Jaccard so

sánh tổng trọng số của các thuật ngữ chung với tổng trọng của số của các thuật ngữ được

biểu diễn trong cả hai văn bản nhưng không chứa các thuật ngữ chung [18].

i i iii ii

i ii

BABA

BABACoffJacard

*),(_ 22

Độ đo Euclide

Trong độ đo Euclide thường sử dụng tập dữ liệu để tính toán độ tương tự.

i

ii BABAceDisEuclidean 2)(),(tan_

Trong luận văn này, sử dụng độ đo Euclide để tính toán độ tương tự giữa các cặp văn bản

trong tập hợp dữ liệu.

2.2.2 Kỹ thuật phân cấp

2.2.2.1 Kỹ thuật phân cấp Thuật toán phân cụm phân cấp có hai kiểu là từ trên xuống (top-down) và từ dưới lên

(bottom-up). Bottom-up tại thời điểm ban đầu coi mỗi văn bản như một cụm đơn lẻ và hợp

(2-9)

(2-10)

Page 13: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

11

liên tục các cặp của các cụm tới khi tất cả các cụm được hợp thành một cụm duy nhất chứa

tất cả các văn bản. Phân cụm top-down đề cập một phương pháp phân chia một cụm.

Một thuật toán HAC đơn giản được đưa ra trong hình 2.10.

HAC(d1,..., dN)

1 for n ← 1 to N

2 do for i ← 1 to N

3 do C(n)(i) ← SIM(dn,di)

4 I[n] ← ( keeps track of active clusters)

5 A ← [] ( asembles clustering as a sequence of merges)

6 for k ← 1 do N -1

7 do (i,m) ← arg max{ (i,m) : i ≠m I[i] = 1 I[m] =1}C[i][m]

8 A.APPEND((i,m)) (store merger)

9 for j ← 1 to N

10 do C[i][j] ← SIM(i,m,j)

11 C[j][i] ← SIM(i,m,j)

12 I[m] ← 0 (deactivate cluster)

13 Return A

Hình 2.10. Thuật toán HAC

Thuật toán trên được mô tả bởi ví dụ sau:

Ví dụ 2.3: Xét tập D gồm 6 văn bản d1, d2, d3, d4, d5, d6.

Bước 1: Khởi tạo. Mỗi cụm văn bản ci được gán tương ứng là một văn bản di (xem Hình

2.11).

Hình 2.11. Khởi tạo các cụm.

Bước N: Bước cuối ta sẽ nhận được kết quả cây phân cấp tương ứng được chỉ ra trong

Hình 2.14.

Page 14: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

12

Hình 2.14. Cây phân cấp thu được sau quá trình phân cụm.

2.2.2.2 Phân cụm văn bản tiếng Việt dựa trên thuật toán phân cấp Dựa trên thuật toán phân cấp đã được trình bày ở mục 2.2.2.1, luận văn trình bày

phương pháp phân cụm văn bản tiếng Việt ứng dụng thuật toán phân cấp thành các bước

như sơ đồ sau:

Hình 2.15 Hệ thống phân cụm văn bản.

Page 15: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

13

2.3 Tra cứu văn bản tiếng Việt dựa trên kỹ thuật phân cụm phân cấp

Một hệ thống tra cứu văn bản thông thường cần liên quan tới các yếu tố sau

- Câu truy vấn

- Kho dữ liệu văn bản

- Quy trình xử lý và phản hồi kết quả

Hình 2.16 dưới đây mô tả qui trình hoạt động của một hệ thống tra cứu văn bản dựa

trên kỹ thuật phân cụm.

Hình 2.16 Hệ thống tra cứu ứng dụng phân cụm văn bản.

Thuật toán trong hình 2.17 dưới đây tính toán trọng số của một danh từ thuộc tập văn

bản D.

Hình 2.17. Thuật toán tính trọng số của từ phụ thuộc tập văn bản.

Page 16: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

14

Hình 2.18 dưới đây mô tả thuật toán biểu diễn văn bản. Mỗi văn bản được biểu diễn

bởi tập các danh từ và trọng số của nó.

Hình 2.18. Thuật toán biểu diễn văn bản

Hình 2.19 dưới đây mô tả thuật toán tính độ tương tự giữa từng cặp văn bản trong cả

tập văn bản đầu vào D.

Hình 2.19 Thuật toán tính độ tương đồng giữa các văn bản trong tập D.

Sau khi mỗi văn bản được gom thành các cụm, luận văn sử dụng phương pháp

tính trọng tâm để tính biểu diễn đại diện cho các cụm. Đối với mỗi cụm, việc tìm đại diện

biểu diễn được mô tả như sau:

Page 17: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

15

Hình 2.20. Thuật toán tìm đại diện biểu diễn từng cụm.

Trong hình 2.20 là thuật toán mô tả việc tìm đại diện biểu diễn cho mỗi cụm dựa

trên phương pháp tính tâm cụm.

Hình 2.21 dưới đây mô tả thuật toán biểu diễn câu truy vấn.

Hình 2.21. Thuật toán biểu diễn câu truy vấn.

Page 18: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

16

Trong thuật toán trên có các tham số: V là tập từ điển danh từ, N là tập danh từ được

tách từ câu truy vấn s, d là tổng số các danh từ trong tập N, các O[i] biểu diễn số lần xuất

hiện của mỗi N[i] trong câu s, W[i] là trọng số của mỗi danh từ trong câu truy vấn S.

Khi ta đã biểu diễn được câu truy vấn và biểu diễn được đại diện cho mỗi cụm, việc

thực hiện đối sánh giữa câu truy vấn với cơ sở dữ liệu để tìm ra độ tương đồng nhất giữa câu

truy vấn và cụm văn bản.

2.4 Kết luận chương 2

Trong chương này, luận văn đã trình bày được phương pháp tra cứu văn bản tiếng

Việt dựa trên phân cụm phân cấp, đồng thời cũng mô tả chi tiết các thuật toán dùng trong

phân cụm và phương pháp thể hiện biểu diễn câu truy vấn và cách tính độ tương đồng để

truy xuất dữ liệu. Từ phương pháp đã được thể hiện chi tiết ở chương 2, luận văn sẽ thực

hiện quá trình cài đặt được mô tả ở chương tiếp theo

Chương 3. XÂY DỰNG ỨNG DỤNG TRA CỨU VĂN BẢN

TIẾNG VIỆT DỰA TRÊN KỸ THUẬT PHÂN CỤM

Trong chương này, luận văn trình bày phương pháp lựa chọn dữ liệu, lưu trữ và xây

dựng hệ thống ứng dụng tra cứu văn bản tiếng Việt dựa trên kỹ thuật phân cụm, đồng thời

luận văn cũng có các thử nghiệm, đánh giá phương pháp được cài đặt với tập dữ liệu văn

bản tiếng Việt

3.1 Kiến trúc tổng quát của hệ thống

Hệ thống tra cứu văn bản tiếng Việt dựa trên kỹ thuật phân cụm được chia thành hai pha

chính: Pha phân cụm và pha tra cứu.

- Pha phân cụm: Pha thực hiện phân cụm văn bản thành các cụm riêng biệt. Đồng

thời từ đó có thể dựa trên đại diện biểu diễn của từng cụm để gán chủ đề cho cụm đó.

- Pha tra cứu: Pha thực hiện tra cứu trực tuyến trên nền web. Có lựa chọn sử dụng

câu truy vấn hoặc sử dụng văn bản truy vấn để tra cứu các văn bản tương tự.

Chức năng chính của hệ thống được mô tả như hình vẽ 3.1 dưới đây

Page 19: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

17

Hình 3.1 Sơ đồ chức năng hệ thống tra cứu văn bản tiếng Việt

Hình 3.2 dưới đây mô tả biểu đồ ca sử dụng tổng quát của hệ thống tra cứu

Quan tri

Nguoi dung

Them du lieu Sua du lieu

xoa du lieu

huan luyen phan cum

tra cuu

xem thong tin

Hình 3.2 Biểu đồ Use case tổng quát

Chức năng tra cứu văn bản

Trong chức năng tra cứu văn bản có bao gồm hai tính năng tra cứu chính là tính năng

tra cứu theo câu hỏi (query) và tính năng tra cứu theo văn bản (file). Hình 3.3 dưới đây mô

tả biểu đồ use case trường hợp tra cứu với hai tính năng đã được mô tả.

Page 20: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

18

System

Quan triNguoi dung

tra cuu

cau hoi truy vanvan ban

<<include>>

<<include>>

Hình 3.3 . Biểu đồ ca sử dụng tra cứu

Hình 3.4 dưới đây mô tả chức năng tra cứu thông tin của người dùng.

: Nguoi dung

giao dien co so du lieu

1 : vao he thong()

2 : hien thi giao dien he thong()3 : gui tra cuu()

4 : tra ket qua tra cuu()

5 : Ket qua tra cuu()

Hình 3.4 Biểu đồ tuần tự tra cứu và phản hồi thông tin tra cứu.

Page 21: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

19

Hình 3.5 dưới đây mô tả một biểu đồ hoạt động của hệ thống.

Giao dien he thong

Chon tinh nang tra cuu

Tra cuu theo query Tra cuu theo file

Chon fileNhap query

Nhan nut tim kiem

Tra ve danh sach ket qua

Hình 3.5 Biểu đồ hoạt động của hệ thống tra cứu văn bản.

3.2 Xây dựng tập dữ liệu và tập từ điển danh từ

3.2.1 Xây dựng tập dữ liệu

Tập dữ liệu sử dụng trong phân cụm được sử dụng trong luận văn này đồng thời cũng

là tập dữ liệu sử dụng để phân cụm. Cho đến thời điểm này, kho ngữ liệu chuẩn phục vụ cho

phân cụm văn bản tiếng Việt vẫn chưa có. Do đó, luận văn đã xây dựng kho dữ liệu phục vụ

cho phân cụm văn bản một cách thủ công [luận án].

Page 22: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

20

3.2.2 Tiền xử lý và chuẩn hóa dữ liệu

Để có được xâu chuẩn, chuẩn bị cho việc tách từ, ta thực hiện qua các bước sau:

1. Chuyển hết các ký tự chữ hoa thành chữ thường.

2. Dùng các dấu câu (bao gồm dấu “.” “,” “:”…) để tách văn bản thành một tâp hợp

các câu.

3. Tiến hành chuẩn hoá với mỗi câu:

3.2.3 Xây dựng bộ từ điển danh từ

Từ tập dữ liệu huấn luyện ban đầu sau quá trình chuẩn hóa văn bản ta xây dựng bộ từ

điển bao gồm các danh từ. Để xây dựng được bộ từ điển danh từ này, phải xây dựng một

cách thủ công dựa trên hệ thống gán nhãn từ loại và lưu vào cơ sở dữ liệu của hệ thống.

3.3 Môi trường cài đặt

3.3.1 Môi trường cài đặt của hệ thống Hệ thống được xây dựng trên nền web để thuận tiện cho việc tra cứu trực tuyến. Hệ

thống sử dụng ngôn ngữ C# trong bộ visual studio 2010 .

3.3.2 Cơ sở dữ liệu của hệ thống

Hình 3.8 dưới đây mô tả cơ sở dữ liệu của hệ thống tra cứu văn bản tiếng Việt.

Hình 3.8 Cơ sở dữ liệu của hệ thống.

Page 23: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

21

3.3.3 Một số giao diện chính của hệ thống

3.3.3.1 Giao diện tra cứu

Hệ thống tra cứu văn bản tiếng Việt có một số giao diện chính sau, do hệ thống chạy

trên nền web, bởi vậy hệ thống được cài đặt để chạy trên localhost của máy tính cá nhân.

Hình 3.9 dưới đây là giao diện chính của hệ thống.

Hình 3.9. Giao diện trang chủ của hệ thống.

Hình 3.10 dưới đây mô tả giao diện khi người dùng nhập câu hỏi tra cứu

Hình 3.10 Kết quả tra cứu với câu truy vấn.

Hình 3.12 dưới đây mô tả kết quả tra cứu của hệ thống

Page 24: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

22

Hình 3.12 Kết quả tra cứu với văn bản.

3.3.3.2 Quản lý phân cụm Phần này mô tả một số giao diện trong phần xử lý phân cụm văn bản. Hình 3.14 dưới

đây mô tả chức năng quản lý lấy dữ liệu từ trong máy tính để tiến hành phân cụm dữ liệu.

Hình 3.14 Tính độ tương tự giữa các cặp văn bản trong tập dữ liệu.

Sau khi tính được độ tương tự giữa các cặp văn bản trong tập dữ liệu. Phần ngưỡng là lựa

chọn số cụm để phân chia.

Page 25: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

23

Hình 3.16 Kết quả phân cụm với ngưỡng bằng 0.9

Tiếp theo, sau khi phân cụm, người quản trị có thể di chuyển các cụm đã được

phân vào các folder khác nhau khi thực hiện nhấn nút di chuyển

3.4 Kết quả thực nghiệm

Trong đánh giá và so sánh các phương pháp và các hệ thống TR, một số các phương

pháp chuẩn đã được đưa ra. Tuy nhiên, các hệ thống TR hiện nay vẫn sử dụng TRECs như

một tiêu chuẩn để đánh giá [20]. Các văn bản được thử nghiệm lấy trong tập dữ liệu TREC

(~1Gb) trong http://trec.nist.gov

Đối với việc đánh giá hệ thống tra cứu tiếng Việt, hiện nay, kho dữ liệu chưa được

xây dựng, các hệ thống đánh giá cũng chưa có. Do đó, để đánh giá hệ thống tra cứu văn bản

tiếng Việt. Trong luận văn này sử dụng phương pháp thủ công, có nghĩa là tự xây dựng kho

dữ liệu phục vụ cho hệ thống tra cứu, đồng thời sử dụng các độ đo trong đánh giá để đánh

giá hệ thống mà luận văn đã xây dựng. Trong luận văn này, sử dụng độ đo triệu hồi để đánh

giá kết quả tra cứu của hệ thống.

Kho dữ liệu sử dụng trong luận văn được xây dựng bằng cách thủ công, các văn bản

được download từ các trang web, với 6 chủ đề khác nhau được lưu trữ dưới dạng file .txt

(mục 3.2.1).

Page 26: Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm ...dlib.ptit.edu.vn/bitstream/123456789/759/1/Tom Tat LV ThS Le Manh... · Tra cứu thông tin là một

24

Bảng 3.3 Độ triệu hồi khi thực hiện các truy vấn.

TT Các truy vấn Số văn bản liên quan

Độ triệu hồi

1. Kinh doanh 52 0.173333

2. Chất lượng giáo dục 54 0.18

3. Bóng đá thế giới 46 0.153333

4. Món ngon Hà nội 42 0.14

5. Máy tính bảng nhẹ nhất 78 0.26

6. Nhà máy điện hạt nhân 36 0.12

Hình 3.20 dưới đây là biểu thị độ triệu hồi.

Hình 3.20 Độ triệu hồi.

3.5 Kết luận chương 3

Trong chương này, luận văn đã trình bày chi tiết từ phân tích thiết kế của hệ thống và

các giao diện của hệ thống. Các chức năng chính của hệ thống cũng được mô tả rõ ràng, đầy

đủ.

So sánh kết quả của hệ thống được luận văn xây dựng với các kết quả được trích rút

bởi chuyên gia, cho thấy rằng, hệ thống có thể đáp ứng được yêu cầu tra cứu thông tin văn

bản tiếng Việt. Trong luận văn cũng sử dụng cách đánh giá bởi chuyên gia con người cho

kết quả chấp nhận được.