ĐẠi h Ọc qu Ốc gia hÀ n Ội tr ƯỜng i h Ọc...

50
ĐẠI HC QUC GIA HÀ NI TRƯỜNG ĐẠI HC CÔNG NGHPhan ThThơm LÀM GIÀU VÀ LA CHN ĐẶC TRƯNG TRONG PHÂN LP ĐA NHÃN VÀ ÁP DNG TRONG QUN LÝ DANH TING KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY Ngành:Công nghthông tin HÀ NI - 2012

Upload: others

Post on 04-Feb-2020

28 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phan Thị Thơm

LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG

TRONG PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG

TRONG QUẢN LÝ DANH TIẾNG

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành:Công nghệ thông tin

HÀ NỘI - 2012

Page 2: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phan Thị Thơm

LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG

TRONG PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG

TRONG QUẢN LÝ DANH TIẾNG

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành:Công Nghệ Thông Tin

Cán bộ hướng dẫn: PGS.TS. Hà Quang Thụy

Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ

HÀ NỘI - 2012

Page 3: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

VIETNAMNATIONALUNIVERSITY, HANOI

UNIVERSITY OF ENGINEERING AND TECHNOLOGY

Thom Phan Thi

FEATURES ENRICHING AND SELECTING

IN MULTI-LABEL CLASSIFICATION

IN REPUTATION MANAGEMENT

Major: Information of Technology

Supervisor:Assoc. Prof. Thuy Ha Quang

Co-Supervisor:MSC. Vu Tran Mai

HA NOI, 2012

Page 4: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

Lời cảm ơn

Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới Thầy giáo,

PGS.TS Hà Quang Thụy và Thạc sỹ Trần Mai Vũ đã tận tình chỉ bảo, hướng dẫn,

động viên và giúp đỡ em trong suốt quá trình thực hiện đề tài khóa luận.

Em xin gửi lời cảm ơn sâu sắc tới các Thầy Cô trong Khoa Công nghệ thông tin

đã truyền đạt kiến thức quý báu cho em trong bốn năm học vừa qua.

Em cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị, các bạn và các em sinh

viên trong phòng thí nghiệm KT-Sislab đã giúp em rất nhiều trong việc hỗ trợ kiến

thức chuyên môn để hoàn thành tốt khóa luận.

Con xin nói lên lòng biết ơn vô hạn đối với Cha Mẹ luôn là nguồn động viên,

chăm sóc và khích lệ con trên mỗi bước đường học vấn.

Cuối cùng, xin chân thành cảm ơn các Anh Chị và Bạn Bè, các thành viên lớp

K53CB, K53CLC và đặc biệt là các thành viên của phòng 420C-KTX Ngoại Ngữ đã

ủng hộ, giúp đỡ tôi trong suốt thời gian tôi học tập trên giảng đường đại học và thực

hiện đề tài khóa luận này.

Tôi xin chân thành cảm ơn!

Hà Nội, ngày 15 tháng 05 năm 2012

Sinh viên

Phan Thị Thơm

Page 5: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN VÀ

ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG

Phan Thị Thơm

Khóa QH-2008-I/CQ, ngành công nghệ thông tin.

Tóm tắt Khóa luận tốt nghiệp:

Hệ thống quản lý danh tiếng là một chủ đề khoa học công nghệ thu hút sự quan tâm trên

thế giới. Hệ thống quản lý danh tiếng tiến hành thu thập ý kiến nhận xét của người dùng, phân

tích quan điểm trong những nhận xét đấy, và tạo ra một bản tổng kết quan điểm cung cấp cho

người dùng và công ty. Nhận xét của người dùng thường đề cập tới nhiều khía cạnh của công

ty sản phNm nên chúng là những dữ liệu đa nhãn. Vì vậy, một trong các vấn đề trọng tâm của

hệ thống quản lý danh tiếng là việc xử lý dữ liệu đa nhãn.

Bài toán phân lớp dữ liệu đa nhãn có đặc điểm là số lượng đặc trưng lớn [2]. Việc tạo

lập và lựa chọn tập đặc trưng dữ liệu có ý nghĩa rất quan trọng trong việc nâng cao hiệu quả

của thuật toán phân lớp đa nhãn. Khóa luận đề xuất một mô hình kết hợp việc tạo lập đặc

trưng dựa theo mô hình chủ đề Nn với giải pháp lựa chọn đặc trưng của Gomez-Verdejo và

Michel Verleysen, 2007 [3].

Khóa luận thi hành thực nghiệm trên miền dữ liệu là tập nhận xét của người dùng về

1000 khách sạn ở Việt Nam ở website (http://chudu24.com ). Kết quả thu được cho thấy giải

pháp kết hợp đặc trưng đã cải thiện kết quả phân lớp đa nhãn.

Từ khóa : reputation management, multi-label, classification, feature selection.

Page 6: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

FEATURES ENRICHING AND SELECTINGIN MULTI-LABEL

CLASSIFICATION IN REPUTATION MANAGEMENT

Thom Phan Thi

QH-2008-I/CQ course, information technology faculty

Abtract thesis:

From the late 20th century, the reputation systems have been commonly adopted by

Internet companies. For each companies or products, the reputation management crawled

customer’s reviews. Then they found the opinion customers in there and constructed the

report about opinion customers in features products or features companies. However, some

customer review may belong to more than one class, almost them is multi-label data. So the

importation problem in reputation management is classification multi-label.

According to Guyon and Elisseeff, 2003 [2], feature selection is an important task in

classification multi-label, as it can improve the interpretability of the problems, together with

performances and learning time of prediction algorithms. Based on the methodology of

Vanessa Gomez-Verdejo and Michel Verleysen, 2007 [3], we are given a methodology,

which used features in hidden topic model and used mutual information to achieve feature

selection in multi-label classification problems.

We used the customer’s reviews about 1000 hotels in Viet Nam in website

(http://chudu24.com ). Result on this database clearly demonstrate the interest of the approach

which allows one to sharply reduce the dimension of the problem and to enhance the

performance of classifiers.

Keywords: reputation management, multi-label, classification, feature selection.

Page 7: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

Lời cam đoan

Tôi xin cam đoan giải pháp làm giàu đặc trưng chủ đề Nn LDA và phương pháp

lựa chọn đặc trưng dựa trên độ tương hỗ MI được trình bày trong khóa luận này là do

tôi thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy và Thạc sỹ Trần Mai

Vũ.

Tất cả những tham khảo từ các nghiên cứu liên quan đề được nêu nguồn gốc một

các rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không

có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài

liệu tham khảo.

Hà Nội, ngày 15 tháng 05 năm 2012

Tác giả

Phan Thị Thơm

Page 8: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

Mục lục

MỞ ĐẦU ..................................................................................................................... 1

CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ QUẢN LÝ DANH TIẾNG .......................... 3

1.1. Danh tiếng và các khái niệm liên quan ............................................................ 3

1.2. Giới thiệu chung về hệ thống quản lý danh tiếng ............................................ 4

1.2.1. Sơ bộ về hệ thống quản lý danh tiếng ....................................................... 4

1.2.3. Tầm quan trọng của hệ thống quản lý danh tiếng ..................................... 6

1.3. Phân lớp dữ liệu đa nhãn và bài toán lựa chọn đặc trưng ................................. 7

Kết luận chương một ................................................................................................... 9

CHƯƠNG 2. PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN VÀ MÔ HÌNH CHỦ ĐỀ ẨN LDA ................................................................ 10

2.1. Phương pháp lựa chọn đặc trưng sử dụng độ tương hỗ (MI) ......................... 10

2.1.1. Bài toán lựa chọn đặc trưng ................................................................... 10

2.1.2. Phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ (MI) .................. 11

2.1.2.1. Độ tương hỗ MI ............................................................................... 11

2.1.2.2. Phương pháp thực hiện .................................................................... 11

2.1.2.3. Cách đánh giá ................................................................................. 12

2.2. Mô hình chủ đề Nn ........................................................................................ 12

2.2.1. Mô hình sinh trong LDA ......................................................................... 14

2.2.2. Ước lượng tham số và suy luận .............................................................. 15

Kết luận chương hai ................................................................................................... 16

CHƯƠNG 3. PHƯƠNG PHÁP LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN ............................................................................................. 17

3.1. Mô tả phương pháp ....................................................................................... 17

3.2. Mô hình đề xuất ............................................................................................ 18

3.3. Pha 1. Huấn luyện mô hình ........................................................................... 19

3.3.1. Xây dựng tập đặc trưng bổ xung từ mô hình chủ đề �n LDA .................. 19

3.3.2. Xây dựng vector đặc trưng ..................................................................... 20

3.3.3. Lựa chọn đặc trưng ................................................................................ 21

3.3.4. Phân lớp đa nhãn ................................................................................... 22

3.4. Pha 2. Phân lớp sử dụng mô hình huấn luyện ................................................ 23

Page 9: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

3.4.1. Tiền xử lý dữ liệu ................................................................................... 23

3.4.2. Lựa chọn đặc trưng ................................................................................ 24

3.4.3. Đánh giá độ chính xác của hệ thống ...................................................... 24

Kết luận chương ba .................................................................................................... 26

CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ ....................................................... 27

4.1. Môi trường và các cộng cụ sử dụng thực nghiệm .......................................... 27

4.1.1. Cấu hình phần cứng ............................................................................... 27

4.1.2. Các phần mềm sử dụng .......................................................................... 28

4.2. Xây dựng tập dữ liệu thử nghiệm .................................................................. 28

4.3. Thử nghiệm .................................................................................................. 30

4.4. Kết quả thực nghiệm ..................................................................................... 31

4.5. Đánh giá hệ thống ......................................................................................... 35

Kết luận ..................................................................................................................... 36

Tài liệu tham khảo ..................................................................................................... 37

Page 10: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

Danh sách hình vẽ

Hình 1.1 : Sơ đồ phân loại danh tiếng .......................................................................... 3 Hình 1.2: (a) Hệ thống Vật giá, (b) Hệ thống Swooti; .................................................. 5 (c,d) Hệ thống zoominfo: Giao diện (c); kiến trúc thành phần hệ thống (d) .................. 5 Hình 1.3 : Hai kiểu mô hình hệ thống quản lý danh tiếng [4, 25] ................................. 6 Hình 2.1: Mô hình biểu diễn của LDA ....................................................................... 14 Hình 3.1: Mô hình đề xuất ......................................................................................... 18 Hình 3.2 : Bốn tập dữ liệu được tổ chức phân lớp theo chuyển đổi nhị phân .............. 22 Hình 4.1: So sánh kết quả thực nghiệm 1 và thực nghiệm 2 ....................................... 33 Hình 4.2: So sánh 4 thực nghiệm ............................................................................... 34

Page 11: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

Danh sách bảng biểu

Bảng 3.1: Ví dụ về kết quả của mô hình chủ đề Nn cho tài liệu t ................................. 19 Bảng 3.2: Bảng ký hiệu .............................................................................................. 25 Bảng 4.1. Cấu hình hệ thống thử nghiệm ................................................................... 27 Bảng 4.2: Công cụ phần mềm sử dụng ....................................................................... 28 Bảng 4.3 : Tập dữ liệu thực nghiệm ........................................................................... 29 Bảng 4.4: Tập dữ liệu huấn luyện .............................................................................. 29 Bảng 4.5: Tập dữ liệu cho mô hình chủ đề Nn ............................................................ 30 Bảng 4.6: Kết quả của thực nghiệm 1 ........................................................................ 31 Bảng 4.7: Kết quả thực nghiệm 2 với số chủ đề là 15 ................................................. 32 Bảng 4.8: Kết quả thực nghiệm 2 với số chủ đề là 20 ................................................. 32 Bảng 4.9: Kết quả thực nghiệm 2 với số chủ đề là 25 ................................................. 32 Bảng 4.10: Kết quả thực nghiệm 3 ............................................................................. 33 Bảng 4.11: Kết quả thực nghiệm 4 ............................................................................. 34

Page 12: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

Danh sách các từ viết tắt

BR Binary Relevance

IDF Inverse Document Frequency

MI Mutual Information

LDA Latent Dirichlet Allocation

LP Label Powerset

PLSA Probabilistic Latent Semantic Analysis

PPT Pruned Problem Transformation

TF Term Frequencies

SVM Support Vector Machine

Page 13: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

1

MỞ ĐẦU

Danh tiếng của tổ chức là một tài sản có giá trị ngày càng cao. Ngày nay, Internet

là kênh thông tin quan trọng chuyển tải danh tiếng của tổ chức tới cộng đồng xã hội.

Theo như First World Internet Report (Pierce, 2008) [1], chỉ ra rằng hơn hai phần ba

người dùng Internet coi đây là nguồn thông tin quan trọng. Tuy nhiên, lượng thông tin

trên Internet đang ngày một lớn hơn và gây khó khăn cho người sử dụng khi tìm các

thông tin đánh giá một công ty hay một sản phNm. Vì thế, hệ thống quản lý danh tiếng

là một trong những cách tốt nhất để giải quyết vấn đề này.

Hệ thống quản lý danh tiếng chủ yếu là tổng hợp dựa trên ý kiến của người dùng.

Vì thế, vấn đề mấu chốt của bài toán quản lý danh tiếng là việc phân loại dữ liệu đa

nhãn. Theo nghiên cứu của Guyon và Elisseeff, 2003 [2], việc lựa chọn đặc trưng hiệu

quả có thể cải tiến đáng kể chất lượng của bộ phân lớp.

Trong khóa luận này, chúng tôi sử dụng phương pháp lựa chọn đặc trưng của

Vanessa Gomez-Verdejo và Michel Verleysen, 2007 [3]. Chúng tôi đề xuất một

phương pháp xây dựng tập đặc trưng cho việc phân lớp câu quan điểm trong bài toán

quản lý danh tiếng. Theo đó, chúng tôi áp dụng đặc trưng mô hình chủ đề Nn LDA kết

hợp với lựa chọn đặc trưng dựa vào độ tương hỗ (MI). Phương pháp phân lớp

Maximum Entropy được lựa chọn vì phương pháp này phù hợp với việc phân lớp dữ

liệu có nhiều đặc trưng.

Nội dung của khóa luận được chia thành các chương như sau :

Chương 1: Giới thiệu khái quát về quản lý danh tiếng, hệ thống quản lý danh

tiếng và tầm quan trọng của hệ thống này trong thực tế. Sau đó, khóa luận còn trình

bày về tầm quan trọng của việc xử lý dữ liệu đa nhãn trong hệ thống quản lý danh

tiếng, tầm quan trọng của việc lựa chọn đặc trưng.

Chương 2 : Trình bày về bài toán lựa chọn đặc trưng trong việc phân lớp dữ liệu

đa nhãn cùng một số nghiên cứu liên quan. Ngoài ra, khóa luận còn trình bày về

phương pháp mô hình chủ đề Nn LDA và giải pháp do khóa luận đề xuất.

Chương 3 : Khóa luận đề xuất phương pháp xây dựng tập đặc trưng dựa vào việc

bổ xung đặc trưng thu được từ mô hình chủ đề Nn LDA kết hợp với phương pháp

lựachọn đặc trưng dựa vào độ tưng hỗ(MI) trên miền dữ liệu Tiếng Việt. Đồng thời,

khóa luận cũng trình bày chi tiết các pha cũng như các bước trong mô hình.

Page 14: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

2

Chương 4 : Khóa luận trình bày một số thực nghiệm trong việc áp dụng phương

pháp xây dựng tập đặc trưng mà khóa luận đề xuất. Từ đó, khóa luận sử dụng để đánh

giá danh tiếng cho 1000 khách sạn ở Việt Nam.

Phần kết luận : Tóm lược kết quả đạt được của khóa luận và định hướng phát

triển tương lai.

Page 15: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

3

CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ QUẢN LÝ DANH TIẾNG

1.1. Danh tiếng và các khái niệm liên quan

Theo như Từ điển Oxford(1992) thì danh tiếng được định nghĩa “là các ước

lượng chung của con người về các phương diện đặc tính hoặc ph�m chất ; nó gần như

là sự yêu quý hay tin tưởng vào một người hay một tổ chức”.

Danh tiếng được coi như là một đặc tính hoặc một thuộc tính của con người hay

một tổ chức được hình thành nhờ hành vi trong quá khứ. Theo Lik Mui, 2002 [5], danh

tiếng được phân loại dựa vào nguồn gốc xây dựng như sơ đồ sau:

Hình 1.1 : Sơ đồ phân loại danh tiếng

Trong sơ đồ trên, một số loại danh tiếng có trong các hộp bóng mờ là (i) danh

tiếng của nhóm (group reputation), (ii) danh tiếng quan sát được (observed reputation),

(iii) danh tiếng từ nguồn nhóm (group-derived) có tính “xã hội hóa” đối với chủ thể và

khách thể (nơi nhận danh tiếng hoặc nguồn tạo ra danh tiếng) là đối ngẫu với tính “cá

nhân hóa” trong các loại danh tiếng còn lại. Trong sơ đồ phân loại danh tiếng trên đây,

ở mức cao nhất cho thấy danh tiếng gồm danh tiếng cá nhân và danh tiếng nhóm cá

nhân.Danh tiếng nhóm cá nhân (công ty) được xác định theo một mô hình tích hợp

danh tiếng cá nhân của tập thành viên trong nhóm (mô hình trung bình, mô hình phân

cấp, các mô hình tích hợp khác [5]).Danh tiếng cá nhân có thể phân chia theo hai loại

là:

• Danh tiếng thu được từ những thông tin trực tiếp như : sự đánh giá của

những người là đồng nghiệp của nhau, …

Page 16: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

• Danh tiếng thu

nhóm mà cá nhân

miệng, …

1.2. Giới thiệu chung

1.2.1. Sơ bộ về hệ th

Một trong những lợi th

giảm chi phí thời gian công s

hàng giờ, Internet luôn có hàng tri

kinh nghiệm với nhau. Tận d

vụ thu thập ý kiến của ngườ

sản phNm, … Sau đó tổng h

dùng khác có thể sử dụng thông tin mà h

tài liệu tham khảo để đưa ra quy

(a)

4

ng thu được từ những thông tin gián tiếp như : s

nhóm mà cá nhân đó tham gia, các thông tin thu thập t

u chung về hệ thống quản lý danh tiếng

thống quản lý danh tiếng

i thế lớn nhất mà Internet mang lại cho ngư

i gian công sức trong việc tìm kiếm, thu thập thông tin. Hàng ngày,

, Internet luôn có hàng triệu người giao tiếp và chia sẻ các ý ki

n dụng lợi thế này, hệ thống quản lý danh ti

ời dùng về sản phNm và các sự kiện, thông tin v

ng hợp thông tin này và công bố với mọi ngư

ng thông tin mà hệ thống quản lý danh tiếng mang l

đưa ra quyết định.

(b)

ư : sự uy tín của

p từ lời truyền

i cho người dùng là làm

p thông tin. Hàng ngày,

các ý kiến cũng như

n lý danh tiếng làm nhiệm

n, thông tin về uy tín của

i người. Mọi người

ng mang lại như một

Page 17: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

5

(c) (d)

Hình 1.2: (a) Hệ thống Vật giá, (b) Hệ thống Swooti;

(c,d) Hệ thống zoominfo: Giao diện (c); kiến trúc thành phần hệ thống (d)

1.2.2. Mô hình của hệ thống quản lý danh tiếng

Theo Liu Ling (2011, [4]), mô hình hệ thống quản lý danh tiếng được xây dựng

từ mô hình hệ thống thông tin song đi theo hai hướng tiếp cận có hoặc không có thành

phần phản hồi.. J. Laudon và K. Laudon (2007, [13]), Stair và cộng sự (2010, [14]) đề

nghị hệ thống quản lý danh tiếng được xây dựng như một hệ thống thông tin bao gồm

bốn thành phần: Đầu vào, Xử lý, Đầu ra và Phản hồi người dùng như hình 3(a). Trong

khi đó, Hoffman và cộng sự (2009, [15]), Zheng và Jin (2009, [16]), Swamynathan và

cộng sự (2010, [24]) coi rằng hệ thống danh tiếng bao gồm ba thành phần: Thu thập

thông tin, Xử lý thông tin và Hiển thị kết quả người dùng như hình 3(b).

(a) Mô hình kiểu Hệ thống thông tin [4]

(b) Mô hình kiểu ba thành phần [4]

Page 18: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

6

(c) Một mô hình năm thành phần [25]

Hình 1.3 : Hai kiểu mô hình hệ thống quản lý danh tiếng [4, 25]

Thành phần Phản hồi người dùng là rất quan trọng trong hệ thống danh tiếng,

và vì vậy, mô hình ba thành phần có một khiếm khuyết là thiếu vắng thành phần này.

Tuy nhiên, trong nhiều trường hợp, mô hình ba thành phần cho một thiết kế đơn giản,

dễ thi hành.

Liu Ling [4] nhận định rằng cả hai mô hình nói trên còn thiếu một thành phần

quan trọng là Thành phần lưu trữ và tác giả cho rằng đây cũng là một thiếu sót lớn

theo phương diện thiết kế hệ thống. Liu Ling đề nghị mô hình thiết kế hệ thống quản

lý danh tiếng gồm năm thành phần như thể hiện ở Hình 2(c).

Khóa luận này cũng tiếp cận theo mô hình ba, trong đó tập trung chủ yếu vào

phần xử thông tin, đặc biệt là phần xử lý thông tin đa nhãn. Khóa luận đề xuất giải

pháp xây dựng tập đặc trưng bằng cách kết hợp đặc trưng mô hình chủ đề Nn và

phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ.

1.2.3. Tầm quan trọng của hệ thống quản lý danh tiếng

Trong cuộc sống, danh tiếng công ty, sản phNm đóng một vai trò vô cùng quan

trọng. Đối với người tiêu dùng, danh tiếng giúp họ có được những lựa chọn hợp lý

trong cuộc sống. Ví dụ như: trong trường hợp một người cần tìm gia sư tốt để dạy con

Page 19: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

7

cái họ, họ sẽ nhờ bạn bè và người thân giới thiệu hay cho kinh nghiệm. Và kinh

nghiệm trên chính là danh tiếng về gia sư.

Đối với bản thân doanh nghiệp, danh tiếng càng có tầm quan trọng lớn hơn. Việc

quản lý danh tiếng là quá trình theo dõi thương hiệu và phản ứng khi có những phản

hồi tiêu cực về công ty đang quản lý. Từ đó, công ty có thể tránh đươc những thảm họa

tiềm Nn như: ai đó nêu tên công ty trong một bài viết có tính chất xuyên tạc. Ngoài khả

năng phòng vệ, việc làm này còn giúp công ty có thể tham gia và những cuộc thảo

luận xoay quanh các vấn đề của doanh nghiệp, từ đó giúp quảng bá hình ảnh công ty ra

bên ngoài hiều hơn.

Trong xã hội hiện nay, sự cạnh tranh về danh tiếng đóng một vai trò vô cùng

quan trọng. Dù muốn hay không thì bất kỳ cá nhân, công ty hay tổ chức nào cũng phải

xây dựng và phát triển danh tiếng dựa trên nhận thức của công chúng về danh tiếng đó.

Người ta phải mất nhiều năm tháng để xây dựng danh tiếng, nhưng có thể hủy hoại nó

chỉ trong chốc nát. Công ty Enron, ngành công nghiệp kế toán kiểm toán sau vụ

Andersen, Wall Street,… là những ví dụ nổi bật. Với danh tiếng tốt của doanh nghiệp

sẽ thu hút khách hàng, nhà đầu tư và các nhân viên tài năng, dẫn đến lợi nhuận cao.

Sự thành công của eBay [5], một trang web bán hàng rất phổ biến đã là ví dụ

điển hình cho thấy tầm quan trọng to lớn của danh tiếng, các giá trị uy tín của người

bán và người mua được đo và xếp hạng theo điểm số (tích cực, tiêu cực và trung lập).

Nghiên cứu của Resnich và Zeckhauser [6] đã chỉ ra rằng trên eBay 89% trong số

168.680 giao dịch xảy ra giữa người bán và người mua gặp nhau lần đầu tiên. Và hầu

như tất cả (98.9%) xảy ra giữa những người đã tiến hành giao dịch không quá bốn lần.

Các thống kê trên chỉ ra rằng, hầu hết giao dịch trên eBay là giao dịch giữa những

người không quen biết và danh tiếng là yếu tố quyết định của những giao dịch này.

Như đã nói ở trên, quản lý danh tiếng là làm nhiệm vụ thu thập ý kiến của người

dùng về sản phNm và các sự kiện, thông tin về uy tín của sản phNm, … sau đó tổng hợp

thông tin này và công bố với mọi người. Như vậy, quản lý danh tiếng được coi là tầng

trên của khai phá quan điểm và bài toán phân lớp quan điểm được coi là bài toán trọng

tâm của quản lý danh tiếng.

1.3. Phân lớp dữ liệu đa nhãn và bài toán lựa chọn đặc trưng

Hầu hết các ứng dụng của phân lớp phân cấp văn bản là bài toán đa nhãn, có

nghĩa là một văn bản hay câu có thể được gán vào nhiều hơn một lớp. Ví dụ, một câu

Page 20: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

8

quan điểm của khách hàng nhận xét về khách sạn như “Khách sạn rất đẹp, thoáng và

có nhiều đồ ăn ngon” có thể thuộc lớp “Chất lượng phòng, khách sạn” hoặc “Chất

lượng đồ ăn”. Phân lớp dữ liệu đa nhãn là nhiệm vụ phân loại tài liệu trong đó mỗi tài

liệu có thể đồng thời thuộc vào nhiều nhãn khác nhau. Dữ liệu đa nhãn thường được

gặp trong thực tế hơn dữ liệu đơn nhãn vì dữ liệu đơn nhãn được quy định chỉ thuộc

vào một nhãn cố định. Xét một ví dụ về phân lớp dữ liệu văn bản như : một bài báo về

nghị định Kyoto, bài báo này có thể được gán nhãn là chính trị hoặc môi trường. Một

ví dụ khác như, một bức ảnh có thể thuộc về nhiều nhãn khác nhau như bãi biển, núi,

du lịch,.. Do tầm quan trọng của dữ liệu đa nhãn, bài toán phân lớp dữ liệu đa nhãn đã

được nghiên cứu khá rộng rãi từ vài năm gần đây và dẫn tới sự phát triển của rất nhiều

thuật toán phân lớp. Một trong số những phương pháp mở rộng để phân loại dữ liệu đa

nhãn điển hình như AdaBoost [8], học máy hỗ trợ (SVM) [9] hoặc K-láng giềng gần

nhất [10], …

Một trong những cách tiếp cận phổ biến của phân lớp dữ liệu đa nhãn là thực

hiện các chuyển đổi về phân lớp dữ liệu đơn nhãn. Sau đó, có thể sử dụng trực tiếp các

thuật toán học máy để phân loại dữ liệu đơn nhãn. Theo [11], phương pháp chuyển đổi

đơn giản nhất là phương pháp chuyển đổi nhị phân (BR), tức là với mỗi nhãn khác

nhau sẽ được xây dựng một bộ phân lớp khác nhau. Nói cách khác, tức là việc chuyển

đổi phân lớp dữ liệu C nhãn thành C bộ phân lớp cho mỗi nhãn.

Phương pháp Label Powerset (LP) là một phương pháp chuyển đổi của phân lớp

dữ liệu đa nhãn mà có xem xét đến sự phụ thuộc của các nhãn lớp. Ý tưởng của

phương pháp này là coi một tập con các nhãn như là một nhãn và tiến hành phân lớp

như việc phân lớp dữ liệu đơn nhãn. Theo phương pháp này thì số lượng các tập con

nhãn được tạo ra là rất lớn, nên Read và công sự [12] đã đề xuất một phương pháp tỉa

để giảm bớt số lượng các tập nhãn, phương pháp này gọi là tiếp cNn chuyển đổi bằng

phương pháp tỉa (PPT). Phương pháp PPT quy định mỗi tập nhãn phải có một số

lượng tối thiểu dữ liệu, đối với dữ liệu quá hiếm có thể loại bỏ khỏi tập dữ liệu và đưa

vào nhãn mới.

Tuy nhiên, việc phân loại dữ liệu văn bản đa nhãn với nhiều nhãn lớp có thể dẫn

tới số lượng đặc trưng quá lớn và đôi khi làm giảm kết quả của bộ phân lớp. Có nhiều

phương pháp được đề xuất [2], tuy nhiên, phương pháp lựa chọn đặc trưng dựa trên độ

tương hỗ (MI) được coi là phương pháp hiệu quả[3].

Page 21: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

9

Kết luận chương một Trong chương này, khóa luận giới thiệu bài toán quản lý danh tiếng, các định

nghĩa liên quan đến danh tiếng và hệ thống quản lý danh tiếng. Ngoài ra, khóa luận

còn nêu lên được tầm quan trọng của bài toán phân lớp dữ liệu đa nhãn và lựa chọn

đặc trưng trong hệ thống quản lý danh tiếng

Chương tiếp theo, khóa luận sẽ đi sâu vào phân tích bài toán lựa chọn đặc trưng

trong miền dữ liệu đa nhãn, giới thiệu các nghiên cứu liên quan, phương pháp bổ xung

đặc trưng bằng mô hình chủ đề Nn LDA. Từ những tìm hiểu đó, khóa luận đề xuất giải

pháp xây dựng tập đặc trưng hiệu quả cho hệ thống quản lý danh tiếng.

Page 22: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

10

CHƯƠNG 2. PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN VÀ MÔ HÌNH CHỦ ĐỀ ẨN LDA

2.1. Phương pháp lựa chọn đặc trưng sử dụng độ tương hỗ (MI)

2.1.1. Bài toán lựa chọn đặc trưng

Lựa chọn đặc trưng là việc lựa chọn từ một tập hợp các đặc trưng đầu vào để đưa

ra một tập nhỏ các đặc trưng có giá trị nhất. Xét với một vector đặc trưng đầu vào ngẫu

nhiên X={X1,…, Xd} và Y là giá trị đầu ra có thể dự đoán từ vector đặc trưng X.

Nhiệm vụ lựa chọn đặc trưng chính là việc tìm ra các đặc trưng Xi có liên quan nhất

đến dự đoán giá trị Y.

Lựa chọn đặc trưng có tầm quan rất lớn trong thực tế, đặc biệt là trong các

phương pháp K-láng giềng gần nhất, học máy vector hỗ trợ (SVM). Những phương

pháp này bị ảnh hưởng rất lớn vào yếu tố đầu vào, khả năng phân lớp của thuật toán có

xu hướng giảm khi các biến không có giá trị được thêm vào.

Khi dữ liệu có số lượng đặc trưng lớn, việc tìm kiếm tập các đặc trưng tối ưu là

rất khó. Theo các nghiên cứu trước đây, có một số phương pháp tìm kiếm tập đặc

trưng tối ưu bằng cách làm ngược lại với thông thường, tức là loại bỏ các đặc trưng

xấu, ví dụ như, phương pháp tỉa MultiLayer Perceptron, phương pháp Generalized

Relevance Learning Vector Quantization, các phương pháp này đều phải xây dựng mô

hình và khởi tạo là toàn bộ các đặc trưng. Khi số lượng các đặc trưng quá lớn, thì việc

tính toán lớn, vấn đề hội tụ,…sẽ gây khó khăn cho thuật toán và những cách tiếp cận

trên đây đều bị ràng buộc bởi một mô hình cụ thể.

Trong khi đó, phương pháp lựa chọn đặc trưng Forward-Backward có thể được

áp dụng bởi bất kỳ mô hình nào và được bắt đầu bằng một tập hợp nhỏ các đặc trưng.

Tuy nhiên, phương pháp này cũng gặp khó khăn khi tập đặc trưng là quá lớn, vì

phương pháp này phải thực hiện việc tìm kiếm về phía trước bằng mô hình dự đoán

trực tiếp. Để giải quyết vấn đề này, phương pháp ước tính dự đoán bằng phương pháp

thống kê hoặc thông tin lý thuyết ra đời. Phương pháp này không sử dụng mô hình dự

đoán nên có hiệu quả cao khi thực nghiệm trên dữ liệu nhiều đặc trưng.

Việc sử dụng kết hợp giải pháp tìm kiếm Forward-Backward và tiêu chí về thông

tin lý thuyết được coi là một lựa chọn tối ưu, đặc biệt là khi sử dụng độ đo tương hỗ để

phát hiện mối quan hệ tuyến tính giữa các đặc trưng. Chính vì thế, trong phạm vi khóa

Page 23: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

11

luận này, khóa luận sẽ sử dụng giải pháp tìm kiếm Forward-Backward kết hợp với độ

đo tương hỗ cho việc lựa chọn đặc trưng của dữ liệu đa nhãn.

2.1.2. Phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ (MI)

2.1.2.1. Độ tương hỗ MI

MI là một độ đo về khoảng cách lượng thông tin giữa hai biến. Độ đo này được

sử dụng rộng rãi trong việc lựa chọn đặc trưng vì nó có khả năng phát hiện ra các mối

quan hệ phi tuyến tính giữa các biến. Hơn nữa, MI được định nghĩa cho các nhóm của

các biến, cho phép đo sự phụ thuộc của một nhóm đặc trưng với một lớp trong quá

trình lựa chọn đặc trưng.

Ký hiệu các giá trị xác suất cận biên cho X và Y lần lượt là px(x) và py(y) và xác

suất cận biên của X, Y là px,y(x,y) thì MI được định nghĩa là :

���, �� = � � ,���, ���� ,���, ������ �

2.1.2.2. Phương pháp thực hiện

Có rất nhiều cách thức để lựa chọn ra một tập nhỏ đặc trưng từ tập lớn ban đầu.

Theo Vanessa Gomez-Verdejo và cộng sự [3], thì phương pháp Forward-Backward là

phương pháp hiệu quả trong việc lựa chọn đặc trưng cho phân lớp dữ liệu. Phương

pháp được biểu diễn qua 4 bước sau :

Bước 1 : Lựa chọn đặc trưng đầu tiên trong tập đặc trưng {X1,…, Xn} trong đó

giá trị MI của đặc trưng lựa chọn với lớp Y là cao nhất

����� = �������������, �� 1 ≤ ! ≤ "

Bước 2 : Các đặc trưng tiếp theo được lựa chọn sao cho giá trị MI của tập đặc

trưng lựa chọn với lớp Y đạt giá trị cao nhất. Trong đó, nếu thuật toán thực hiện được

tới vòng thứ t, tập đặc trưng lúc đó là #����� , … , �%&���� ', đặc trưng tiếp theo được lựa

chọn �%��� phải thỏa mãn điều kiện sau :

�%��� = �����������(�����, … , �%&���� , ��), ��

1 ≤ ! ≤ "

Page 24: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

12

�� ∉ #�����, … , �����'

Bước 3: Sau khi thêm một đặc trưng �%���, thuật toán tiến hành kiểm tra bằng

cách loại bỏ lần lượt các đặc trưng ứng viên, khi đó giá trị MI có thể tăng lên. Nếu việc

loại bỏ đặc trưng có thể làm tăng giá trị MI, thì tập đặc trưng mới được thay thế tập

đặc trưng cũ

�%+�, = ��������-./���(����� , … , ��&���� , ��0���� , … , �%���), ��1 ≤ ! ≤ 1

Nếu : ���(�����, … , ��&���� , ��0���� , … , �%���), �� > ���#�����, … , �%���', ��

Bước 4: Thuật toán dừng lại khi giá trị MI không tăng lên nữa hoặc số lượng đặc

trưng tối đa đã tìm được.

2.1.2.3. Cách đánh giá

Có hai tiêu chí phổ biến được dùng để đánh giá trong trường hợp này là : độ mất

mát dữ liệu Hamming và độ chính xác. Với |M| là số lượng điểm dữ liệu có trong tập

kiểm tra M, Yi, i=1…|M|, tập các nhãn đúng và �34là tập các nhãn chính xác trong phân

lớp đa nhãn h.

Độ đo Hamming được định nghĩa như sau:

56�ℎ, 8� = 1|8| : 1

|;||<|

4=�>�4∆�34>

Trong đó ∆ là biểu thị của phép lấy giá trị khác nhau giữa hai tập, |C| là số lượng

các nhãn dương.

Độ chính xác được định nghĩa như sau :

@AAB��A �ℎ, 8� = 1|8| : >�4 ∩ �34>

>�4 ∪ �34>|<|

4=�

Dĩ nhiên, độ đo Hamming càng nhỏ và độ chính xác càng cao thì bộ phân lớp đấy

càng tốt. Điều quan trọng là tất cả các điểm dữ liệu phải thuộc ít nhất một lớp. Nếu có

trường hợp ngoại lệ xảy ra thì độ chính xác ở trên sẽ bằng vô hạn.

2.2. Mô hình chủ đề 4n

Page 25: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

13

Hiện nay, có nhiều nhiên cứu để khai thác một cách hiệu quả mối quan hệ giữa

các dữ liệu. Trong đó, mô hình chủ đề Nn [17] là một bước tiến quan trọng trong việc

mô hình hóa dữ liệu văn bản. Chúng được xây dựng dựa trên ý tưởng rằng mỗi tài liệu

có một xác suất phân phối vào các chủ đề, và mỗi chủ đề là sự phân phối kết hợp giữa

các từ khóa. Biểu diễn các từ và tài liệu dưới dạng phân phối xác suất có lợi ích rất lớn

so với không gian vector thông thường.

Ý tưởng của các mô hình chủ đề Nn là xây dựng những tài liệu mới dựa theo phân

phối xác suất. Trước hết, để tạo ra một tài liệu mới, cần chọn ra một phân phối những

chủ đề cho tài liệu đó, điều này có nghĩa tài liệu được tạo nên từ những chủ đề khác

nhau, với những phân phối khác nhau. Tiếp đó, để sinh các từ cho tài liệu ta có thể lựa

chọn ngẫu nhiên các từ dựa vào phân phối xác suất của các từ trên các chủ đề.

Một cách hoàn toàn ngược lại, cho một tập các tài liệu, có thể xác định một tập

các chủ đề Nn cho mỗi tài liệu và phân phối xác suất của các từ trên từng chủ đề. Hai ví

dụ về phân tích chủ đề sử dụng mô hình Nn là Probabilistic Latent Semantic Analysis

(pLSA) và Latent Dirichlet Allocation (LDA)

PLSA là một kỹ thuật thống kê nhằm phân tích những dữ liệu xuất hiện đồng thời

[18]. Phương pháp này được phát triển dựa trên LSA và các cộng sự (2003) [17], mặc

dù LPSA là một bước quan trọng trong việc mô hình hóa dữ liệu văn bản, tuy nhiên nó

vẫn còn chưa hoàn thiện ở chỗ chưa xây dựng được một mô hình xác suất tốt ở mức độ

tài liệu. Điều đó dẫn đến vấn đề gặp phải khi phân phối xác suất cho một tài liệu nằm

ngoài tập dữ liệu học, ngoài ra số lượng các tham số có thể tăng lên một cách tuyến

tính khi kích thước của tập dữ liệu tăng.

LDA là một mô hình hoàn thiện hơn so với PLSA và có thể khắc phục được

những nhược điểm ở trên. Mô hình chủ đề Nn này sẽ được sử dụng trong việc xây dựng

hệ thống của khóa luận.

LDA là một mô hình sinh xác suất cho tập dữ liệu rời rạc. LDA được xây dựng

dựa trên ý tưởng : mỗi tài liệu là sự trộn lẫn của nhiều chủ đề (topic). Về bản chất,

LDA là một mô hình Bayes phân cấp 3 mức (mức kho ngữ liệu, mức tài liệu và mức từ

ngữ). Mỗi tài liệu trong tập hợp được coi là một hỗn hợp xác định trên tập cơ bản các

chủ đề. Mỗi chủ đề là một hỗn hợp không xác định trên tập cơ bản các xác suất chủ đề.

Về khía cạnh mô hình hóa văn bản, các xác suất chủ đề là một biểu diễn cụ thể, rõ ràng

cho một tài liệu.

Page 26: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

14

2.2.1. Mô hình sinh trong LDA

Cho trước tập M tài liệu D = {d1, d2, …, dM}, trong đó tài liệu thứ m gồm Nm từ,

từ wi được rút ra từ tập các thuật ngữ {t1, t2,…, tV), V là số các thuật ngữ. Mô hình

LDA được biểu diễn dưới dạng đồ họa trong hình 4.

Quá trình sinh trong mô hình LDA diễn ra như sau: mô hình LDA sinh các từ

wm,n có thể quan sát, các từ này được phân chia về các tài liệu . Với mỗi tài liệu, một tỉ

lệ chủ đề EFm được chọn từ phân bố Dirichlet (Dir(GF)), từ đó, xác định các từ thuộc chủ

đề cụ thể. Sau đó, với mỗi từ thuộc tài liệu, chủ đề của từ đó được xác định là một chủ

đề cụ thể bằng cách lấy mẫu từ phân bố đa thức (Mult(EFm)). Cuối cùng, từ phân bố đa

thức (Mult(HIFzm,n)), một từ cụ thể wm,nđược sinh ra dựa trên chủ đề đã được xác định.

Các chủ đề HIFzm,n được lấy mẫu một lần trong toàn kho ngữ liệu.

Hình 2.1: Mô hình biểu diễn của LDA

Các khối vuông trong (hình 4) biểu diễn các quá trình lặp.

Các tham số đầu vào :

• G và J: tham số mức tập hợp kho ngữ liệu

• EFm: phân bố chủ đề trên tài liệu m (tham số mức tài liệu)

• Và Θ = {EFm}m=1M: ma trận M x K

• Km,n: chỉ số chủ đề của từ thứ n trong tài liệu m (biến mức từ ngữ)

• HIFzm,n: phân bố thuật ngữ trên chủ đề cụ thể zm,n

• Và Φ = {HIFk}k=1K: ma trận K x V

• Lm,n: từ thứ n của văn bản n (biến mức từ ngữ)

Page 27: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

15

• 8: số lượng các tài liệu

• "m: số lượng từ trong tài liệu m (độ dài của văn bản sau khi đã

loại bỏ stop word)

• N: số lượng các chủ đề Nn

• OP�Qà8B�1: phân bố Dirichlet và phân bố đa thức

Vì Lm,n phụ thuộc điều kiện vào phân bố HIFk vàKm,n phụ thuộc vào phân bố EFm,

xác suất để một chỉ mục chủ đề Lm,nlà một từ t nằm trong phân bố chủ đề trên tài liệu

EFm và phân bố từ trên chủ đề (Φ) là:

p(Lm,n = t|EFm, Φ) = ∑ � Lm,n = t|HIFk) p(Km,n = k|EFm)

Với xác suất của mỗi thuật ngữ, ta có thể xác định được xác suất chung của tất cả

các biến đã biết và biến Nn với các tham số Dirichlet cho trước:

�SFm, KFm, EFm, Φ|GF, JF) = (Φ|JF) ∏ (LU_,W=� m,n|HIFzm,n)(Km,n|EFm) (EFm|GF)

Tính tích phân trên EFm, Φ và tổng trên KFm, ta xác định được xác suất của tài liệu

SFm. Khi đã có xác suất của mỗi tài liệu (SFm|GF, JF), xác suất của cả kho ngữ liệu D =

{d1, d2, …, dM} là tích của tất cả các xác suất của tất cả các tài liệu nằm trong đó:

(O|GF, JF) = ∏ (<W=� SFm|GF, JF) (1)

2.2.2. Ước lượng tham số và suy luận

Ước lượng tham số cho mô hình LDA bằng tối ưu hóa một cách trực tiếp và

chính xác xác suất của toàn bộ tập dữ liệu trong biểu thức (1) là khó có thể thực hiện.

Một giải pháp đã được đề ra là sử dụng phương pháp ước lượng xấp xỉ như phương

pháp biến phân [17] và lấy mẫu Gibbs [19].

Một chủ đề được gán cho một từ cụ thể được lấy mẫu theo phân bố đa thức sau:

(K4 = X|KF¬4 , LIIF� = Z[,¬4�%� + J%

]∑ Z[�^� + J^_̂=� ` − 1

Z,,¬4�[� + G[

]∑ Z,��� + G�_�=� ` − 1

Trong đó Z[,¬4�%� là số lần từ t được gán cho chủ đề k, không tính đến lần gán hiện

thời;]∑ Z[�^� − 1b̂=� `là số từ được gán cho chủ đề k, không tính lần gán hiện thời; Z,,¬4

�[�

Page 28: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

16

là số từ trong tài liệu m được gán cho chủ đề k, không tính lần gán hiện

thời;]∑ Z,��� − 1_�=� ` là số từ trong tài liệu m, không kể từ t. Sau khi lấy mẫu Gibbs, giá

trị các tham số được xác định, các phân phối Nn được tính như sau:

H[,% = Z[�%� + J%

∑ Z[�^� + J^b̂=�

E,,[ = Z,�[� + G[

∑ Z,��� + G�_�=�

Kết luận chương hai Trong chương hai, khóa luận đã trình bày chi tiết phương pháp lựa chọn đặc

trưng dựa vào độ tương hỗ MI, phương pháp mô hình chủ đề Nn.Như đã trình bày ở

chương 1, bài toán phân lớp dữ liệu đa nhãn là bài toán trọng tâm của bài toán quản lý

danh tiếng. Theo nghiên cứu của Surender Reddy Yerva và cộng sự [20], việc bổ xung

đặc trưng từ nhiều nguồn khác nhau đã cải tiến rất lớn hiệu quả của thuật toán phân

lớp. Trong khi đó, nghiên cứu của Lê Diệu Thu [21] đã chỉ ra rằng, việc sử dụng chủ

đề Nn trong quảng cáo theo ngữ cảnh nhằm mở rộng tập từ vựng của quảng cáo cũng

như trang web đem lại kết quả rất khả quan. Do vậy, bên cạnh các đặc trưng về từ

khóa thu được từ tập dữ liệu học, khóa luận còn đề xuất giải pháp bổ xung thêm các

đặc trưng từ mô hình chủ đề Nn.

Trong nhiên cứu của Gauthier Doquire và Michel Verleysen [11], đã cho thấy dữ

liệu đa nhãn với số lượng đặc trưng lớn trong đó có nhiều đặc trưng không có giá trị đã

làm giảm đi đáng kể độ chính xác của thuật toán phân lớp. Chính vì thế, ngoài việc bổ

xung đặc trưng từ mô hình chủ đề Nn như trình bày ở trên, khóa luận còn đề xuất kết

hợp với phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ MI của Vanessa

Gomez-Verdejo và Michel Verleysen [3].

Chương ba sẽ trình bày chi tiết giải pháp đề xuất bổ xung đặc trưng mô hình chủ

đề Nn và lựa chọn đặc trưng dựa vào độ tương hỗ MI để cải tiến độ chính xác của bộ

phân lớp dữ liệu đa nhãn trong bài toán quản lý danh tiếng.

Page 29: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

17

CHƯƠNG 3. PHƯƠNG PHÁP LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN

3.1. Mô tả phương pháp

Dựa trên kết quả khả quan của giải pháp lựa chọn đặc trưng dựa vào độ đo tương

hỗ MI của Gauthier Doquire và Michel Verleysen [11], khóa luận đề xuất một giải

pháp xây dựng đặc trưng cho bộ phân lớp dữ liệu đa nhãn. Trong giải pháp này, khóa

luận không chỉ sử dụng các đặc trưng về từ thu được từ tập dữ liệu học mà khóa luận

còn sử dụng các đặc trưng ở mức trừu tượng cao hơn từ mô hình chủ đề Nn, đây là các

đặc trưng về topic với xác suất của các topi trên từng tài liệu. Chúng tôi chọn mô hình

chủ đề Nn LDA vì theo Blei và cộng sự [17], đây là mô hình xác suất tốt ở mức độ tài

liệu, ngoài ra mô hình còn cho chất lượng tốt khi gặp tài liệu không nằm trong tập dữ

liệu học. Do đó, các đặc trưng được bổ xung từ mô hình chủ đề Nn LDA có chất lượng

tốt. Nhờ vậy mà có thể cải tiến kết quả của bộ phân lớp dữ liệu đa nhãn.

Phát biểu bài toán :Mô hình xây dựng đặc trưng tiến hành tạo lập vector đặc

trưng cho văn bản từ những từ khóa trong tập dữ liệu học và những đặc trưng về xác

suất topic trong mô hình chủ đề Nn LDA. Mô hình lựa chọn đặc trưng và giảm thiểu

những đặc trưng ít có giá trị bằng phương lựa chọn đặc trưng dựa vào độ tương hỗ MI.

Việc xây dựng vector đặc trưng như trên được áp dụng vào bộ phân lớp dữ liệu đa

nhãn trong hệ thống đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam.

Đầu vào :

• Một tập văn bản (text) về các nhận xét của người dùng của

1000 khách sạn ở Việt Nam.

• Tập dữ liệu bài báo, nhận xét, giới thiệu về lĩnh vực khách

sạn

Đầu ra :

• Phân loại từng nhận xét của người dùng vào từng lớp

tương ứng. Trong mỗi lớp tương ứng có phân loại đánh giá tốt, đánh

giá xấu

Các pha chính :

• Huấn luyện mô hình

Page 30: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

18

• Phân lớp đa nhãn sử dụng mô hình huấn luyện

3.2. Mô hình đề xuất

Từ những nghiên cứu đã đề cập ở trên, khóa luận đề xuất hệ thống phân lớp đa

nhãn sử dụng phương pháp bổ xung đặc trưng bằng mô hình chủ đề Nn LDA và lựa

chọn đặc trưng dựa trên độ tương hỗ MI. Hệ thống được mô tả một cách tổng quan

như sau.

Hình 3.1: Mô hình đề xuất

Tập kết quả

Mô hình phân lớp dữ liệu đa nhãn

Biểu diễn vector đặc trưng

Bộ phân lớp dữ liệu đa nhãn

Lựa chọn đặc trưng

Xây dựng vector đặc trưng

Tập dữ liệu chủ đề Nn

Mô hình xác suất Mô hình xác suất tham chiếu chủ đề Nn

Dữ liệu kiểm tra Dữ liệu học Tiền xử lý dữ liệu

Page 31: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

19

Chi tiết về các bước trong mỗi pha cũng như chi tiết về giải pháp đề xuất được

trình bày ở mục 3.1, 3.3 và 3.4.

3.3. Pha 1. Huấn luyện mô hình

Khóa luận tập trung xây dựng mô hình phân lớp dữ liệu đa nhãn, trong đó, có bổ

xung các đặc trưng từ mô hình chủ đề Nn. Để xây dựng được tập đặc trưng từ mô hình

chủ đề Nn, khóa luận cần xây dựng một mô hình xác suất để xác định các chủ đề, các

từ khóa đại diện cho một chủ đề và xác suất của từ khóa trên chủ đề. Sau khi xác định

được tập đặc trưng bổ xung, khóa luận sẽ áp dụng phương pháp lựa chọn đặc trưng

dựa vào độ tương hỗ MI để đưa ra tập đặc trưng phù hợp cho quá trình phân lớp. Cuối

cùng, là việc học bộ phân lớp dữ liệu đa nhãn để tiến hành đánh giá danh tiếng cho

1000 khách sạn ở Việt Nam.

3.3.1. Xây dựng tập đặc trưng bổ xung từ mô hình chủ đề �n LDA

Với mô hình chủ đề Nn, từ tập dữ liệu là sẽ cho đầu ra là các chủ đề và phân phối

xác suất của các chủ đề trên từng tài liệu. Ở đây, khóa luận sử dụng tập phân phối xác

suất của các chủ đề trên mỗi tài liệu là thành phần của tập đặc trưng bổ xung.

Giả sử chúng ta xác định được K topic từ tập dữ liệu học. Với mỗi tài liệu d,

khóa luận tính các xác suất để tài liệu d thuộc vào topic i là pd(i), với i=1,…,k.

Từ đó xác định được tập đặc trưng bổ xung từ mô hình chủ đề Nn LDA là :

T(d)=[pd1, pd2, …, pdk]

Xét ví dụ: có 4 topic, tài liệu đầu vào d, có phân bố xác suất trên 4 topic như

bảng sau :

Bảng 3.1: Ví dụ về kết quả của mô hình chủ đề 4n cho tài liệu t

Chủ đề Xác suất Từ khóa đại diện

Topic 1 0.924 Nhân viên, tốt, phục vụ, nhiệt tình, thân thiện,…

Topic 2 0.001 Sáng, ngon, món, nhiều, được,…

Topic 3 0.002 Đẹp, view, hướng, rộng, vườn,…

Topic 4 0.065 Gần, trung tâm, vị trí, đường, ….

…. … …..

Page 32: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

20

Khi đó tập đặc trưng bổ xung từ mô hình chủ đề Nn là:

T(d) = [0.924, 0.001, 0.002, 0.065,…]

3.3.2. Xây dựng vector đặc trưng

Trong mô hình này, khóa luận coi mỗi nhận xét của người dùng là một tài liệu.

Giả sử tập tài liệu là D = {d1, d2, …., dm}. Khóa luận sử dụng các đặc trưng TF.IDF

trong quá trình phân lớp dữ liệu đa nhãn :

TF.IDF là một kỹ thuật thống kê đánh giá ý nghĩa, độ quan trọng của một cụm

đối với một văn bản, hoặc môt lớp.

• Term Frequency (TF) là độ đo tần số : tần suất xuất hiện của cụm

từ trong một văn bản:

1c4,� =Z4,�

∑ Z[,�[

Trong đó : Z4,� là tần suất xuất hiện của từ khóa ti trong tài liệu j.

• Inverse Document Frequency (IDF) là độ đo tổng quát độ quan

trọng của cụm từ :

PSc4 = ���|O|

|{S: 14 ∈ S}|

Trong đó :

� |D| là số lượng tài liệu trong tập D

� |{S: 14 ∈ S}| là số lượng tài liệu mà từ khóa ti xuất hiện

Từ đó TF.IDF được tính bằng công thức :

1c. PSc = 1c × PSc

Trọng số TF.IDF của một từ mục biểu diễn độ quan trọng của từ mục. TF.IDF

của một từ mục trong một tài liệu sẽ giảm nếu như từ đó xuất hiện trong hầu hết các

văn bản. Vì vậy, một từ xuất hiện quá ít hoặc quá nhiều được đánh giá ít quan trọng

hơn so với các từ xuất hiện cân bằng.

Khi đó, khóa luận thu được vector trọng số TF.IDF từ tập các từ khóa trong dữ

liệu học là :

Page 33: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

21

D(d) = (tfidf(d,1), tfidf(d,2), …., tfidf(d,n))

Với n là số lượng các từ khóa riêng biệt

Vector đặc trưng cho chủ đề Nn đối với mỗi dữ liệu là :

T(d) = (pd1, pd2, …, pdk)

Kết hợp hai vector D(d) và T(d) ở trên, khóa luận thu được vector đại diện cho

dữ liệu V(d) :

V(d) = (tfidf(t1,d), tfidf(t2,d), …., tfidf(tm,d), pd1, pd2, …., pdk)

3.3.3. Lựa chọn đặc trưng

Việc lựa chọn đặc trưng của khóa luận sử dụng độ đo MI như đã trình bày ở phần

2.2. Tuy nhiên, điểm khác biệt của khóa luận là áp dụng phương pháp này trong việc

lựa chọn tập đặc trưng cho mô hình phân lớp dữ liệu đa nhãn bằng phương pháp

chuyển đổi nhị phân. Tập dữ liệu đa nhãn sau khi áp dụng chuyển đổi nhị phân về các

bộ phân lớp đơn nhãn, tiếp đó, khóa luận tiến hành lựa chọn tập đặc trưng tối ưu cho

các bộ phân lớp đơn nhãn trên. Và cuối cùng tập đặc trưng thu được sẽ là tập hợp đặc

trưng của các tập đặc trưng nhỏ chọn được ở trên.

Thuật toán lựa chọn đặc trưng được thể hiện khá đơn giản như sau :

Đầu vào : Tập đặc trưng ban đầu

Đầu ra : Tập đặc trưng lựa chọn

Các bước :

1. Tính độ MI của mỗi đặc trưng với các nhãn lớp 2. Duyệt đối với mỗi bộ phân lớp nhị phân của mỗi nhãn lớp

2.1. Lựa chọn một đặc trưng có MI cao nhất đối với nhãn lớp trên 2.2. Duyệt mỗi đặc trưng

2.2.1. Lựa chọn đặc trưng sao cho giá trị MI của tập đặc trưng lựa chọn là cao nhất.

2.2.2. Kiểm tra bằng cách loại bỏ lần lượt các đặc trưng ứng viên đặc trưng, nếu việc loại bỏ làm tăng giá trị MI thì tập đặc trưng loại bỏ được thay thế tập đặc trưng cũ.

2.2.3. Kiểm tra tính dừng của thuật toán. 3. Tổng hợp tập đặc trưng từ các tập đặc trưng nhỏ của mỗi bộ phân lớp.

Page 34: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

22

3.3.4. Phân lớp đa nhãn

Phương pháp chuyển đổi nhị phân là phương pháp này xây dựng |L| bộ phân lớp

nhị phân : 5�: � → {�; −�} cho L nhãn khác nhau. Dữ liệu trong mỗi bộ phân lớp được

gán nhãn l1 nếu nó thuộc lớp L1, các dữ liệu khác được gán nhãn – ��. Phương pháp

này là phương pháp hiểu quả nhất để sử dụng bộ phân lớp nhị phân vào phân lớp đa

nhãn. Hình 6, biểu diễn bốn tập dữ liệu kết quả thu được khi sử dụng phương pháp

chuyển đổi nhị phân. Theo [22], phương pháp này đã được sử dụng rất hiệu quả bởi

Boutell (2004) , Goncalves và Quaresma (2003) , Lauser và Hotho (2003) , Li và

Ogihara (2003) .

Hình 3.2 : Bốn tập dữ liệu được tổ chức phân lớp theo chuyển đổi nhị phân

Áp dụng phương pháp chuyển đổi nhị phân trên đây cho việc phân lớp miền dữ

liệu khách sạn ở 1000 khách sạn ở Việt Nam, khóa luận tiến hành xây dựng tập các

nhãn (lớp) trên lĩnh vực này như sau :

• Sự phục vụ của nhân viên : Dữ liệu thuộc lớp này bao gồm:

o Những đánh giá về thái độ phục vụ của nhân viên khách sạn bao gồm :

lễ tân, dọn phòng, bảo vệ, quản lý, nhân viên nhà hàng, ...

o Các dịch vụ phục vụ đi kèm

• Chất lượng phòng, khách sạn : Bao gồm các đánh giá dưới hình thức sau :

Page 35: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

23

o Nhận xét cảm tưởng chung về khách sạn

o Nhận xét về chất lượng phòng ốc

• Chất lượng đồ ăn :Bao gồm các đánh giá về chất lượng đồ ăn, bữa ăn.

• Vị trí và giá cả : Dữ liệu lớp này bao gồm :

o Những đánh giá về vị trí, không gian, mức độ thuận lợi mà khách sạn

mang lại cho khách hàng

o Những đánh giá về giá cả phòng, giá đồ ăn và giá các dịch vụ đi kèm.

• Trang thiết bị : Bao gồm các đánh giá về trang thiết bị, nội thất của khách sạn.

Tuy nhiên, với yêu cầu của bài toán quản lý danh tiếng thì các nhận xét của

người dùng còn phải được đánh giá xem nó thuộc vào lớp tích cực hay tiêu cực. Từ đó,

bộ phân lớp của hệ thống sẽ bao gồm hai bộ phân lớp nhỏ :

o Bộ phân lớp thứ nhất : Bao gồm 5 bộ phân lớp nhị phân cho năm lớp : Sự phục

vụ của nhân viên ; chất lượng phòng, khách sạn ; chất lượng đồ ăn ; vị trí và

giá cả ; trang thiết bị

o Bộ phân lớp thứ hai : Bao gồm 10 bộ phân lớp nhị phân cho 2 lớp : Lớp tích

cực ; lớp tiêu cực cho mỗi lớp lớn ở trên.

3.4. Pha 2. Phân lớp sử dụng mô hình huấn luyện

Dữ liệu thực nghiệm là dữ liệu về đánh giá của người dùng về 1000 khách sạn ở

Việt Nam. Kết quả của dữ liệu sau pha 2, sẽ là tập nhận xét của người dùng được phân

lớp vào 5 lớp tương ứng ở phần 3.3.4 và với mỗi lớp sẽ có đánh giá tốt xấu tương ứng.

3.4.1. Tiền xử lý dữ liệu

Tập dữ liệu huấn luyện trong các kĩ thuật học máy giám sát luôn đòi hỏi phải

được làm sạch trước khi đưa vào huấn luyện. Trên Internet có rất nhiều thông tin xuất

hiện dưới nhiều dạng khác nhau. Để lọc nhiễu cho dữ liệu huấn luyện, chúng ta phải

loại bỏ đi những thông tin dưới dạng hình ảnh, âm thanh, quảng cáo, thông tin không

nằm trong nội dung của trang web, các thẻ html,…

Sau khi lọc nhiễu, dữ liệu sẽ được đưa qua module tách câu. Mỗi câu được biểu

diễn trên một dòng. Module tách câu sẽ lọc dữ liệu, loại bỏ những câu cảm thán,

những câu không có nghĩa.

Page 36: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

24

Ví dụ, nội dung của một nhận xét của khách hàng trong lĩnh vực khách sạn sau

khi đi qua bộ tách câu như sau:

Sau đó dữ liệu được loại bỏ những câu cảm thán, câu không có ý nghĩa như sau:

3.4.2. Lựa chọn đặc trưng

Tập dữ liệu sau khi được tách câu và loại bỏ các câu không có giá trị, mỗi câu

thu được sẽ được biểu diễn dưới dạng câu đặc trưng đầu vào cho bộ phân lớp.

Mỗi câu sau khi đi qua mô hình xác suất tham chiếu chủ đề Nn sẽ thu được tập

đặc trưng chủ đề Nn tương ứng. Sau đó, khóa luận kết hợp các đặc trưng chủ đề Nn với

các đặc trưng TF.IDF. Sau cùng, khóa luận biểu diễn câu dưới dạng vector đặc trưng

có các thành phần đã lựa chọn.

3.4.3. Đánh giá độ chính xác của hệ thống

Đánh giá kết quả phương pháp phân lớp văn bản có thể được tính toán theo nhiều

cách khác nhau. Theo khảo sát của Sebastiani [23], độ đo phổ biến nhất được sử dụng

để đánh giá phân lớp là độ hồi tưởng và độ chính xác

Kí hiệu :

Tôi đã ở đây 3 đêm, đó là khoảng thời gian tuyệt vời, tiện nghi vàthoải mái.

Giá cả thì tuyệt vời, trên của sự mong đợi, mà chất lượng phòng thì không có gì để bàn cãi.

Cảm ơn!

Tôi đã ở đây 3 đêm, đó là khoảng thời gian tuyệt vời, tiện nghi và thoải mái.

Giá cả thì tuyệt vời, trên của sự mọng đơi, mà chất lượng phòng thì không có gì để bàn cãi.

Page 37: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

25

Bảng 3.2: Bảng ký hiệu

Lớp Ci Dữ liệu thực

Thuộc lớp Ci Không thuộc lớp Ci

Dự đoán Thuộc lớp Ci TPi TNi

Không thuộc lớp Ci FPi FNi

Trong đó :

TPi (true positives): số lượng ví dụ dương được thuật toán phân đúng vào lớp

Ci

TNi (true negatives): số lượng ví dụ âm được thuộc toán phân đúng vào lớp Ci.

FPi (false positives) : số lượng ví dụ dương được thuật toán phân sai vào Ci.

FNi (false negatives) : số lượng ví dụ âm được thuật toán phân sai vào Ci.

Độ chính xác Pri của lớp Ci là tỷ số ví dụ dương được thuật toán phân lớp cho giá

trị đúng trên tổng số ví dụ được thuật toán phân lớp vào lớp Ci:

j�4 =kj4

kj4 + k"4

Độ hồi tưởng Rei của lớp Ci là tỷ lệ số ví dụ dương được thuật toán phân lớp cho

giá trị đúng trên tổng số ví dụ dương thực sự thuộc lớp Ci :

lm4 =kj4

kj4 + nj4

Do nhóm thực hiện phân lớp tập dữ liệu thành 10 lớp, nên độ chính xác và độ hồi

tưởng cần được tính cho toàn bộ tập 10 lớp. Nhóm sử dụng 3 độ đo trong [22] để đánh

giá độ chính xác của hệ thống với D là số nhãn lớp là :

Accuracy :

@A(O) =1

|O| : kj4 + n"4kj4 + k"4 + nj4 + n"4

|o|

4=�

Precision :

Pr�O� = 1|O| : kj4

kj4 + k"4

|o|

4=�

Page 38: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

26

Recall:

lm�O� = 1|O| : kj4

kj4 + nj4

|o|

4=�

Kết luận chương ba Chương ba của khóa luận trình bày về tư tưởng chính của phương pháp đề xuất

cho bài toán xây dựng đặc trưng cho phân lớp dữ liệu đa nhãn dựa trên mô hình chủ đề

Nn và phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ. Khóa luận cũng đã giới

thiệu chi tiết các pha cũng như các bước trong từng pha của phương pháp đề xuất.

Trong chương tiếp theo, khóa luận tiến hành thực nghiệm trên phương pháp đã

xây dựng và đánh giá kết quả đạt được của phương pháp đề xuất.

Page 39: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

27

CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

Dựa vào mô hình đề xuất ở chương 3, khóa luận tiến hành thực nghiệm việc đánh

giá danh tiếng 1000 khách sạn ở Việt Nam dựa vào tập nhận xét của người dùng bằng

Tiếng Việt. Để làm rõ kết quả của mô hình đề xuất trong chương 3, khóa luận tiến

hành 4 thực nghiệm nhỏ :

• Thực nghiệm 1 : Thực hiện việc phân lớp mà không qua pha bổ xung đặc trưng

chủ đề Nn và pha lựa chọn đặc trưng. Tức là phân lớp dựa trên tập đặc trưng

TF.IDF của tập dữ liệu đầu vào.

• Thực nghiệm 2 : Thực hiện việc phân lớp sử dụng pha bổ xung đặc trưng

nhưng không sử dụng pha lựa chọn đặc trưng. Tức là phân lớp dựa trên tập đặc

trưng bổ xung TF.IDF và tập đặc trưng chủ đề Nn.

• Thực nghiệm 3 : Thực hiện việc phân lớp sử dụng pha lựa chọn đặc trưng

nhưng không sử dụng pha bổ xung đặc trưng. Tức là phân lớp dựa trên tập đặc

trưng TF.IDF đã qua lựa chọn.

• Thực nghiệm 4 : Thực hiện việc phân lớp mà sử dụng cả 2 pha : bổ xung đặc

trưng và lựa chọn đặc trưng. Tức là thực hiện toàn bộ các pha trong mô hình đề

xuất ở chương 3.

4.1. Môi trường và các cộng cụ sử dụng thực nghiệm

4.1.1. Cấu hình phần cứng

Bảng 4.1. Cấu hình hệ thống thử nghiệm

Thành phần Chỉ số

CPU 2.2 GHz Core Duo Intel

RAM 2GB

OS Windows7

Bộ nhớ ngoài 320GB

Page 40: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

28

4.1.2. Các phần mềm sử dụng

Bảng 4.2: Công cụ phần mềm sử dụng

STT Tên phần

mềm

Tác giả Chức năng Nguồn

1 Eclipse-

SDK-3.5-

win32

Môi trường

phát triển

http://www.eclipse.org/downl

oads

2 WordSeg Phạm Đức

Đăng,

Trần Bình

Giang,

Phạm Bảo

Sơn

Tách câu, tách

từ

3 GibbsLDA+

+

Phan Xuân

Hiếu

Xây dựng các

đặc trưng topic

http://gibbslda.sourceforge.ne

t

Ngoài các công cụ trên, khóa luận tiến hành cài đặt các module xử lý dựa trên

ngôn ngữ Java, bao gồm các package chính như sau :

1. Module crawler : Tiến hành Crawl nội dung trang web, phân tích lấy ra các mô

tả về các khách sạn, làm dữ liệu cho mô hình LDA.

2. Module VNStopWordDetector : ChuNn hóa các nội dung thu được bởi module

crawl như loại bỏ từ dừng, các ký hiệu vô nghĩa, các nội dung trống.

3. Module topicmodel : Xây dựng các đặc trưng chủ đề Nn.

4. Module mutualInformation : Tiến hành lựa chọn đặc trưng dựa vào độ tương hỗ

(MI).

5. Module classifier.opinion : Tiến hành phân lớp quan điểm.

6. Module Test : Tiến hành đánh giá độ chính xác của hệ thống.

4.2. Xây dựng tập dữ liệu thử nghiệm

Khóa luận thực nghiệm trên miền dữ liệu là các đánh giá của khách hàng về 1000

khách sạn ở Việt Nam. Tập đánh giá của người dùng được thu thập từ website

Page 41: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

29

http://www.chudu24.com. Các đánh giá có cấu trúc là gồm : người đánh giá, khách

sạn, thời gian và nội dung ý kiến.

Tập dữ liệu là 3700 câu. Tập dữ liệu chia thành hai tập rời nhau : Tập dữ liệu

huấn luyện và tập dữ liệu kiểm tra. Trong đó, tập dữ liệu huấn luyện được gán nhãn

bằng tay.

Bảng 4.3 : Tập dữ liệu thực nghiệm

Tổng số tài liệu 3700 câu

Tập dữ liệu học 3200 câu

Tập dữ liệu kiểm tra 500 câu

Dữ liệu dùng cho huấn luyện cùng với số lượng tài liệu cho mỗi lớp được mô tả

như sau :

Bảng 4.4: Tập dữ liệu huấn luyện

STT Phân lớp 1 Phân lớp 2 Ký hiệu Số lượng tài

liệu

1 Sự phục vụ của

nhân viên

Tích cực NV-T 632

2 Tiêu cực NV-X 242

3 Chất lượng phòng,

khách sạn

Tích cực P-KS-T 654

4 Tiêu cực P-KS-X 345

5 Vị trí và giá cả Tích cực VT-GC-T 426

6 Tiêu cực VT-GC-X 255

7 Chất lượng đồ ăn Tích cực DA-T 423

8 Tiêu cực DA-X 368

9 Trang thiết bị Tích cực TTB-T 233

10 Tiêu cực TTB-X 355

Ngoài ra, khóa luận còn tiến hành thu thập tập dữ liệu về các bài báo, giới thiệu, nhận xét về lĩnh vực khách sạn ở Việt Nam để làm đầu vào cho quá trình thực hiện chủ đề Nn LDA.

Page 42: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

30

Bảng 4.5: Tập dữ liệu cho mô hình chủ đề 4n

STT Trang website Tài liệu thu được

1 http://vi.hotels.com 7837

2 http://www.dulichnamchau.vn 2525

3 http://www.dulichanz.com 925

4 http://bookhotel.vn 168

5 http://www.dulichvtv.com 1701

6 http://chudu24.com 9049

4.3. Thử nghiệm

Quá trình thực nghiệm gồm các bước chính sau đây

• Xử lý dữ liệu : Tiền xử lý dữ liệu, xây dựng tập tài liệu học cho mô hình phân

lớp, tập tài liệu cho mô hình LDA và vector hóa dữ liệu.

• Xây dựng hàm lựa chọn đặc trưng : Tiến hành lựa chọn tập đặc trưng từ tập đặc

trưng đã có bằng các sử dụng đô đo tương hỗ MI.

• Xây dựng hàm phân lớp : Tiến hành xây dựng hàm phân lớp dữ liệu đa nhãn

bằng các xây dựng các bộ phân lớp nhị phân chuyển đổi.

• Tiến hành đánh giá danh tiếng cho 1000 khách sạn theo mô hình tối ưu nhất

Thiết kế thực nghiệm

Để đánh giá sử ảnh hưởng của chủ đề Nn và việc lựa chọn đặc trưng đối với kết

quả của bộ phân lớp, khóa luận tiến hành cài đặt 4 thực nghiệm như sau :

• Thực nghiệm 1 : Thực hiện việc phân lớp mà không qua pha bổ xung đặc trưng

chủ đề Nn và pha lựa chọn đặc trưng. Tức là phân lớp dựa trên tập đặc trưng

TF.IDF của tập dữ liệu đầu vào.

• Thực nghiệm 2 : Thực hiện việc phân lớp sử dụng pha bổ xung đặc trưng

nhưng không sử dụng pha lựa chọn đặc trưng. Tức là phân lớp dựa trên tập đặc

trưng bổ xung TF.IDF và tập đặc trưng chủ đề Nn.

• Thực nghiệm 3 : Thực hiện việc phân lớp sử dụng pha lựa chọn đặc trưng

nhưng không sử dụng pha bổ xung đặc trưng. Tức là phân lớp dựa trên tập đặc

trưng TF.IDF đã qua lựa chọn.

Page 43: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

31

• Thực nghiệm 4 : Thực hiện việc phân lớp mà sử dụng cả 2 pha : bổ xung đặc

trưng và lựa chọn đặc trưng. Tức là thực hiện toàn bộ các pha trong mô hình đề

xuất ở chương 3.

4.4. Kết quả thực nghiệm

Khóa luận tiến hành thực nghiệm trên tập dữ liệu như ở bảng 5. Khóa luận chia

dữ liệu kiểm tra thành 5 phần là Data1, …, Data5. Sau đó, khóa luận tiến hành thực

nghiệm theo bốn tình huống mô tả ở 4.3.

Thực nghiệm 1: Phân lớp dựa trên tập đặc trưng TF.IDF của tập dữ liệu đầu

vào.

Bảng 4.6: Kết quả của thực nghiệm 1

Precision Recal Accuracy

TN1 69.86% 79.80%

75.92%

TN2 74.74% 84.84%

78.95%

TN3 68.68% 77.77%

74.74%

TN4 59.10% 34.85%

32.99%

TN5 65.83% 73.5%

68.44%

Tổng hợp

67.65% 70.25% 66.31%

Thực nghiệm 2 : Phân lớp dựa trên tập đặc trưng TF.IDF kết hợp với tập dữ

liệu chủ đề Nn LDA

• Với số lượng chủ đề là 15 chủ đề

Page 44: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

32

Bảng 4.7: Kết quả thực nghiệm 2 với số chủ đề là 15

Precision Recal Accuracy

TN1 70.88% 80.8% 76.94%

TN2 74.24% 84.84% 78.45%

TN3 67.68% 76.77% 73.74%

TN4 60.27% 35.86% 33.84%

TN5 66.83% 74.51% 69.44%

Tổng hợp 67.89% 70.56% 66.58%

• Với số lượng chủ đề là 20 chủ đề

Bảng 4.8: Kết quả thực nghiệm 2 với số chủ đề là 20

Precision Recal Accuracy

TN1 74.41% 84.85% 80.47%

TN2 72.73% 82.83% 76.94%

TN3 67.17% 75.76% 73.23%

TN4 59.06% 35.35% 33.5%

TN5 67.97% 76.47% 71.57%

Tổng hợp 68.27% 71.05% 67.14%

• Với số lượng chủ đề là 25 chủ đề

Bảng 4.9: Kết quả thực nghiệm 2 với số chủ đề là 25

Precision Recal Accuracy

TN1 69.02% 80.8% 74.41%

TN2 73.73% 83.84% 77.95%

TN3 66.16% 75.76% 72.22%

TN4 61.95% 36.87% 34.93%

TN5 68.79% 76.47% 71.41%

Tổng hợp 67.93% 70.75% 66.18%

Page 45: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

33

Sau thực nghiệm 1 và thực nghiệm 2, chúng ta có bảng so sánh kết quả như sau

Hình 4.1: So sánh kết quả thực nghiệm 1 và thực nghiệm 2

Từ đây khóa luận nhận thấy đặc trưng chủ đề Nn LDA với 20 topic cho kết quả

khả quan. Chính vì thế trong thực nghiệm 4 của khóa luận, chúng tôi sẽ dùng đặc trưng

chủ đề Nn với 20 topic để bổ xung.

Thực nghiệm 3 : Phân lớp dựa trên tập đặc trưng TF.IDF có qua lựa chọn đặc

trưng

Bảng 4.10: Kết quả thực nghiệm 3

Precision Recal Accuracy

TN1 70.01% 79.79% 74.40%

TN2 70.03% 78.79% 73.79%

TN3 68.34% 76.47% 73.34%

TN4 64.32% 38.38% 36.25%

TN5 66.82% 69.25% 65.04%

Tổng hợp 67.57% 68.93% 66.18%

Thực nghiệm 4 : Phân lớp dựa trên tập đặc trưng TF.IDF kết hợp với tập dữ liệu chủ đề Nn LDA với 20 chủ đề và có qua pha lựa chọn đặc trưng.

63

64

65

66

67

68

69

70

71

72

TN1 TN2-15 TN2-20 TN2-25

Precision

Recal

Accuracy

Page 46: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

34

Bảng 4.11: Kết quả thực nghiệm 4

Precision Recal Accuracy

TN1 69.88% 79.93% 75.93%

TN2 75.77% 85.86% 79.97%

TN3 68.18% 76.77% 75.24%

TN4 60.1% 36.35% 34.5%

TN5 67.82% 76.49% 70.42%

Tổng hợp 68.35% 71.3% 67.21%

Sau đây là biểu đồ thể hiện kết quả tổng hợp từ bốn trường hợp thực nghiệm

nhỏ

Hình 4.2: So sánh 4 thực nghiệm

Dựa vào kết quả đánh giá bộ phân lớp, khóa luận nhận thấy bộ phân lớp đa nhãn sử dụng tập đặc trưng cải tiến cho kết quả tốt hơn (68.35%). Chính vì thế, khóa luận sẽ áp dụng bộ phân lớp đa lớp trên vào bài toán quản lý danh tiếng, kết quả của đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam như sau :

63

64

65

66

67

68

69

70

71

72

TN1 TN2-20 TN3 TN4

Precision

Recal

Accuracy

Page 47: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

Hình 7 : Giao diện h

4.5. Đánh giá hệ th

Khóa luận đã sử dụng ba

thống. Kết quả thực nghiệm cho th

khả thi với độ precision đạt 68.

module xây dựng tập đặc trư

35

n hệ thống đánh giá danh tiếng cho 1000 khách s

thống

ng ba độ đo : precision, recal và accuracy đ

m cho thấy mô hình hệ thống đề xuất ở chương ba mang tính

t 68.35% và đã cải tiến so với bộ phân lớp khi ch

c trưng là 67.65%.

ng cho 1000 khách sạn

o : precision, recal và accuracy để đánh giá hệ

ương ba mang tính

p khi chưa sử dụng

Page 48: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

36

Kết luận

Qua quá trình tìm hiểu về bài toán quản lý danh tiếng, khóa luận đã thấy được vai

trò của việc phân lớp dữ liệu đa nhãn. Khóa luận đã nêu bật nên được sức ảnh hưởng

của việc lựa chọn đặc trưng đối với bộ phân lớp dữ liệu đa nhãn. Từ đó, khóa luận đã

đề xuất ra mô hình xây dựng tập đặc trưng dựa vào các đặc trưng mở rộng từ mô hình

chủ đề Nn và phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ MI.

Khóa luận đã đạt được các kết quả sau đây:

• Giới thiệu về bài toán quản lý danh tiếng, nêu lên vai trò, tầm quan trọng của

việc xử lý dữ liệu đa nhãn trong bài toán quản lý danh tiếng.

• Trình bày và chỉ ra được phương pháp cải tiến bộ phân lớp dữ liệu đa nhãn

bằng cách sử dụng các đặc trưng mô hình chủ đề Nn và lựa chọn đặc trưng dựa

vào độ tương hỗ

• Đề xuất và cài đặt thực nghiệm về mô hình xây dựng tập đặc trưng như trên và

ứng dụng vào bộ phân lớp đa nhãn để đánh giá danh tiếng cho 1000 khách sạn

ở Việt Nam.

• Kết quả thực nghiệm đã cho thấy mô hình đề xuất đã cải tiến độ chính xác so

với mô hình chưa cải tiến là từ (67.65%) lên (68.35%).

Tuy nhiên, do hạn chế về mặt thời gian và kiến thức nên khóa luận vẫn tồn tại

một số hạn chế như : Chưa áp dụng thực nghiệm trên miền dữ liệu phong phú, các

thuật toán phân lớp sử dụng chưa phong phú…

Trong thời gian tới, chúng tôi sẽ tiếp tục mở rộng khóa luận bằng cách sử dụng

nhiều thuật toán phân lớp khác nhau, từ đó rút ra được thuật toán phù hợp nhất. Ngoài

ra, chúng tôi sẽ tiếp tục mở rộng miền dữ liệu để có thể đánh giá danh tiếng cho các

khách sạn ở Việt Nam một cách tổng quát hơn và có thể áp dụng trong thực tế.

Page 49: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

37

Tài liệu tham khảo

Tài liệu tiếng Anh

[1] Pierce, J. “The world internet project report 2009”. Technical report, The

World Internet Project, 2008.

[2] Guyon, I., Elisseeff, A.“An Introduction to Variable and Feature Selection”. J.

Mach. Lear. Res, 2003. 3, 1157–1182.

[3] Vanessa Gomez-Verdejo, Michel Verleysen va Jerome Fleury. "Infomation-

Theoretic Feature Selection for the Classification of Hysteresis Curves", 2007.

[4] Liu, Ling. “Systematic Measurement of Centralized Online Reputation

Systems” . PhD Thesis, Durham University, 2011.

[5] Yao Wang. “Trust and Reputation Management in Decentralized

Systems”. A Thesis Submitted to the College of Graduate Studies and Research, 2010.

[6] Resnick P. and Zeckhauser R., “Trust among Strangers in Internet

Transactions: Empirical Analysis of eBay’s Reputation System”. NBER Workshop

on Empirical Studies of Electronic Commerce, 2000.

[7] Bing Liu. “Opinion Mining & Summarization - Sentiment Analysis”,

Tutorial given at WWW-2008, April 21, 2008 in Beijing.

[8] Schapire, R.E., Singer, Y.: Boostexter: “A Boosting-Based System for Text

catego-rization”. Machine Learning, 2000. 39, 135–168.

[9] Elisseeff, A., Weston, J.: “A Kernel method for Multi-Labelled

Classification”. Ad-vances in Neural Information Proceesing Systems, 2001. 14, 681–

687.

[10] Zhang, M.-L., Zhou, Z.-H.: ML-KNN: “A Lazy Learning Approach to Multi-

Label Learning”. Pattern Recogn, 2007. 40, 2038–2048.

[11] Gauthier Doquire and Michel Verleysen. “Feature Selection for Multi-label

classification problems”, 2009.

Page 50: ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG I H ỌC …thuyhq/Student_Thesis/K53_Phan_Thi...ĐẠI H ỌC QU ỐC GIA HÀ N ỘI TR ƯỜNG ĐẠI H ỌC CÔNG NGH Ệ Phan Th

38

[12] Read, J.:”A Pruned Problem Transformation Mathod for Multi-label

Classification”. In: New Zealand Computer Science Research Student Conference

(NZCSRS 2008), pp. 143–150.

[13] Laudon, J. and Laudon, K. “Management Information Systems: Managing the

Digital Firm & Multimedia”. Prentice Hall, 2007, 10th edition.

[14] Stair, R. M., Reynolds, G. and Reynolds, G. W. “Principles of Information

System”. Course Technology, 2010, 9th edition.

[15] Hoffman, K., Zage, D. and Nita-Rotaru, C. “A survey of attack and defense

techniques for reputation systems”. ACM Computing Surveys, 2009. 42(1), 1-31.

[16] Zheng, W. and Jin, L. “Online reputation systems in web 2.0 era”. In Americas

Conference on Information Systems (AMCIS) Proceedings, 2009. 296-306.

[17] D. Blei, A., Ng, and M. Jordan. “Latent Dirichlet Allocation”. In Journal of

Machine Learning Research,tháng 1/2003. 993-1022.

[18] T. Hofmann. “Probabilistic LSA”. Proc. UAI, 1999.

[19] Heinrich, G., “Parameter Estimation for Text Analysis”, In Proc. UAI.

[20] Surender Reddy Yerva, Zolan Mikos, and Karl Aberer.“It was easy, when

apples and blackberries were only fruits”. WePS-3, 2010.

[21] Le Dieu Thu. “On the analysis of large-scale datasets towards online

contextual advertising”, thesis in Coltech of Technology, Viet Nam National

University, Ha Noi, Viet Nam, 2008.

[22] Grigorios Tsoumakas , Ioannis Katakis. “Multi-label Classification : An

Overview”. International Journal of Data Warehousing & Mining, 3(3), 1-13, July-

September 2007.

[23] Fabrizio Sebastiani. “Machine Learning in Automated Text Categorization”.

ACM Computing Survey, 34(1) pages 1-47, 2002.

[24] Gayatri Swamynathan, Kevin C.Almeroth, Ben Y.Zhao. “The design of a

reliable reputation system”. 31-8, 2010.