Transcript
Page 1: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 1 Nguy n Trung Hi u - 0112216

I C M N

Chúng em xin g i l i c m n chân thành nh t n th y H B o Qu c, ng i ã

n tình h ng d n, giúp chúng em trong su t th i gian th c hi n lu n v n này.

Chúng con c m n Cha, M và gia ình, nh ng ng i ã d y d , khuy n khích,

ng viên chúng con trong nh ng lúc khó kh n, t o m i u ki n cho chúng con

nghiên c u h c t p.

Chúng em c m n các th y, cô trong khoa Công Ngh Thông Tin ã dìu d t,

gi ng d y chúng em, giúp chúng em có nh ng ki n th c quý báu trong nh ng n m h c

qua.

m n ch Lê Thúy Ng c và các b n ã t n tình óng góp ý ki n cho lu n v n

a chúng tôi.

c dù r t c g ng nh ng lu n v n c a chúng em không tránh kh i sai sót,

mong nh n c s thông c m và góp ý c a th y cô và các b n.

Tháng 7 n m 2005

Sinh viên

Nguy n Th Thanh Hà – Nguy n Trung Hi u

Page 2: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 2 Nguy n Trung Hi u - 0112216

NH N XÉT C A GIÁO VIÊN H NG D N

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

…………………………………………………………………………………....

……………………………………………………………………………………

Ngày…… tháng……n m 2005

Ký tên

Page 3: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 3 Nguy n Trung Hi u - 0112216

NH N XÉT C A GIÁO VIÊN PH N BI N

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

…………………………………………………………………………………....

……………………………………………………………………………………

Ngày…… tháng……n m 2005

Ký tên

Page 4: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 4 Nguy n Trung Hi u - 0112216

C L C

DANH SÁCH CÁC B NG...................................................................................8DANH SÁCH CÁC HÌNH V ..............................................................................8

Ph n 1 : TÌM HI U LÝ THUY T ..........................................................................11

Ch ng 1: T NG QUAN V TÌM KI M THÔNG TIN ...................................111. Gi i thi u v tìm ki m thông tin ......................................................................11

1.1 Khái ni m v tìm ki m thông tin ................................................................111.2 M t s v n trong vi c tìm ki m thông tin: .............................................11

2. H tìm ki m thông tin – IRS ............................................................................123. Các thành ph n c a m t h tìm ki m thông tin [1.1] ........................................134. So sánh IRS v i các h th ng thông tin khác ...................................................14

4.1 H qu n tr c s d li u (DBMS)..............................................................154.2 H qu n lý thông tin (IMS) ........................................................................154.3 H h tr ra quy t nh (DSS)....................................................................164.4 H tr l i câu h i (QAS) ............................................................................164.5 So sánh IRS v i các h th ng thông tin khác..............................................17

Ch ng 2: XÂY D NG M T H TH NG TÌM KI M THÔNG TIN............181. Ki n trúc c a h tìm ki m thông tin. [1.3]........................................................182. M t s mô hình xây d ng m t h tìm ki m thông tin [1.2]..........................19

2.1 Mô hình không gian vector ........................................................................192.2 Tìm ki m Boolean .....................................................................................212.3 Tìm ki m Boolean m r ng .......................................................................222.4 M r ng trong vi c thêm vào tr ng s c a câu h i .....................................23

2.4.1 M r ng cho s t tu ý ......................................................................232.4.2 Thêm toán t t ng ..........................................................................24

2.5 Mô hình xác su t........................................................................................242.6 ánh giá chung v các mô hình .................................................................25

3. Các b c xây d ng m t h tìm ki m thông tin. [3.2]...................................253.1 Tách t t ng cho t p các tài li u............................................................253.2 L p ch m c cho tài li u .............................................................................253.3 Tìm ki m ...................................................................................................263.4 S p x p các tài li u tr v (Ranking) ..........................................................26

4. Nh ng khó kh n trong vi c xây d ng m t h th ng tìm ki m thông tin ti ngVi t .....................................................................................................................26

4.1 Khó kh n trong vi c tách t ti ng Vi t .......................................................274.2 V n b ng mã ti ng Vi t .........................................................................27

Page 5: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 5 Nguy n Trung Hi u - 0112216

4.3 Các khó kh n khác .....................................................................................27

Ch ng 3: TÁCH T T NG........................................................................291. Tách t trong Ti ng Anh .................................................................................292. Tách t trong Ti ng Vi t .................................................................................29

2.1 M t s c m chính v t ti ng Vi t [2.2]..............................................292.1.1 Ti ng...................................................................................................292.1.2 T .......................................................................................................30

2.2 Tách t t ng ti ng Vi t .........................................................................303. Các ph ng pháp tách t ti ng Vi t.................................................................30

3.1 fnTBL (Fast Transformation-based learning) [3.1].....................................303.1.1 Mô t ...................................................................................................303.1.2 Áp d ng tách t ti ng Vi t...................................................................31

3.2 Longest Matching [1.4]..............................................................................373.3 K t h p gi a fnTBL và Longest Matching.................................................37

Ch ng 4: L P CH M C ..................................................................................381. Khái quát v h th ng l p ch m c...................................................................382. Ph ng pháp l p ch m c [1.1] ........................................................................38

2.1 Xác nh các t ch m c.............................................................................382.2 Các ph ng pháp tính tr ng s c a t ........................................................40

2.2.1 T n s tài li u ngh ch o....................................................................402.2.2 nhi u tín hi u (The Signal – Noise Ratio) ......................................402.2.3 Giá tr phân bi t t (The Term Discrimination Value) .........................42

2.3 L p ch m c t ng cho tài li u ti ng Anh................................................433. L p ch m c cho tài li u ti ng Vi t ..................................................................454. T p tin ngh ch o tài li u ...............................................................................46

4.1 Phân bi t gi a t p tin ngh ch o và t p tin tr c ti p ..................................464.2 T i sao s d ng t p tin ngh ch o l p ch m c .....................................47

Ph n 2 : PHÂN TÍCH VÀ THI T K ....................................................................49

Ch ng 5: PHÂN TÍCH.......................................................................................491. S UseCase h th ng ..................................................................................492. S L p........................................................................................................51

2.1 S các l p th hi n................................................................................512.2 S các l p x lý ....................................................................................52

3. Tách t ............................................................................................................533.1 S UseCase...........................................................................................533.2 S Tu n t ............................................................................................53

Page 6: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 6 Nguy n Trung Hi u - 0112216

3.3 S C ng tác...........................................................................................543.4 S L p ..................................................................................................54

4. L p ch m c.....................................................................................................554.1 S UseCase...........................................................................................554.2 S Tu n t ............................................................................................56

4.2.1 T o m i ch m c .................................................................................564.2.2 C p nh t ch m c.................................................................................57

4.3 S C ng tác...........................................................................................584.3.1 T o m i ch m c .................................................................................584.3.2 C p nh t ch m c.................................................................................59

4.4 S L p ..................................................................................................605. Tìm ki m.........................................................................................................61

5.1 S UseCase...........................................................................................615.2 S Tu n t ............................................................................................615.3 S C ng tác...........................................................................................625.4 S L p ..................................................................................................63

Ch ng 6: THI T K VÀ CÀI T ..................................................................641. C u trúc l u tr d li u....................................................................................64

1.1 T p tin l u n i dung tài li u .......................................................................641.1.1 C u trúc DTD / XSD ...........................................................................641.1.2 Tài li u XML ......................................................................................66

1.2 T p tin sau khi tách t tài li u ....................................................................671.2.1 C u trúc DTD / XSD ...........................................................................671.2.2 Tài li u XML ......................................................................................68

1.3 T p tin ch a các t không th hi n n i dung c a v n b n (stop list) ...........701.3.1 C u trúc DTD / XSD ...........................................................................701.3.2 Tài li u XML ......................................................................................71

1.4 T p tin ch m c o ( Inverted ). ................................................................711.4.1 C u trúc DTD / XSD ...........................................................................711.4.2 Tài li u XML ......................................................................................73

1.5 T p tin sau khi tách t câu h i....................................................................741.5.1 C u trúc DTD / XSD ...........................................................................741.5.2 Tài li u XML ......................................................................................75

1.6 T p tin ch a các t c a câu h i sau khi lo i b các t trong danh sáchStopList ...........................................................................................................76

1.6.1 C u trúc DTD / XSD ...........................................................................761.6.2 Tài li u XML ......................................................................................77

1.7 T p tin ch a các t trong câu h i và các tài li u liên quan..........................771.7.1 C u trúc DTD / XSD ...........................................................................77

Page 7: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 7 Nguy n Trung Hi u - 0112216

1.7.2 Tài li u XML ......................................................................................791.8 T p tin ch a t ng quan gi a câu h i và các tài li u .............................80

1.8.1 C u trúc DTD / XSD ...........................................................................801.8.2 Tài li u XML ......................................................................................82

2. Chi ti t các l p i t ng ................................................................................832.1 Các l p trong quá trình tách t ...................................................................83

2.1.1 S các l p......................................................................................832.1.2 L p tách t ghép..................................................................................832.1.3 L p tách t ..........................................................................................862.1.4 L p giao di n tách t ...........................................................................89

2.2 Các l p trong quá trình l p ch m c ...........................................................912.2.1 S các l p.......................................................................................912.2.2 L p l p ch m c...................................................................................922.2.3 L p giao di n t o m i ch m c ............................................................942.2.4 L p giao di n c p nh t ch m c ...........................................................96

2.3 Các l p trong quá trình tìm ki m................................................................982.3.1 S các l p.......................................................................................982.3.2 L p tìm ki m.......................................................................................992.3.3 L p giao di n tìm ki m .....................................................................105

3. M t s màn hình giao di n khác ....................................................................1093.1 Màn hình chính c a ch ng trình.............................................................1093.2 Màn hình tìm ki m nhi u câu h i .............................................................1103.3 Màn hình tìm ki m chính ( giao di n Web) ..............................................1123.4 Màn hình tr v các tài li u tìm c ( giao di n Web) ............................1133.5 Màn hình chi ti t c a m t tài li u ( giao di n Web)..................................114

Ph n 3 : T NG K T..............................................................................................1151. Ch ng trình th nghi m...............................................................................1152. ánh giá k t qu t c ............................................................................. 1153. H ng phát tri n............................................................................................116TÀI LI U THAM KH O .................................................................................1171. Sách............................................................................................................... 1172. Lu n v n........................................................................................................1173. Website ......................................................................................................... 117

Page 8: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 8 Nguy n Trung Hi u - 0112216

DANH SÁCH CÁC B NG

ng 1-1 So sánh IRS v i các h th ng thông tin khác ..........................................................17ng 4-1 Cách t p tin ngh ch o l u tr ...............................................................................47ng 4-2 Cách t p tin tr c ti p l u tr ...................................................................................47ng 4-3 Thêm m t tài li u m i vào t p tin ngh ch o.........................................................48ng 5-1 Danh sách các Actor...............................................................................................50ng 5-2 Danh sách các UseCase ..........................................................................................50

DANH SÁCH CÁC HÌNH V

Hình 1-1 Môi tr ng c a h tìm ki m thông tin .....................................................................13Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin..........................................14Hình 2-1 H tìm ki m thông tin tiêu bi u...............................................................................18Hình 3-1 Quá trình h c..........................................................................................................35Hình 3-2 Giai n xác nh t cho tài li u m i.....................................................................36Hình 4-1 Các t c s p theo th t ....................................................................................39Hình 4-2 Quá trình ch n t làm ch m c................................................................................45Hình 5-1 S Use-case c a h th ng...................................................................................49Hình 5-2 S các l p th hi n.............................................................................................51Hình 5-3 S các l p x lý .................................................................................................52Hình 5-4 S Use-case tách t ............................................................................................53Hình 5-5 S tu n t tách t ...............................................................................................53Hình 5-6 S c ng tác tách t .............................................................................................54Hình 5-7 S l p tách t .....................................................................................................54Hình 5-8 S use-case l p ch m c .....................................................................................55Hình 5-9 S tu n t t o m i ch m c ................................................................................56Hình 5-10 S tu n t c p nh t ch m c ............................................................................57Hình 5-11 S c ng tác t o m i ch m c ............................................................................58Hình 5-12 S c ng tác c p nh t ch m c ...........................................................................59Hình 5-13 S l p l p ch m c ...........................................................................................60Hình 5-14 S use-case tìm ki m .......................................................................................61Hình 5-15 S tu n t tìm ki m..........................................................................................61Hình 5-16 S c ng tác tìm ki m .......................................................................................62Hình 5-17 S l p tìm ki m ...............................................................................................63Hình 6-1 S l p tách t .....................................................................................................83Hình 6-2 L p tách t ghép.....................................................................................................83

Page 9: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 9 Nguy n Trung Hi u - 0112216

Hình 6-3 L p tách t .............................................................................................................86Hình 6-4 L p giao di n tách t ..............................................................................................89Hình 6-5 Màn hình tách t .....................................................................................................89Hình 6-6 Màn hình chi ti t tách t .........................................................................................90Hình 6-7 S l p l p ch m c .............................................................................................91Hình 6-8 L p l p ch m c......................................................................................................92Hình 6-9 L p giao di n t o m i ch m c................................................................................94Hình 6-10 Màn hình t o m i ch m c ....................................................................................95Hình 6-11 L p Màn hình c p nh t ch m c............................................................................96Hình 6-12 Màn hình c p nh t ch m c ...................................................................................97Hình 6-13 S l p tìm ki m ...............................................................................................98Hình 6-14 L p x lý tìm ki m ...............................................................................................99Hình 6-15 L p giao di n tìm ki m.......................................................................................105Hình 6-16 Màn hình tìm ki m .............................................................................................106Hình 6-17 Xem t khóa câu h i...........................................................................................106Hình 6-18 Xem t khóa tài li u ...........................................................................................107Hình 6-19 Màn hình chính...................................................................................................109Hình 6-20 Màn hình tìm ki m nhi u câu h i........................................................................110Hình 6-21 Giao di n tìm ki m trên Web ..............................................................................112Hình 6-22 Giao di n các tài li u tr v sau khi tìm ki m ......................................................113Hình 6-23 Giao di n chi ti t n i dung c a tài li u ................................................................114

Page 10: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 10 Nguy n Trung Hi u - 0112216

U

Trong th i i bùng n thông tin nh hi n nay, thông tin c l u tr trên máy

tính ngày càng nhi u do ó vi c tìm ki m thông tin chính xác là nhu c u thi t y u i

i m i ng i trong m i l nh v c. Internet hi n nay ã tr thành m t kho t li u kh ng

mà vi c tìm ki m thông tin trên kho t li u này c n ph i c h tr b i các công c

tìm ki m (search engine) t t. Các h th ng tìm ki m thông tin thông d ng nh Google,

Yahoo Search ã áp ng c ph n nào nhu c u ó c a m i ng i. Tuy nhiên, các h

th ng này c xây d ng x lý và tìm ki m các v n b n ti ng Châu Âu, chúng ch a

th t s phù h p cho các v n b n ti ng Vi t. Do ó nhu c u ph i có m t công c tìm

ki m “hi u” và x lý t t các v n b n tí ng Vi t.

Các h tìm ki m thông tin u ph i th c hi n giai n l p ch m c (indexing)

cho v n b n trích các t ch m c (index term) bi u di n t t nh t n i dung c a v n

n. Giai n này ph thu c vào ngôn ng c a v n b n và ph ng pháp x lý t ng

ngôn ng ó. Hi n nay ch a có nhi u h th ng tìm ki m thông tin trên kho tài li u

ti ng Vi t có khai thác các c tr ng c a ti ng Vi t cho vi c l p ch m c.

Vì v y m c tiêu c a lu n v n này nh m xây d ng m t h th ng tìm ki m thông

tin b ng ti ng Vi t có s d ng các k t qu c a x lý ngôn ng t nhiên t ng xác

nh c các ch m c là các t (word) hay t ghép (compound word) c a ti ng Vi t.

Page 11: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 11 Nguy n Trung Hi u - 0112216

Ph n 1 : TÌM HI U LÝ THUY T

Ch ng 1: NG QUAN V TÌM KI M THÔNG TIN

1. Gi i thi u v tìm ki m thông tin

1.1 Khái ni m v tìm ki m thông tin

Tìm ki m thông tin là tìm ki m trong m t t p tài li u l y ra các thông tin mà

ng i tìm ki m quan tâm.

1.2 t s v n trong vi c tìm ki m thông tin:

t nh ng n m 40, các v n trong vi c l u tr thông tin và tìm ki m thông

tin ã thu hút s chú ý r t l n. V i m t l ng thông tin kh ng l thì vi c tìm ki m

chính xác và nhanh chóng càng tr nên khó kh n h n. V i s ra i c a máy tính, r t

nhi u ý t ng l n c a ra nh m cung c p m t h th ng tìm ki m thông minh và

chính xác. Tuy nhiên, v n tìm ki m sao cho hi u qu v n ch a c gi i quy t.

nguyên t c, vi c l u tr thông tin và tìm ki m thông tin thì n gi n. Gi s

có m t kho ch a các tài li u và m t ng i mu n tìm các tài li u liên quan n yêu c u

a mình. Ng i ó có th c t t c các tài li u trong kho, gi l i các tài li u liên quan

và b i các tài li u không liên quan. Rõ ràng gi i pháp này không th c t b i vì t n r t

nhi u th i gian.

Page 12: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 12 Nguy n Trung Hi u - 0112216

i s ra i c a máy vi tính t c cao, máy tính có th “ c” thay cho con

ng i trích ra các tài li u có liên quan trong toàn b t p d li u. Tuy nhiên v n

lúc này là làm sao xác nh c tài li u nào liên quan n câu h i. M c ích c a

t h th ng tìm ki m thông tin t ng là truy l c c t t c các tài li u có liên quan

n yêu c u.

2. tìm ki m thông tin – IRS

Sau ây là nh ngh a v h th ng tìm ki m thông tin c a m t s tác gi : [2.1]

Salton (1989):

“H th ng tìm ki m thông tin x lý các t p tin l u tr và nh ng yêu c u v

thông tin, xác nh và tìm t các t p tin nh ng thông tin phù h p v i nh ng yêu c u v

thông tin. Vi c truy tìm nh ng thông tin c thù ph thu c vào s t ng t gi a các

thông tin c l u tr và các yêu c u, c ánh giá b ng cách so sánh các giá tr c a

các thu c tính i v i thông tin c l u tr và các yêu c u v thông tin.”

Kowalski (1997) :

“H th ng truy tìm thông tin là m t h th ng có kh n ng l u tr , truy tìm và

duy trì thông tin. Thông tin trong nh ng tr ng h p này có th bao g m v n b n, hình

nh, âm thanh, video và nh ng i t ng a ph ng ti n khác.”

Hi u n gi n th ng tìm ki m thông tin là m t h th ng h tr cho ng i

d ng tìm ki m thông tin m t cách nhanh chóng và d dàng. Ng i s d ng có

th a vào nh ng câu h i, nh ng yêu c u (d ng ngôn ng t nhiên) và h th ng s tìm

ki m trong t p các tài li u (d ng ngôn ng t nhiên) ã c l u tr tìm ra nh ng

Page 13: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 13 Nguy n Trung Hi u - 0112216

tài li u có liên quan, sau ó s s p x p các tài li u theo m c liên quan gi m d n và

tr v cho ng i s d ng.

3. Các thành ph n c a m t h tìm ki m thông tin [1.1]

m: t p các tài li u (DOCS) ã c l u tr trong kho d li u, t p các yêu c u

(REQS) c a ng i dùng, và m t s ph ng pháp tính t ng quan (SIMILAR)

xác nh các tài li u áp ng cho các yêu c u.

Hình 1-1 Môi tr ng c a h tìm ki m thông tin

Theo lý thuy t thì m i liên h gi a các câu h i và các tài li u có th so sánh m t

cách tr c ti p. Nh ng trên th c t thì u này không th c vì các câu h i và các t p

tài li u u d ng v n b n, ch có con ng i c vào thì th y ngay c m i liên h

gi a chúng, nh ng ây ch là m t h th ng máy móc không th suy lu n nh con

ng i c. Chính vì th xác nh c m i liên h gi a các câu h i và các t p tài

li u ph i qua m t b c trung gian.

Page 14: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 14 Nguy n Trung Hi u - 0112216

Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin

Tr c h t chuy n i các câu h i thành các t riêng bi t bi u hi n cho n i

dung c a câu h i g i là ngôn ng ch m c (Indexing language - LANG). Tách t trong

các t p tài li u và l p ch m c cho tài li u. Lúc này có th so sánh tr c ti p gi a các t

a câu h i và các t ch m c c a t p tài li u. Và t ó ta s d dàng h n xác nh

t ng quan gi a các câu h i và t p tài li u.

4. So sánh IRS v i các h th ng thông tin khác

th ng tìm ki m thông tin c ng t ng t nh nhi u h th ng x lý thông tin

khác. Hi n nay các h th ng thông tin quan tr ng nh t là: h qu n tr c s d li u

(DBMS), h qu n lý thông tin (MIS), h h tr ra quy t nh (DSS), h tr l i câu h i

(QAS) và h tìm ki m thông tin (IR).

Page 15: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 15 Nguy n Trung Hi u - 0112216

4.1 qu n tr c s d li u (DBMS)

t c h th ng thông tin t ng nào c ng d a trên m t t p các m c c l u

tr (g i là s d li u) c n thi t cho vi c truy c p. Do ó h qu n tr c s d li u

n gi n là m t h th ng c thi t k nh m thao tác và duy trì u khi n c s d

li u.

DBMS t ch c l u tr các d li u c a mình d i d ng các b ng. M i m t c s

li u c l u tr thành nhi u b ng khác nhau. M i m t c t trong b ng là m t thu c

tính, và m i m t dòng là m t b d li u c th . Trong m i m t b ng có m t thu c tính

duy nh t i di n cho b ng, nó không c trùng l p và ta g i ó là khoá chính. Các

ng có m i liên h v i nhau thông qua các khoá ngo i. DBMS có m t t p các l nh

tr cho ng i s d ng truy v n n d li u c a mình. Vì v y mu n truy v n n

CSDL trong DBMS ta ph i h c h t các t p l nh này. Nh ng ng c l i nó s cung c p

cho ta các d li u y và hoàn toàn chính xác. Hi n nay DBMS c s d ng r ng

rãi trên th gi i. M t s DBMS thông d ng : Access, SQL Server, Oracle.

4.2 qu n lý thông tin (IMS)

qu n lý thông tin là h qu n tr c s d li u nh ng có thêm nhi u ch c

nh ng v vi c qu n lý. Nh ng ch c n ng qu n lý này ph thu c vào giá tr c a nhi u

ki u d li u khác nhau. Nói chung b t k h th ng nào có m c ích c bi t ph c v

cho vi c qu n lý thì ta g i nó là h qu n lý thông tin.

Page 16: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 16 Nguy n Trung Hi u - 0112216

4.3 h tr ra quy t nh (DSS)

h tr ra quy t nh s d a vào các t p lu t c h c, t nh ng lu t ã h c

rút ra nh ng lu t m i, sau khi g p m t v n nó s c n c vào vào t p các lu t a

ra nh ng quy t nh thay cho con ng i.

th ng này ang c áp d ng nhi u cho công vi c nh n d ng và chu n óan

nh.

4.4 tr l i câu h i (QAS)

tr l i câu h i cung c p vi c truy c p n các thông tin b ng ngôn ng t

nhiên. Vi c l u tr c s d li u th ng bao g m m t s l ng l n các v n liên

quan n các l nh v c riêng bi t và các ki n th c t ng quát. Câu h i c a ng i dùng có

th d ng ngôn ng t nhiên. Công vi c c a h tr l i câu h i là phân tích câu truy

n c a ng i dùng, so sánh v i các tri th c c l u tr , và t p h p các v n có liên

quan l i a ra câu tr l i thích h p.

Tuy nhiên, h tr l i câu h i ch còn ang th nghi m. Vi c xác nh ý ngh a

a ngôn ng t nhiên d ng nh v n là ch ng ng i l n có th s d ng r ng rãi h

th ng này.

Page 17: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 17 Nguy n Trung Hi u - 0112216

4.5 So sánh IRS v i các h th ng thông tin khác

IRS DBMS QAS MIS

Tìm ki m

i dung

trong các tài

li u.

Các ph n t

có ki u d

li u ã c

nh ngh a.

Các s ki n

rõ ràng.

u tr

Các v n b n

ngôn ng t

nhiên.

Các ph n t

li u

ng b ng.

Các s ki n

rõ ràng và các

ki n th c

ng quát.

Các câu truy

n không

chính xác.

Các câu truy

n có c u

trúc.

Các câu truy

n không

gi i h n.

Gi ng DBMS

nh ng h tr

thêm nh ng

th t c( Tính

ng, tính

trung bình,

phép chi u…)

ng 1-1 So sánh IRS v i các h th ng thông tin khác

Page 18: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 18 Nguy n Trung Hi u - 0112216

Ch ng 2: XÂY D NG M T H TH NG TÌM KI M

THÔNG TIN

1. Ki n trúc c a h tìm ki m thông tin. [1.3]

t h th ng thông tin tiêu bi u nh sau:

Hình 2-1 H tìm ki m thông tin tiêu bi u

th ng tìm ki m thông tin g m có 3 b ph n chính : b ph n phân tích v n

n, b ph n l p ch m c, b ph n so kh p và s p x p các tài li u tr v .

Page 19: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 19 Nguy n Trung Hi u - 0112216

(1) ph n phân tích v n b n: b ph n này có nhi m v phân tích các v n

n thu th p c thành các t riêng bi t. T ng t , khi ng i dùng nh p câu truy v n

thì câu truy v n c ng c phân tích thành các t riêng bi t.

(2) ph n l p ch m c : các t trích c t các v n b n thu th p c s

c b ph n này l a ch n làm các t ch m c. Các t ch m c ph i là các t th

hi n c n i dung c a v n b n.

(3) ph n so kh p và s p x p các tài li u tr v : Các t trích c t câu

truy v n và các t ch m c c a v n b n s c so kh p v i nhau tìm ra các tài li u

liên quan n câu truy v n. M i tài li u có m t t ng quan v i câu h i. Các tài li u

này s c s p x p theo t ng quan gi m d n và tr v cho ng i s d ng.

2. t s mô hình xây d ng m t h tìm ki m thông tin [1.2]

c tiêu c a các h th ng tìm ki m thông tin là tr v các tài li u càng liên

quan n câu h i càng t t. Vì th ng i ta ã a ra r t nhi u mô hình tìm ki m nh m

tính toán m t cách chính xác t ng quan này. Sau ây là m t s mô hình tìm ki m

b n:

2.1 Mô hình không gian vector

Mô hình không gian vector tính toán t ng quan gi a câu h i và tài li u b ng

cách nh ngh a m t vector bi u di n cho m i tài li u, và m t vector bi u di n cho câu

i [ Salton, 1875]. Mô hình d a trên ý t ng chính là ý ngh a c a m t tài li u thì ph

thu c vào các t c s d ng bên trong nó. Vector tài li u và vector câu h i sau ó s

c tính toán xác nh t ng quan gi a chúng. t ng quan càng l n ch ng

tài li u ó càng liên quan n câu h i.

Page 20: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 20 Nguy n Trung Hi u - 0112216

Gi s m t t p tài li u ch g m có hai t là t1 và t2. Vector xây d ng c s

m có 2 thành ph n: thành ph n th nh t bi u di n s xu t hi n c a t1, và thành ph n

th hai bi u di n cho s xu t hi n c a t2. Cách n gi n nh t xây d ng vector là

ánh 1 vào thành ph n t ng ng n u t ó xu t hi n, và ánh 0 n u t ó không xu t

hi n. Gi s tài li u ch g m có 2 t t1. Ta bi u di n cho tài li u này b i vector nh

phân nh sau: <1,0> Tuy nhiên, bi u di n nh v y không cho th y c t n s xu t

hi n c a m i t trong tài li u. Trong tr ng h p này, vector nên c bi u di n nh

sau: <2,0>

i v i m t câu h i ã cho, thay vì ch c n c so sánh các t trong tài li u v i

p các t trong câu h i, ta nên xem xét n t m quan tr ng c a m i t . Ý t ng chính

là m t t xu t hi n t p trung trong m t s tài li u thì có tr ng s cao h n so v i m t t

phân b trong nhi u tài li u. Tr ng s c tính d a trên t n s tài li u ngh ch o

(Inverse Document Frequency) liên quan n các t c cho:

n: s t phân bi t trong t p tài li u

tfij : s l n xu t hi n c a t tj trong tài li u Di (t n s )

dfj : s tài li u có ch a t tj

idfj = 10logj

ddf

trong ó d là t ng s tài li u

Vector c xây d ng cho m i tài li u g m có n thành ph n, m i thành ph n là

giá tr tr ng s ã c tính toán cho m i t trong t p tài li u. Các t trong tài li u

c gán tr ng s t ng d a vào t n s xu t hi n c a chúng trong t p tài li u và s

xu t hi n c a m i t trong m t tài li u riêng bi t. Tr ng s c a m t t t ng n u t ó

xu t hi n th ng xuyên trong m t tài li u và gi m n u t ó xu t hi n th ng xuyên

Page 21: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 21 Nguy n Trung Hi u - 0112216

trong t t c các tài li u. tính tr ng s c a t th tj trong tài li u Di, d a vào công

th c:

dij = tfij * idfj

dij : là tr ng s c a t tj trong tài li u Di

i v i h th ng tìm ki m thông tin theo mô hình vector, m i tài li u là m t

vector có d ng : Di(di1, di2 , …, din ) . T ng t , câu truy v n Q c ng là m t vector có

ng : Q(wq1, wq2, …, wqn)

wqj : là tr ng s c a t tj trong câu truy v n Q.

t ng quan (SC: similarity coeficient) gi a câu truy v n Q và tài li u Di

c tính nh sau:

SC(Q,Di) = ij1

w *n

qjj

d=

2.2 Tìm ki m Boolean

Mô hình tìm ki m Boolean khá n gi n. Câu h i a vào ph i d ng bi u th c

Boolean. Ngh a là ph i th a:

Ø Ng ngh a rõ ràng

Ø Hình th c ng n g n

Do các t ho c xu t hi n ho c là không xu t hi n, nên tr ng s wij ε {0,1}

Gi s a vào m t câu h i d ng bi u th c Boolean nh sau: t1 and t2. Sau khi tìm

ki m ta xác nh c các tài li u liên quan n t1 là { d1, d3, d5} và các tài li u liên

Page 22: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 22 Nguy n Trung Hi u - 0112216

quan n t2 là {d3, d5, d7}. Nh v y v i phép and, các tài li u th a yêu c u c a ng i

dùng là {d3, d5}. Ph ng pháp này có m t s khuy t m nh sau:

Ø Các tài li u tr v không c s p x p (ranking)

Ø Câu h i tìm ki m òi h i ph i úng nh d ng c a bi u th c Boolean gây

khó kh n cho ng i dùng

Ø t qu tr v có th là quá ít ho c quá nhi u tài li u

2.3 Tìm ki m Boolean m r ng

Mô hình tìm ki m Boolean không h tr vi c s p x p k t qu tr v b i vì các

tài li u ho c th a ho c không th a yêu c u Boolean. T t c các tài li u th a mãn u

c tr v , nh ng không có s c l ng nào c tính toán cho s liên quan c a

chúng i v i câu h i.

Mô hình tìm ki m Boolean m r ng ra i nh m h tr vi c s p x p (ranking)

t qu tr v d a trên ý t ng c b n là ánh tr ng s cho m i t trong câu h i và

trong tài li u. Gi s m t câu h i yêu c u (t1 OR t2) và m t tài li u D có ch a t1 v i

tr ng s w1 và t2 v i tr ng s w2 . N u w1 và w2 u b ng 1 thì tài li u nào có ch a c

hai t này s có th t s p x p cao nh t. Tài li u nào không ch a m t trong hai t này

có th t s p x p th p nh t. Ý t ng n gi n là tính kho ng cách Eclide t m

(w1, w2) t i g c:

SC(Q,Di) = 2 21 2(w ) (w )+

i tr ng s 0.5 và 0.5, SC(Q,Di) = 2 2(0.5) (0.5)+ =0.707

SC cao nh t n u w1 và w2 u b ng 1. Khi ó:

Page 23: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 23 Nguy n Trung Hi u - 0112216

SC(Q,Di) = 2 = 1.414

a SC vào kho ng [0,1], SC c tính nh sau:

SC( Q t1 v t2 , di) =2 2

1 2(w ) (w )2+

Công th c này gi s là câu h i ch có toán t OR . i v i toán t AND, thay

vì tính kho ng cách t i g c, ta s tính kho ng cách n m (1,1). Câu h i nào càng

n n m (1,1) thì nó càng tho yêu c u c a toán t AND:

SC(Q t1 ^ t2, di) = 1-2 2

1 2(1-w ) (1 w )2

+ −

2.4 r ng trong vi c thêm vào tr ng s c a câu h i

u câu h i có tr ng s là q1 và q2 thì t ng quan s c tính nh sau:

SC(Q q1 v q2, di) =2 2 2 21 1 2 2

2 21 2

q w q w

q q

+

+

SC(Q q1 ^ q2, di) = 1- (2 2 2 21 1 2 2

2 21 2

q (1-w ) (1 )q w

q q

+ −

+)

2.4.1 r ng cho s t tu ý

tính kho ng cách Euclide trong không gian a chi u, tham s p c s

ng. Tham s p ch s bi n i t m quan tr ng c a tr ng s trong vi c ánh giá

thích h p.

t ng quan SC t ng quát nh sau:

Page 24: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 24 Nguy n Trung Hi u - 0112216

SC(D, Q ( q i v q j ) ) =

1p p p p pi i j j

p pi j

q wq q

q w +

+

SC(D, Q ( q i ^ q j ) ) = 1 -

1p p p p pi i j j

p pi j

q (1-w ) q (1 w )q q

+ −

+

u p → ∞ : chuy n v h th ng Boolean thông th ng (không có tr ng s )

u p = 1 : chuy n v h th ng không gian vector

2.4.2 Thêm toán t t ng

Các chi n l c tìm ki m không òi h i ng i dùng nh n bi t các toán t ph c

p. Tr ng s có th c gán t ng và tài li u c s p x p b ng cách chèn toán t

OR vào gi a các t . B t k tài li u nào có ch a ít nh t m t t trong câu h i s c s p

th t v i m t s m l n h n 0.

2.5 Mô hình xác su t

Mô hình tìm ki m xác su t tính toán t ng quan gi a câu h i và tài li u d a

vào xác su t mà tài li u ó liên quan n câu h i. Các lý thuy t v xác su t c áp

ng tính toán liên quan gi a câu h i và tài li u. Các t trong câu h i c xem

là u m i xác nh tài li u liên quan. Ý t ng chính là tính xác su t c a m i t

trong câu h i và sau ó s d ng chúng tính xác su t mà tài li u liên quan n câu

i.

Page 25: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 25 Nguy n Trung Hi u - 0112216

2.6 ánh giá chung v các mô hình

Ø Mô hình Boolean c xem là mô hình y u nh t trong các mô hình b i vì

nh ã trình bày nó còn r t nhi u khuy t m.

Ø Theo kinh nghi m c a Salton và Buckley thì nhìn chung mô hình vector

làm t t h n mô hình xác su t.

Lu n v n c a chúng em s d ng mô hình không gian vector xây d ng m t

th ng tìm ki m thông tin ti ng Vi t.

3. Các b c xây d ng m t h tìm ki m thông tin. [3.2]

3.1 Tách t t ng cho t p các tài li u

i v i ti ng Anh, ta tách t d a vào kho ng tr ng. Tuy nhiên i v i ti ng

Vi t, giai n này t ng i khó kh n. C u trúc ti ng Vi t r t ph c t p, không ch n

thu n d a vào kho ng tr ng tách t . Hi n nay có r t nhi u công c dùng tách t

ti ng Vi t, m i ph ng pháp có u, khuy t m riêng. Các ph ng pháp này s c

trình bày chi ti t h n ch ng III : Tách t t ng.

3.2 p ch m c cho tài li u

Sau khi có c t p các t ã c trích, ta s ch n các t làm t ch m c.

Tuy nhiên, không ph i t nào c ng c ch n làm t ch m c. Các t có kh n ng i

di n cho tài li u s c ch n, các t này c g i là key word, do ó tr c khi l p ch

c s là giai n ti n x lý i v i các t trích c ch n ra các key word thích

p. Ta s lo i b danh sách các t ít có kh n ng i di n cho n i dung v n b n d a

Page 26: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 26 Nguy n Trung Hi u - 0112216

vào danh sách g i là stop list. i v i ti ng Anh hay ti ng Vi t u có danh sách stop

list. Chi ti t v quá trình l p ch m c s c mô t ch ng IV: L p ch m c.

3.3 Tìm ki m

Ng i dùng nh p câu h i và yêu c u tìm ki m, câu h i mà ng i dùng nh p vào

ng s c x lý, ngh a là ta s tách t cho câu h i. Ph ng pháp tách t cho câu h i

ng nên là ph ng pháp tách t cho các tài li u thu th p c m b o s t ng

thích. Sau ó, h th ng s tìm ki m trong t p tin ch m c xác nh các tài li u liên

quan n câu h i c a ng i dùng.

3.4 p x p các tài li u tr v (Ranking)

Các tài li u sau khi ã xác nh là liên quan n câu h i c a ng i dùng s c

p x p l i, b i vì trong các tài li u ó có nh ng tài li u liên quan n câu h i nhi u

n. H th ng s d a vào m t s ph ng pháp xác nh tài li u nào liên quan nhi u

nh t, s p x p l i (ranking) và tr v cho ng i dùng theo th t u tiên.

4. Nh ng khó kh n trong vi c xây d ng m t h th ng tìm ki m

thông tin ti ng Vi t

Hi n nay, chúng ta ã quen thu c v i r t nhi u công c h tr vi c tìm ki m

thông tin nh Google, Yahoo Search, AltaVista, …. Tuy nhiên, ây là các công c c a

ng i n c ngoài nên chúng ch gi i quy t t t i v i các yêu c u c a h . Chúng ta

ng có m t s công c h tr tìm ki m thông tin ti ng Vi t nh : Vinaseek,

NetNam,…Các công c này c ng tách t ch y u d a vào kho ng tr ng nên vi c tìm

ki m c ng ch a c c i thi n. Nhìn chung, xây d ng m t h th ng tìm ki m thông

Page 27: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 27 Nguy n Trung Hi u - 0112216

tin ti ng Vi t, chúng ta g p khó kh n trong vi c tách t ti ng Vi t và xác nh b ng mã

ti ng Vi t.

4.1 Khó kh n trong vi c tách t ti ng Vi t

Có th nói tách t là giai n khó kh n nh t khi xây d ng m t h tìm ki m

thông tin ti ng Vi t. i v i ti ng Anh, vi c xác nh t ch n gi n d a vào kho ng

tr ng tách t . Ví d , câu: “I am a student” s c tách thành 4 t : I, am, a, student.

Tuy nhiên, i v i ti ng Vi t, tách d a vào kho ng tr ng ch thu c các ti ng. T có

th c ghép t m t hay nhi u ti ng. T ph i có ý ngh a hoàn ch nh và có c u t o n

nh. Câu: “Tôi là m t sinh viên” c tách thành 4 t : Tôi, là, m t, sinh viên. Trong

ó, t “sinh viên” c hình thành t 2 ti ng: sinh và viên.

Hi n nay, có r t nhi u ph ng pháp c s d ng tách t ti ng Vi t. Tuy

nhiên, v i s ph c t p c a ng pháp ti ng Vi t nên ch a có ph ng pháp nào t c

chính xác 100%. Và vi c l a ch n ph ng pháp nào là t t nh t c ng ang là v n

tranh cãi.

4.2 n b ng mã ti ng Vi t

Không nh ti ng Anh, ti ng Vi t có r t nhi u b ng mã òi h i ph i x lý. M t

công c tìm ki m ti ng Vi t h tr b ng mã r t t t nh Vinaseek, h tr m i b ng

mã (VNI, TCVN3, ViQR,…).

4.3 Các khó kh n khác

Ø Ti ng Vi t có các t ng ngh a nh ng khác âm. Các công c hi n nay không

tr vi c xác nh các t ng ngh a. Vì v y, k t qu tr v s không y .

Page 28: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 28 Nguy n Trung Hi u - 0112216

Ø Ng c l i, có nh ng t ng âm khác ngh a. Các h th ng s tr v các tài li u

có ch a các t ã c tách trong câu h i mà không c n xác nh chúng có th c

liên quan hay không. Vì v y, k t qu tr v s không chính xác.

Ø t s t xu t hi n r t nhi u nh ng không có ý ngh a trong tài li u. Các t nh :

và, v i, nh ng,… có t n s xu t hi n r t l n trong b t c v n b n nào. N u tìm

cách tr v các tài li u có ch a nh ng t này s thu c k t qu vô ích, không

n thi t. Do ó, chúng ta c n tìm cách lo i b các t này tr c khi tìm ki m.

Page 29: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 29 Nguy n Trung Hi u - 0112216

Ch ng 3: TÁCH T T NG

Tr c khi l p ch m c là giai n tách t cho các tài li u, ây là công vi c quan

tr ng trong m t h th ng tìm ki m thông tin. i v i ti ng Anh ch n gi n d a vào

kho ng tr ng tách t . Nh ng i v i ti ng Vi t không th d a vào kho ng tr ng

c vì ti ng Vi t là ngôn ng n l p.

Hi n nay, có r t nhi u ph ng pháp c xu t tách t cho ti ng Vi t,

nh ng v n ch a th ng nh t là ph ng pháp nào t t nh t. Ch ng này s trình bày chi

ti t v m t s ph ng pháp tách t .

1. Tách t trong Ti ng Anh

Do c m ng pháp c a ti ng Anh, tách t ch n gi n d a vào kho ng

tr ng phân bi t t .

2. Tách t trong Ti ng Vi t

2.1 t s c m chính v t ti ng Vi t [2.2]

2.1.1 Ti ng

m t ng âm, ti ng là âm ti t. Âm ti t bao g m nh ng n v b c th p h n g i

là âm v . M i âm v c ghi b ng m t ký t g i là ch .

Page 30: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 30 Nguy n Trung Hi u - 0112216

m t ng ngh a, ti ng là n v nh nh t có ngh a, nh ng c ng có m t s ti ng

không có ngh a.

giá tr ng pháp, ti ng là n v c u t o t . S d ng ti ng t o thành t , ta có

hai tr ng h p nh sau:

Ø m t ti ng: g i là t n. Tr ng h p này m t t ch có m t ti ng. Ví d nh :

ông, bà, …

Ø hai ti ng tr lên: g i là t ph c. Tr ng h p này m t t có th có hai hay

nhi u ti ng tr lên. Ví d nh : xã h i, an ninh, h p tác xã,…

2.1.2

là n v nh nh t t o thành câu. Trong t câu, chúng ta dùng t ch

không dùng ti ng.

2.2 Tách t t ng ti ng Vi t

Tách t t ng ti ng Vi t d a trên m t s ph ng pháp có s n. Sau ây chúng

ta s nghiên c u m t s ph ng pháp c s d ng tách t cho các v n b n ti ng

Vi t.

3. Các ph ng pháp tách t ti ng Vi t

3.1 fnTBL (Fast Transformation-based learning) [3.1]

3.1.1 Mô t

Page 31: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 31 Nguy n Trung Hi u - 0112216

Ý t ng chính c a ph ng pháp h c d a trên s bi n i (TBL) là gi i quy t

t v n nào ó ta s áp d ng các phép bi n i, t i m i b c, phép bi n i nào cho

t qu t t nh t s c ch n và c áp d ng l i v i v n ã a ra. Thu t toán k t

thúc khi không còn phép bi n i nào c ch n. H th ng fnTBL g m hai t p tin

chính:

Ø p tin d li u h c (Training): T p tin d li u h c c làm th công, òi h i

chính xác. M i m u (template) c t trên m t dòng riêng bi t. Ví d : t p

li u h c cho vi c xác nh t lo i c a m t v n b n có th có nh d ng nh

sau:

Công ty danhtu

An ông danhturieng

dongtu

giám sát dongtu

Trong ví d này m i m u g m có hai ph n: ph n u tiên là t , ph n th

hai là t lo i t ng ng.

Ø p tin ch a các m u lu t (rule-template): M i lu t c t trên m t dòng, h

th ng fTBL s d a vào các m u lu t áp d ng vào t p tin d li u h c. Ví d :

chunk_-2 chunk_-1 => chunk

Áp d ng i v i vi c xác nh t lo i, v i chunk_-2 = ng t , chunk_-

1= s t , chunk=danh t thì lu t trên có ý ngh a nh sau: n u hai t tr c ó là

ng t và s t thì chuy n t lo i hi n hành thành danh t .

3.1.2 Áp d ng tách t ti ng Vi t

Page 32: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 32 Nguy n Trung Hi u - 0112216

Sau khi nghiên c u v fnTBL, chúng em nh n th y có th áp d ng ph ng pháp

này tách t cho ti ng Vi t, ch c n thay i m t s nh d ng cho phù h p.

Ø Xây d ng t p tin d li u h c: p tin d li u cho vi c tách t ti ng Vi t có d ng

nh sau:

Vì B

sao B

công B

ty I

Vi t B

Hà I

B

t B

vào B

tình B

tr ng I

….

Các ký t B, I g i là các chunk và có ý ngh a nh sau:

Ti ng có chunk=B ngh a là ti ng ó b t u m t t (begin)

Ti ng có chunk=I ngh a là ti ng ó n m trong m t t (inside)

Trong ví d trên, ta có c các t : Vì, sao, công ty, Vi t Hà, b , t, vào, tình

tr ng, …

Ø Xây d ng t p tin ch a các m u lu t: Sau khi tìm hi u v t trong ti ng Vi t,

chúng em xây d ng c 3 lu t áp d ng cho vi c tách t ti ng Vi t nh sau:

chunk_0 word_0 => chunk

Page 33: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 33 Nguy n Trung Hi u - 0112216

chunk_0 word_-1 word_0 => chunk

chunk_0 word_0 word_1 => chunk

3.1.2.1 Quá trình h c

(1) T t p d li u h c xây d ng t n các t

(2) Kh i t o các t

(3) Rút ra t p lu t

b c (1) t t p d li u h c ã có s n, s d ng ph ng pháp th ng kê ta s

có t n các ti ng (Lexicon). Các ti ng có th xu t hi n trong các t v i các chunk

khác nhau, ta s ghi nh n l i s l n xu t hi n c a m i ti ng v i các chunk t ng ng.

Ví d , i v i t “công ty” thì ti ng “công” có chunk=B nh ng trong t “c a công” thì

ti ng công có chunk=I.

b c (2) t t p d li u h c, t o ra t p d li u h c không có chunk b ng cách

xóa h t các chunk t ng ng. T p d li u m i này s c s d ng kh i t o l i các

chunk thông d ng nh t d a vào t n.

b c (3) so sánh t p d li u h c v i t p d li u ang xét, d a vào các m u

lu t ã cho, ta s rút ra c các lu t ng viên, ng v i m i lu t ng viên ta l i áp d ng

vào t p d li u ang xét và tính m cho nó (d a vào s l i phát sinh khi so sánh v i

p d li u h c là t p d li u chu n). Ch n lu t có m cao nh t và l n h n m t

ng ng cho tr c a vào danh sách lu t c ch n.

t qu ta s c m t t p các lu t c ch n. Các lu t có d ng nh sau:

SCORE:414 RULE: chunk_0=B word_0=t => chunk=I

SCORE:312 RULE: chunk_0=B word_-1=c a word_0=công=>chunk=I

Page 34: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 34 Nguy n Trung Hi u - 0112216

SCORE:250 RULE: chunk_0=B word_0=hóa => chunk=I

SCORE:231 RULE: chunk_0=B word_0= ng => chunk=I

SCORE:205 RULE: chunk_0=B word_0=nghi p => chunk=I

SCORE:175 RULE: chunk_0=B word_-1=phát word_0=tri n => chunk=I

SCORE:133 RULE: chunk_0=B word_-1=xã word_0=h i => chunk=I

SCORE:109 RULE: chunk_0=B word_-1= u word_0=t => chunk=I

SCORE:100 RULE: chunk_0=B word_0=th => chunk=I

dòng 2 ta có lu t: n u t hi n hành là “công” (word_0=công) và t tr c ó là

“c a” (word_-1=c a) và chunk c a t hi n hành là B ( chunk_0=B) thì chuy n chunk

a t hi n hành là I , ngh a là “c a công” ph i là m t t .

Toàn b quá trình h c c mô t nh sau:

Page 35: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 35 Nguy n Trung Hi u - 0112216

Hình 3-1 Quá trình h c

3.1.2.2 Xác nh t cho tài li u m i

(1) Tài li u m i a vào ph i có nh d ng gi ng nh t p tin d li u h c, ngh a

là m i ti ng trên m t dòng.

(2) D a vào t n, gán chunk thông d ng nh t cho các ti ng trong tài li u m i

Page 36: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 36 Nguy n Trung Hi u - 0112216

(3) Áp d ng các lu t có c t giai n h c vào tài li u ang xét ta s tách

c các t hoàn ch nh.

Giai n xác nh t cho tài li u m i c mô t nh sau:

Hình 3-2 Giai n xác nh t cho tài li u m i

Page 37: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 37 Nguy n Trung Hi u - 0112216

3.2 Longest Matching [1.4]

Ph ng pháp Longest Matching tách t d a vào t n có s n.

Theo ph ng pháp này, tách t ti ng Vi t ta i t trái sang ph i và ch n t có

nhi u âm ti t nh t mà có m t trong t n, r i c ti p t c cho t k ti p cho n h t

câu. V i cách này, ta d dàng tách c chính xác các ng /câu nh : ”h p tác| mua

bán”; “thành l p| n c|Vi t Nam| dân ch |c ng hòa”…Tuy nhiên, ph ng pháp này s

tách t sai trong tr ng h p nh : “h c sinh |h c sinh |h c”; “m t| ông | quan tài | gi i”,

“tr c | bàn là | m t | ly| n c”,…

3.3 t h p gi a fnTBL và Longest Matching

Chúng ta có th k t h p gi a hai ph ng pháp fnTBL và Longest Matching

có c k t qu tách t t t nh t. u tiên ta s tách t b ng Longest Matching, u ra

a ph ng pháp này s là u vào cho ph ng pháp fnTBL h c lu t.

Page 38: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 38 Nguy n Trung Hi u - 0112216

Ch ng 4: P CH M C

1. Khái quát v h th ng l p ch m c

t cách t ng t c tìm ki m thông tin lên là t o ch m c cho các tài li u.

Tuy nhiên, vi c l p ch m c có m t nh c m l n, ó là khi thêm m t tài li u m i,

ph i c p nh t l i t p tin ch m c. Nh ng i v i h th ng tìm ki m thông tin, ch c n

p nh t l i t p tin ch m c vào m t kho ng th i gian nh k . Do ó, ch m c là m t

công c r t có giá tr .

p ch m c bao g m các công vi c sau:

Ø Xác nh các t có kh n ng i di n cho n i dung c a tài li u

Ø ánh tr ng s cho các t này, tr ng s ph n ánh t m quan tr ng c a t

trong m t tài li u.

2. Ph ng pháp l p ch m c [1.1]

2.1 Xác nh các t ch m c

Ø Cho m t t p g m có n tài li u. V i m i tài li u, tính t n s c a m i t

riêng bi t trong tài li u ó. G i FREQik: là t n s xu t hi n c a t k trong tài li u i.

Ø Xác nh t n s c a t k trong t p tài li u, ký hi u là TOTFREQk b ng

cách tính t ng t n s xu t hi n c a k trong t t c n tài li u:

Page 39: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 39 Nguy n Trung Hi u - 0112216

TOTFREQK = ik1

FREQn

i=∑

Ø p x p các t gi m d n d a vào t n s xu t hi n c a nó trong t p tài

li u. Xác nh giá tr ng ng cao và lo i b t t c các t có t n s xu t hi n l n h n giá

tr này.

Ø ng t , lo i b các t có t n s th p . Ngh a là, xác nh ng ng th p

và lo i b t t c các t có t n s xu t hi n nh h n giá tr này. u này s lo i b các

ít xu t hi n trong t p tài li u, nên s có m t c a các t này c ng không nh h ng

n vi c th c hi n truy v n.

Ø Các t có t n s xu t hi n trung bình còn l i s c s d ng làm t ch

c.

Hình 4-1 Các t c s p theo th t

Page 40: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 40 Nguy n Trung Hi u - 0112216

2.2 Các ph ng pháp tính tr ng s c a t

Tr ng s c a m t t ph n ánh t m quan tr ng c a t ó trong tài li u. Ý t ng

chính là m t t xu t hi n th ng xuyên trong t t c các tài li u thì ít quan tr ng h n là

ch xu t hi n t p trung trong m t s tài li u.

2.2.1 n s tài li u ngh ch o

ây là ph ng pháp tính tr ng s mà mô hình không gian vector ã s d ng

tính tr ng s c a t trong tài li u.

n: s t phân bi t trong t p tài li u

FREQik : s l n xu t hi n c a t k trong tài li u Di (t n s t )

DOCFREQk : s tài li u có ch a t k

Khi ó, tr ng s c a t k trong tài li u Di c tính nh sau:

WEIGHTik = FREQik * [log (n) – log (DOCFREQk)]

Tr ng s c a t k trong tài li u Di t ng n u t n s xu t hi n c a t k trong tài

li u i t ng và gi m n u t ng s tài li u có ch a t k t ng.

2.2.2 nhi u tín hi u (The Signal – Noise Ratio)

t quan m t ng t c xem xét ó là d a vào thông tin ánh giá t m

quan tr ng c a t . Trong th c t , n i dung thông tin c a m t n hay m t t có th

xác nh d a vào xác su t xu t hi n c a các t trong v n b n ã cho. Rõ ràng, xác su t

xu t hi n c a m t t càng cao thì thông tin mà nó ch a càng ít.

i dung thông tin c a m t t c xác nh nh sau:

Page 41: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 41 Nguy n Trung Hi u - 0112216

INFORMATION= - log2 p

trong ó p là xác su t xu t hi n c a t .

Ví d : n u t “vi tính” xu t hi n 1 l n sau 10.000 t , xác su t xu t hi n c a nó là

0.0001, khi ó thông tin c a nó s là:

INFORMATION = - log2 (0.0001) = 13.278

Ng c l i, t “s ” xu t hi n 1 l n sau 10 t , xác su t xu t hi n c a nó là 0.1, khi

ó thông tin c a nó s là:

INFORMATION = -log2 (0.1) = 3.223

u m t tài li u có ch a t t , m i t có xác su t xu t hi n là pk, thông tin trung

bình c a tài li u s là:

AVERAGE INFORMATION = - 21

logt

k kk

p p=

Ta nh ngh a nhi u NOISEk c a t k trong t p g m n tài li u nh sau:

NOISEk = 21

logn

ik k

i k ik

FREQ TOTFREQTOTFREQ FREQ=

nhi u thay i ngh ch o v i “s t p trung” c a m t t trong t p tài li u.

Ngh a là, m t t có s phân ph i u trong t t c các tài li u thì nhi u c a nó càng

n, ng c l i m t t ch t p trung trong m t s tài li u nào ó thì nhi u c a nó càng

nh .

Gi s , t k xu t hi n m t l n trong m i tài li u (FREQik=1), khi ó nhi u

a nó b ng:

Page 42: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 42 Nguy n Trung Hi u - 0112216

NOISEk = 21

1 log1

n

i

nn=

∑ = log2 n

Ng c l i, gi s t k ch xu t hi n trong m t tài li u, khi ó nhi u c a nó

ng:

NOISEk = 2logk k

k k

TOTFREQ TOTFREQTOTFREQ TOTFREQ

= 0

Hàm s ngh ch o c a nhi u, g i là signal, c tính nh sau:

SIGNALk = log2 (TOTFREQk) – NOISEk

Tr ng s c a t k trong tài li u i c tính b ng cách k t h p gi a FREQik và

SIGNALk:

WEIGHTik = FREQik * SIGNALk

2.2.3 Giá tr phân bi t t (The Term Discrimination Value)

t ch c n ng khác xác nh t m quan tr ng c a m t t là tính giá tr phân

bi t c a t ó. G i SIMILAR(Di, Dj) là t ng quan gi a c p tài li u Di, Dj. Khi ó,

t ng quan trung bình c a t p tài li u là:

AVGSIM= CONSTANT1 1#

( , )n n

i ji ji j

SIMILAR D D= =

∑ ∑

G i AVGSIMk là t ng quan trung bình c a t p tài li u khi b t k. Rõ ràng,

u t k xu t hi n th ng xuyên trong t p tài li u thì khi b t k, t ng quan trung

bình s gi m. Ng c l i, n u t k ch t p trung trong m t s tài li u, khi b t k,

ng quan trung bình s t ng lên.

Page 43: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 43 Nguy n Trung Hi u - 0112216

Giá tr phân bi t DISCVALUEk c a t k c tính nh sau:

DISCVALUEk = (AVGSIM)k – AVGSIM

Tr ng s c a t k trong tài li u i c tính b ng cách k t h p gi a FREQik và

DISCVALUEk:

WEIGHTik = FREQik * DISCVALUEk

2.3 p ch m c t ng cho tài li u ti ng Anh

t quá trình n gi n l p ch m c cho tài li u có th c mô t nh sau:

Ø Tr c h t, xác nh t t c các t t o thành tài li u. Trong ti ng Anh, ch

n gi n là tách t d a vào kho ng tr ng.

Ø Lo i b các t có t n s xu t hi n cao. Nh ng t này chi m kho ng 40-

50% các t , nh ã c p tr c ây, chúng có phân bi t kém do ó không th s

ng i di n cho n i dung c a tài li u. Trong ti ng Anh, các t này có kho ng 250

, do ó, n gi n có th l u chúng vào t n, g i là stop list.

Ø Sau khi lo i b các t có trong stop list, xác nh các t ch m c “t t”.

Tr c h t c n lo i b các h u t a v t g c, ví d các t nh : analysis,

analyzing, analyzer, analyzed, analysing có th chuy n v t g c là “analy.” T g c s

có t n s xu t hi n cao h n so v i các d ng thông th ng c a nó. N u s d ng t g c

làm ch m c, ta có th thu c nhi u tài li u có liên quan h n là s d ng t ban u

a nó.

i v i ti ng Anh, vi c lo i b h u t có th c th c hi n d dàng b ng cách

d ng danh sách các h u t có s n (Suffix List).

Page 44: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 44 Nguy n Trung Hi u - 0112216

Sau khi có c danh sách các t g c, s d ng ph ng pháp d a vào t n s

(frequency – based) xác nh t m quan tr ng c a các t g c này. Chúng ta có th s

ng m t trong các ph ng pháp ã c c p trên nh : t n s tài li u ngh ch o

(inverse document frequency), nhi u tín hi u (SIGNALk), phân bi t t

(DISVALUEk).

Trong h th ng ch m c có tr ng s , tr ng s c a m t t c s d ng xác

nh t m quan tr ng c a t ó. M i tài li u c bi u di n là m t vector :

Di = (di1, di2, …, dit) trong ó dij là tr ng s c a t j trong tài li u Di.

Gi s có 1033 tài li u nói v y h c. Quá trình l p ch m c n gi n c th c

hi n nh sau ( trong ó ch lo i b h u t t n cùng là s):

Page 45: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 45 Nguy n Trung Hi u - 0112216

Hình 4-2 Quá trình ch n t làm ch m c

3. p ch m c cho tài li u ti ng Vi t

p ch m c cho tài li u ti ng Vi t c ng t ng t nh cho ti ng Anh. Tuy nhiên

có vài m khác bi t sau:

Page 46: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 46 Nguy n Trung Hi u - 0112216

Ø Giai n tách t trong ti ng Anh ch n gi n d a vào kho ng tr ng,

còn ti ng Vi t là ngôn ng n l p, m t t có th có nhi u ti ng. u này ã c

p chi ti t ch ng 3 (Tách t ). Gi s sau giai n tách t , ta s thu c m t danh

sách các t riêng bi t.

Ø i v i ti ng Vi t, không ph i qua giai n lo i b h u t .

Nói chung, l p ch m c cho tài li u ti ng Vi t g m các b c sau:

Ø Xác nh các t riêng bi t trong tài li u

Ø Lo i b các t có t n s cao. ( Trong ti ng Vi t, c ng nh ti ng Anh, ta

có m t danh sách Stop List ch a nh ng t không th là n i dung c a v n b n nh : và,

i, nh ng, gì, sao, nào, …).

Ø Lo i b các t có tr ng s th p

Ø Các t thu c s c ch n làm các t ch m c

4. p tin ngh ch o tài li u

4.1 Phân bi t gi a t p tin ngh ch o và t p tin tr c ti p

p tin tr c ti p (direct file) là t p tin mà chính các m c thông tin ã cung c p th

chính c a t p tin.

Ng c l i, t p tin ngh ch o (inverted file) c s p x p theo ch , m i ch

i bao g m m t t p các m c thông tin.

Page 47: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 47 Nguy n Trung Hi u - 0112216

Gi s có m t t p các tài li u, m i tài li u ch a danh sách các t . N u m t t

xu t hi n trong m t tài li u, ghi s 1. Ng c l i, ghi 0. Khi ó, t p tin tr c ti p và t p

tin ngh ch o s l u tr nh sau:

Tài li u 1 Tài li u 2 Tài li u 3

1 1 0 1

2 1 1 0

3 0 1 1

4 1 1 1

ng 4-1 Cách t p tin ngh ch o l u tr

1 2 3 4

Tài li u 1 1 1 0 1

Tài li u 2 0 1 1 1

Tài li u 3 1 0 1 1

ng 4-2 Cách t p tin tr c ti p l u tr

4.2 i sao s d ng t p tin ngh ch o l p ch m c

Trong h th ng tìm ki m thông tin, t p tin ngh ch o có ý ngh a r t l n, giúp

vi c truy c p n các m c thông tin c nhanh chóng. Gi s khi ng i dùng nh p

t câu truy v n, h th ng s tách thành 2 t là “t 1” và “t 2”. D a vào t p tin

Page 48: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 48 Nguy n Trung Hi u - 0112216

ngh ch o, ta d dàng xác nh c các tài li u có liên quan n 2 t này tr v

cho ng i tìm ki m. Tuy nhiên, khó kh n chính c a t p tin ngh ch o là khi thêm m t

tài li u m i, t t c các t có liên quan n tài li u này u ph i c c p nh t l i. Ví d

khi thêm tài li u 4 có ch a 2 t “t 3” và “t 4” vào t p tin ngh ch o:

Tài li u 1 Tài li u 2 Tài li u 3 Tài li u 4

1 1 0 1 0

2 1 1 0 0

3 0 1 1 1

4 1 1 1 1

ng 4-3 Thêm m t tài li u m i vào t p tin ngh ch o

Rõ ràng vi c này t n m t chi phí l n n u t p tin ngh ch o r t l n. Trong th c

, t p tin ngh ch o tài li u có th ch a hàng tr m ngàn t . Tuy nhiên, trong các h

th ng tìm ki m thông tin, ng i ta ch c p nh t l i t p tin t i m t kho ng th i gian nh

. Vì v y, t p tin ngh ch o v n c s d ng l p ch m c.

Page 49: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 49 Nguy n Trung Hi u - 0112216

Ph n 2 : PHÂN TÍCH VÀ THI T K

Ch ng 5: PHÂN TÍCH

1. UseCase h th ng

Hình 5-1 S Use-case c a h th ng

Page 50: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 50 Nguy n Trung Hi u - 0112216

STT ACTOR Ý NGH A

1 Admin Qu n tr h th ng

2 User Ng i s d ng ch ng trình

3 Cac tai lieu Các tài li u ã c tách t

4 Cac tai lieu lien quan cau hoi Các tài li u tr v khi ng i s d ng nh pvào câu h i

5 p tin chi muc p tin ch a các t khóa cùng v i các tàili u ch a t khóa ó

ng 5-1 Danh sách các Actor

STT USECASE Ý NGH A

1 Tach tu Tách v n b n thành các t riêng bi t

2 Tao moi t p tin chi muc o m i m t t p tin ch m c

3 Cap nhat t p tin chi muc p nh t thêm các tài li u m i vào t p tinch m c có s n

4 Tim kiem Gõ vào t khóa và ch c n ng tìm ki m str v m t t p các tài li u liên quan

ng 5-2 Danh sách các UseCase

Page 51: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 51 Nguy n Trung Hi u - 0112216

2. L p

2.1 các l p th hi n

Hình 5-2 S các l p th hi n

Page 52: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 52 Nguy n Trung Hi u - 0112216

2.2 các l p x lý

Hình 5-3 S các l p x lý

Page 53: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 53 Nguy n Trung Hi u - 0112216

3. Tách t

3.1 UseCase

Hình 5-4 S Use-case tách t

3.2 Tu n t

Hình 5-5 S tu n t tách t

Page 54: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 54 Nguy n Trung Hi u - 0112216

3.3 C ng tác

Hình 5-6 S c ng tác tách t

3.4 L p

Hình 5-7 S l p tách t

Page 55: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 55 Nguy n Trung Hi u - 0112216

4. p ch m c

4.1 UseCase

Hình 5-8 S use-case l p ch m c

Page 56: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 56 Nguy n Trung Hi u - 0112216

4.2 Tu n t

4.2.1 o m i ch m c

Hình 5-9 S tu n t t o m i ch m c

Page 57: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 57 Nguy n Trung Hi u - 0112216

4.2.2 p nh t ch m c

Hình 5-10 S tu n t c p nh t ch m c

Page 58: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 58 Nguy n Trung Hi u - 0112216

4.3 C ng tác

4.3.1 o m i ch m c

Hình 5-11 S c ng tác t o m i ch m c

Page 59: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 59 Nguy n Trung Hi u - 0112216

4.3.2 p nh t ch m c

Hình 5-12 S c ng tác c p nh t ch m c

Page 60: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 60 Nguy n Trung Hi u - 0112216

4.4 L p

Hình 5-13 S l p l p ch m c

Page 61: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 61 Nguy n Trung Hi u - 0112216

5. Tìm ki m

5.1 UseCase

Hình 5-14 S use-case tìm ki m

5.2 Tu n t

Hình 5-15 S tu n t tìm ki m

Page 62: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 62 Nguy n Trung Hi u - 0112216

5.3 C ng tác

Hình 5-16 S c ng tác tìm ki m

Page 63: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 63 Nguy n Trung Hi u - 0112216

5.4 L p

Hình 5-17 S l p tìm ki m

Page 64: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 64 Nguy n Trung Hi u - 0112216

Ch ng 6: THI T K VÀ CÀI T

Ø Ngôn ng l p trình : C#, ASP.NET

Ø Công c l p trình : Microsoft Visual Studio .NET

Ø u tr d li u : t p tin XML

Ø ng d ng : Xây d ng h th ng tìm ki m thông tin ti ng Vi t

th ng tìm ki m s c xây d ng theo mô hình không gian Vector.

Các tài li u ti ng Vi t và câu truy v n s c tách t theo ph ng pháp Longest

Matching.

1. u trúc l u tr d li u

t c t p tin v n b n, t p tin ch a các t ã c tách, t p tin ch m c o, t p

tin ch a các t không quan tr ng, t p tin l u tr t ng quan gi a câu truy v n và tài

li u … u c l u tr d i d ng Xml.

1.1 p tin l u n i dung tài li u

ây là t p tin Xml dùng l u n i dung c a các t p tin v n b n g c, m i t p tin

ch a kho ng 50 tài li u, có c u trúc c nh, trong ch ng trình nó c l u trong th

c “VanBanXML”.

1.1.1 u trúc DTD / XSD

• DTD

<!ELEMENT NEWSPAPERS (DOC*)>

Page 65: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 65 Nguy n Trung Hi u - 0112216

<!ELEMENT DOC (TITLE,AUTHOR,DATE,NEWS,CONTENT)>

<!ATTLIST DOC DOC_ID CDATA #REQUIRED>

<!ELEMENT TITLE (#PCDATA)>

<!ELEMENT AUTHOR (#PCDATA)>

<!ELEMENT DATE (#PCDATA)>

<!ELEMENT NEWS (#PCDATA)>

<!ELEMENT CONTENT (#PCDATA)>

• XSD

<?xml version='1.0'?>

<schema xmlns="urn:schemas-microsoft-com:xml-data"

xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!-- contents of XML Schema document goes here -->

<ElementType name="TITLE" content="textOnly" dt:type="string"/>

<ElementType name="AUTHOR" content="textOnly" dt:type="string"/>

<ElementType name="DATE" content="textOnly" dt:type="string"/>

<ElementType name="NEWS" content="textOnly" dt:type="string"/>

<ElementType name="CONTENT" content="textOnly"

dt:type="string"/>

<AttributeType name="DOC_ID" dt:type="string"/>

Page 66: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 66 Nguy n Trung Hi u - 0112216

<ElementType name="DOC" content="eltOnly" order="seq">

<attribute type="DOC_ID"/>

<element type="TITLE"/>

<element type="AUTHOR"/>

<element type="DATE"/>

<element type="NEWS"/>

<element type="CONTENT"/>

</ElementType>

<ElementType name="NEWSPAPERS" content="eltOnly">

<element type="DOC" minOccurs="1" maxOccurs="*"/>

</ElementType>

</schema>

1.1.2 Tài li u XML

<NEWSPAPERS>

<DOC DOC_ID="1">

<TITLE>Thanh niên VN: ng l c cho nh ng t m nhìn m i</TITLE>

<AUTHOR>Tác gi : .Bình</AUTHOR>

<DATE>Ngày :01/12/2000</DATE>

<NEWS>Tên t báo : Tu i tr Th lo i : ,Trang : trang 1, 14</NEWS>

<CONTENT>Thanh niên VN: ng l c cho nh ng ý t ng m i, t m nhìn

i. (TT-Hà N i) - T i l khai m c Di n àn thanh niên (TN) VN v i ch

Page 67: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 67 Nguy n Trung Hi u - 0112216

“S n sàng cho th k 21” sáng 30-11 t i Hà N i (do H i Liên hi p TN

VN ph i h p v i các c quan LHQ t i VN t ch c), ông Edouard Wattez,

u ph i viên th ng trú LHQ t i VN, TN VN có vai trò quan tr ng trong

quá trình m c a v i th gi i... . Bình.</CONTENT>

</DOC>

……

</NEWSPAPERS>

1.2 p tin sau khi tách t tài li u

ây là t p tin Xml l u các t tách c t các t p tin v n b n g c cùng v i các

ID tham chi u t i chúng. M i t p tin ch a các t c a 50 tài li u t ng ng trong t p tin

n b n g c, trong ch ng trình các t p tin này c l u th m c “TachTu”.

1.2.1 u trúc DTD / XSD

• DTD

<!ELEMENT WORDS (WORD*)>

<!ELEMENT WORD (DOC+)>

<!ATTLIST WORD Name CDATA #REQUIRED>

<!ELEMENT DOC EMPTY>

<!ATTLIST DOC DOC_ID CDATA #REQUIRED>

• XSD

<?xml version='1.0'?>

<Schema xmlns="urn:schemas-microsoft-com:xml-data"

Page 68: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 68 Nguy n Trung Hi u - 0112216

xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!-- contents of XML Schema document goes here -->

<AttributeType name="DOC_ID" dt:type="string"/>

<AttributeType name="Name" dt:type="string"/>

<ElementType name="DOC" content="eltOnly">

<attribute type="DOC_ID"/>

</ElementType>

<ElementType name="WORD" content="eltOnly">

<attribute type="Name"/>

<element type="DOC" minOccurs="1" maxOccurs="*"/>

</ElementType>

<ElementType name="WORDS" content="eltOnly">

<element type="WORD" minOccurs="1" maxOccurs="*"/>

</ElementType>

</Schema>

1.2.2 Tài li u XML

<WORDS>

<WORD Name="thành l p">

<DOC DOC_ID="2051" />

<DOC DOC_ID="2063" />

Page 69: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 69 Nguy n Trung Hi u - 0112216

<DOC DOC_ID="2091" />

</WORD>

<WORD Name="trung tâm">

<DOC DOC_ID="2091" />

<DOC DOC_ID="2092" />

<DOC DOC_ID="2099" />

</WORD>

<WORD Name=" ">

<DOC DOC_ID="2076" />

<DOC DOC_ID="2079" />

<DOC DOC_ID="2084" />

<DOC DOC_ID="2086" />

<DOC DOC_ID="2091" />

<DOC DOC_ID="2094" />

<DOC DOC_ID="2095" />

<DOC DOC_ID="2096" />

<DOC DOC_ID="2099" />

</WORD>

……

</WORDS>

Page 70: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 70 Nguy n Trung Hi u - 0112216

1.3 p tin ch a các t không th hi n n i dung c a v n b n (stop

list)

ây là t p tin Xml ch a các t không th hi n n i dung c a v n b n, g i là danh

sách StopList, trong ch ng trình t p tin này n m trong th m c “StopList”

1.3.1 u trúc DTD / XSD

• DTD

<!ELEMENT STOP_LIST (WORD*)>

<!ELEMENT WORD EMPTY>

<!ATTLIST WORD Name CDATA #REQUIRED>

• XSD

<?xml version='1.0'?>

<Schema xmlns="urn:schemas-microsoft-com:xml-data"

xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!-- contents of XML Schema document goes here -->

<AttributeType name="Name" dt:type="string"/>

<ElementType name="WORD" content="eltOnly">

<attribute type="Name"/>

</ElementType>

Page 71: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 71 Nguy n Trung Hi u - 0112216

<ElementType name="STOP_LIST" content="eltOnly">

<element type="WORD" minOccurs="1" maxOccurs="*"/>

</ElementType>

</Schema>

1.3.2 Tài li u XML

<STOP_LIST>

<WORD Name=" i" />

<WORD Name=" ng" />

<WORD Name="và" />

<WORD Name="có" />

<WORD Name="nh ng" />

<WORD Name=" " />

<WORD Name=" i" />

</STOP_LIST>

1.4 p tin ch m c o ( Inverted ).

p tin ch m c o l u các t ch m c, m i t có các tham chi u n tài li u

ch a t ó kèm theo t n s , tr ng s c a t ó trong tài li u, trong ch ng trình t p tin

này c l u trong th m c “Inverted ”.

1.4.1 u trúc DTD / XSD

Page 72: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 72 Nguy n Trung Hi u - 0112216

• DTD

<!ELEMENT Inverted_File (Term*)>

<!ELEMENT Term (DOC+)>

<!ATTLIST Term Name CDATA #REQUIRED>

<!ELEMENT DOC EMPTY>

<!ATTLIST DOC D CDATA #REQUIRED>

<!ATTLIST DOC F CDATA #REQUIRED>

<!ATTLIST DOC W CDATA #REQUIRED>

• XSD

<?xml version='1.0'?>

<Schema xmlns="urn:schemas-microsoft-com:xml-data"

xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!-- contents of XML Schema document goes here -->

<AttributeType name="D" dt:type="string"/>

<AttributeType name="F" dt:type="int"/>

<AttributeType name="W" dt:type="fixed.14.4"/>

<AttributeType name="Name" dt:type="string"/>

<ElementType name="DOC" content="eltOnly">

<attribute type="D"/>

Page 73: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 73 Nguy n Trung Hi u - 0112216

<attribute type="F"/>

<attribute type="W"/>

</ElementType>

<ElementType name="Term" content="eltOnly">

<attribute type="Name"/>

<element type="DOC" minOccurs="1" maxOccurs="*"/>

</ElementType>

<ElementType name="Inverted_File" content="eltOnly">

<element type="Term" minOccurs="1" maxOccurs="*"/>

</ElementType>

</Schema>

1.4.2 Tài li u XML

<Inverted_File>

<Term Name="nhân công">

<DOC D="378" F="1" W="2.5" />

<DOC D="879" F="3" W="7.49" />

<DOC D="1584" F="1" W="2.5" />

<DOC D="1627" F="1" W="2.5" />

Page 74: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 74 Nguy n Trung Hi u - 0112216

<DOC D="1659" F="1" W="2.5" />

<DOC D="1708" F="1" W="2.5" />

<DOC D="2194" F="2" W="4.99" />

</Term>

<Term Name="gia truy n">

<DOC D="942" F="1" W="2.87" />

<DOC D="1670" F="1" W="2.87" />

<DOC D="2194" F="1" W="2.87" />

</Term>

……

</Inverted_File>

1.5 p tin sau khi tách t câu h i.

p tin này ch a các t tách c trong câu h i, trong ch ng trình nó c l u

trong th m c “CauHoi”

1.5.1 u trúc DTD / XSD

• DTD

<!ELEMENT WORDS (WORD*)>

<!ELEMENT WORD EMPTY>

<!ATTLIST WORD Name CDATA #REQUIRED>

• XSD

Page 75: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 75 Nguy n Trung Hi u - 0112216

<?xml version='1.0'?>

<Schema xmlns="urn:schemas-microsoft-com:xml-data"

xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!-- contents of XML Schema document goes here -->

<AttributeType name="Name" dt:type="string"/>

<ElementType name="WORD" content="eltOnly">

<attribute type="Name"/>

</ElementType>

<ElementType name="WORDS" content="eltOnly">

<element type="WORD" minOccurs="1" maxOccurs="*"/>

</ElementType>

</Schema>

1.5.2 Tài li u XML

<WORDS>

<WORD Name=" t n c" />

<WORD Name="và" />

<WORD Name="con ng i" />

Page 76: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 76 Nguy n Trung Hi u - 0112216

<WORD Name="vi t nam" />

</WORDS>

1.6 p tin ch a các t c a câu h i sau khi lo i b các t trong

danh sách StopList

p tin này c l u trong th m c “CauHoi”, tên t p tin là

“CauHoiLoaiBoStopList.xml ”

1.6.1 u trúc DTD / XSD

• DTD

<!ELEMENT WORDS (WORD*)>

<!ELEMENT WORD EMPTY>

<!ATTLIST WORD Name CDATA #REQUIRED>

• XSD

<?xml version='1.0'?>

<Schema xmlns="urn:schemas-microsoft-com:xml-data"

xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!-- contents of XML Schema document goes here -->

<AttributeType name="Name" dt:type="string"/>

<ElementType name="WORD" content="eltOnly">

Page 77: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 77 Nguy n Trung Hi u - 0112216

<attribute type="Name"/>

</ElementType>

<ElementType name="WORDS" content="eltOnly">

<element type="WORD" minOccurs="1" maxOccurs="*"/>

</ElementType>

</Schema>

1.6.2 Tài li u XML

<WORDS>

<WORD Name=" t n c" />

<WORD Name="con ng i" />

<WORD Name="vi t nam" />

</WORDS>

1.7 p tin ch a các t trong câu h i và các tài li u liên quan

p tin này ch a các t trong câu h i và các tham chi u n các tài li u ch a

các t này, kèm theo t n s , tr ng s c a m i t trong tài li u t ng ng, nó c l u

trong th m c “CauHoi” và tên t p tin là “CauHoiVaTaiLieu.xml”.

1.7.1 u trúc DTD / XSD

• DTD

<!ELEMENT WORDS (WORD*)>

<!ELEMENT WORD (Doc)>

Page 78: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 78 Nguy n Trung Hi u - 0112216

<!ATTLIST WORD Name CDATA #REQUIRED>

<!ELEMENT Doc EMPTY>

<!ATTLIST Doc DOC_ID CDATA #REQUIRED>

<!ATTLIST Doc Frequence CDATA #REQUIRED>

<!ATTLIST Doc Weight CDATA #REQUIRED>

• XSD

<?xml version='1.0'?>

<Schema xmlns="urn:schemas-microsoft-com:xml-data"

xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!-- contents of XML Schema document goes here -->

<AttributeType name="DOC_ID" dt:type="string"/>

<AttributeType name="Frequence" dt:type="int"/>

<AttributeType name="Weight" dt:type="fixed.14.4"/>

<AttributeType name="Name" dt:type="string"/>

<ElementType name="DOC" content="eltOnly">

<attribute type="DOC_ID"/>

<attribute type="Frequence"/>

<attribute type="Weight"/>

</ElementType>

Page 79: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 79 Nguy n Trung Hi u - 0112216

<ElementType name="WORD" content="eltOnly">

<attribute type="Name"/>

<element type="DOC" minOccurs="1" maxOccurs="*"/>

</ElementType>

<ElementType name="WORDS" content="eltOnly">

<element type="WORD" minOccurs="1" maxOccurs="*"/>

</ElementType>

</Schema>

1.7.2 Tài li u XML

<WORDS>

<WORD Name=" t n c">

<Doc DOC_ID="12" Frequence="2" Weight="2.48" />

<Doc DOC_ID="13" Frequence="1" Weight="1.24" />

<Doc DOC_ID="38" Frequence="1" Weight="1.24" />

<DOC DOC_ID="2446" Frequence="0" Weight="0" />

</WORD>

<WORD Name="con ng i">

<Doc DOC_ID="12" Frequence="2" Weight="3.48" />

Page 80: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 80 Nguy n Trung Hi u - 0112216

<Doc DOC_ID="13" Frequence="0" Weight="0" />

<Doc DOC_ID="38" Frequence="0" Weight="0" />

<DOC DOC_ID="2446" Frequence="0" Weight="0" />

</WORD>

<WORD Name="vi t nam">

<Doc DOC_ID="12" Frequence="1" Weight="2.48" />

<Doc DOC_ID="13" Frequence="0" Weight="0" />

<Doc DOC_ID="38" Frequence="2" Weight="2.12" />

<DOC DOC_ID="2446" Frequence="1" Weight="1.25" />

</WORD>

</WORDS>

1.8 p tin ch a t ng quan gi a câu h i và các tài li u

p tin này ch a t t c các tài li u liên quan n câu h i, m i tài li u s có

ng quan t ng ng và s t trong câu h i mà tài li u ó ch a.

1.8.1 u trúc DTD / XSD

• DTD

<!ELEMENT CAU_HOI (Doc+)>

<!ATTLIST CAU_HOI Name CDATA #REQUIRED>

<!ELEMENT Doc EMPTY>

<!ATTLIST Doc DOC_ID CDATA #REQUIRED>

Page 81: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 81 Nguy n Trung Hi u - 0112216

<!ATTLIST Doc SIMILAR CDATA #REQUIRED>

<!ATTLIST Doc Words CDATA #REQUIRED>

• XSD

<?xml version='1.0'?>

<Schema xmlns="urn:schemas-microsoft-com:xml-data"

xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!-- contents of XML Schema document goes here -->

<AttributeType name="DOC_ID" dt:type="string"/>

<AttributeType name="SIMILAR" dt:type="fixed.14.4"/>

<AttributeType name="Words" dt:type="int"/>

<AttributeType name="Name" dt:type="string"/>

<ElementType name="Doc" content="eltOnly">

<attribute type="DOC_ID"/>

<attribute type="SIMILAR"/>

<attribute type="Words"/>

</ElementType>

<ElementType name="CAU_HOI" content="eltOnly">

<attribute type="Name"/>

Page 82: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 82 Nguy n Trung Hi u - 0112216

<element type="Doc" minOccurs="1" maxOccurs="*"/>

</ElementType>

</Schema>

1.8.2 Tài li u XML

<CAU_HOI Name=" t n c và con ng i Vi t Nam">

<Doc DOC_ID="12" SIMILAR="8.44" Words="3" />

<Doc DOC_ID="13" SIMILAR="1.24" Words="1" />

<Doc DOC_ID="38" SIMILAR="4.6" Words="2" />

<Doc DOC_ID="2446" SIMILAR="1.25" Words="1" />

</CAU_HOI>

Page 83: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 83 Nguy n Trung Hi u - 0112216

2. Chi ti t các l p i t ng

2.1 Các l p trong quá trình tách t

2.1.1 các l p

Hình 6-1 S l p tách t

2.1.2 p tách t ghép

Hình 6-2 L p tách t ghép

p tách t ghép s có nhi m v tách m t v n b n thành các t riêng bi t.

Page 84: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 84 Nguy n Trung Hi u - 0112216

u vào là m t chu i v n b n và u ra là m t chu i ch a các t , m i t s cách nhau

i d u xu ng dòng ( ‘\r\n’ ).

Ví d :

chu i u vào = “Thanh niên VN: ng l c cho nh ng ý t ng m i, t m nhìn m i.”

chu i u ra = “Thanh niên\r\nVN\r\n ng l c\r\ncho\r\nnh ng\r\ný t ng\r\n

i\r\nt m nhìn\r\nm i\r\n”.

2.1.2.1 Ý ngh a c a các bi n thành ph n:

• ch : m ng các ký t c bi t (d u ch m, d u ph y, ch m than, ch m h i, hai

ch m,…) tách v n b n thành các c m t .

• hVietnamese : b ng b m l u t t c các t trong t n ti ng Vi t.

2.1.2.2 Các hàm chính :

- Hàm TachThanhCumTu( ) : tách chu i v n b n thành các c m t d a

vào các kí t c bi t nh : d u ch m, ph y, ch m h i, ch m than…

* Thu t toán :

void TachThanhCumTu (chu i v n b n)

{

while(g p t c bi t u tiên trong chu i v n b n)

{

// C t ph n u thành m t c m t .

// Gán chu i v n b n thành ph n sau.

}

}

Page 85: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 85 Nguy n Trung Hi u - 0112216

Ví d :

chu i u vào = “Thanh niên VN: ng l c cho nh ng ý t ng m i, t m nhìn m i.”

tr v ta s có 3 chu i c m t :

chu i 1 = “Thanh niên VN”

chu i 2 = “ ng l c cho nh ng ý t ng m i”

chu i 3 = “t m nhìn m i”

- Hàm TachMangTieng( ) : tách m t c m t thành t ng ti ng d a vào kh ang

tr ng.

* Thu t toán :

void TachMangTieng(c m t )

{

while(g p ký t kho ng tr ng u tiên trong c m t )

{

// C t ph n u thành m t ti ng.

// Gán c m t thành ph n sau.

}

}

Ví d :

chu i u vào = “ ng l c cho nh ng ý t ng m i” tr v là m ng chu i ch a các

ti ng = { ng”;”l c”;”cho” “nh ng”;”ý”;”t ng”;”m i”}

- Hàm XacDinhTu( ) : g p các ti ng l i thành t , so sánh trong t n ti ng

Vi t và ta s l u l i các t này vào m ng các t .

Page 86: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 86 Nguy n Trung Hi u - 0112216

* Thu t toán :

void XacDinhTu(m ng các ti ng)

{

B1 : gán t = ti ng u tiên.

B2 : so sánh t có trong t n hay không.

B3 : n u t có trong t n và có 2 ti ng tr lên thì ta s l u l i.

B4 : N u trong m ng ti ng v n còn thì t := t + ti ng ti p theo.

Ng c l i k t thúc hàm.

B5 : Quay l i B2

}

i các m ng ti ng c a ví d trên sau khi g i hàm này thì ta s có m ng các t

nh sau:

ng chu i các t ={” ng l c”;”cho” “nh ng”;”ý t ng”; ”m i”}

2.1.3 p tách t

Hình 6-3 L p tách t

Page 87: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 87 Nguy n Trung Hi u - 0112216

p tách t s có nhi m v t o t p tin v n b n Xml t t p tin v n b n g c, sau

ó s trích các t trong v n b n và cu i cùng l u l i các t trích c cùng v i các tài

li u ch a t ó thành t p tin Xml tách t .

2.1.3.1 Ý ngh a c a các bi n thành ph n:

• ttg : i t ng thu c l p CTachTuGhep

2.1.3.2 Các hàm chính :

- Hàm TaoXML( ) : chuy n m t t p tin v n b n có c u trúc thành t p tin XML

* Thu t toán :

void TaoXML (t p tin v n b n)

{

T o t p tin Xml l u l i n i dung t p tin v n b n.

// D ch con tr t p tin

while(ch a h t t p tin v n b n)

{

B1 : tìm t khóa DOC l y ph n giá tr .

B2 : tìm t khóa TITLE l y ph n giá tr .

B3 : tìm t khóa AUTHOR l y ph n giá tr .

B4 : tìm t khóa DATE l y ph n giá tr .

B5 : tìm t khóa NEW l y ph n giá tr .

B6 : tìm t khóa CONTENT l y ph n giá tr .

l u l i ph n giá tr vào t p tin Xml.

Page 88: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 88 Nguy n Trung Hi u - 0112216

}// ENDWHILE

}

- Hàm Tachtu( ) : c ph n n i dung c a t p tin XML v n b n và dùng i

ng thu c l p CTachTuGhep trích thành các t .

* Thu t toán :

string Tachtu (t p tin v n b n Xml)

{

- y ph n n i dung (CONTENT) trong t p tin Xml

- Dùng i t ng c a l p tách t ghép tách t .

- t qu tr v s là m t m ng ch a các t riêng bi t.

}

- Hàm KetQuaToXmlWord( ) : các t sau khi trích s c l u thành t p tin

XML m i g i là “t p tin sau khi tách t tài li u”

* Thu t toán :

void KetQuaToXmlWord(chu i ch a các t )

{

B1 : T o m t t p tin Xml

B2 : Tách ra t ng t trong chu i

B3 : Ki m tra t ó có l u trong t p tin Xml ch a ?

o u ch a : l u t ó và l u tài li u t ng ng

o u r i : ki m tra tài li u ó ã c l u trong t ó ch a.

u ch a ta m i l u tài li u ó.

Page 89: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 89 Nguy n Trung Hi u - 0112216

B4 : N u ch a h t chu i quay l i b c 2.

B5 : L u t p tin Xml l i.

}

2.1.4 p giao di n tách t

Hình 6-4 L p giao di n tách t

* Giao di n tách t :

Hình 6-5 Màn hình tách t

Page 90: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 90 Nguy n Trung Hi u - 0112216

- Ng i dùng có th ch n ng d n t i các t p tin v n b n c n tách t .

- ListBox1 ch a các t p tin v n b n trong ng d n ã ch n.

- ListBox2 ch a các t p tin v n b n c ch n tách t .

- ListBox3 ch a các t p tin xml ã c tách t .

- ListBox4 ch a các DocID trong t p tin xml ã c tách t . Vì m t t p tin v n b n

xml s ch a nhi u tài li u và m i tài li u s có 1 DocID. Ng i dùng có th ch n

DocID nào ó xem k t qu tách t và t n s c a m i t trong tài li u ó. Sau khi

ch n m t DocID s có giao di n nh sau :

Hình 6-6 Màn hình chi ti t tách t

Page 91: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 91 Nguy n Trung Hi u - 0112216

- Hàm x lý TachTu_Click( ) : hàm này s tách t t t c các t p tin c ch n trong

ListBox2.

2.2 Các l p trong quá trình l p ch m c

2.2.1 các l p

Hình 6-7 S l p l p ch m c

Page 92: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 92 Nguy n Trung Hi u - 0112216

2.2.2 p l p ch m c

Hình 6-8 L p l p ch m c

u vào c a l p l p ch m c là các t p tin tài li u ã c tách t và u ra s là

p tin ch m c tài li u. Nó s làm nhi m v tính t n s , tr ng s c a t trong tài li u

sau ó s l u các thông tin này l i thành t p tin Xml ch m c tài li u.

2.2.2.1 Ý ngh a c a các bi n thành ph n :

• sl : i t ng thu c l p CstopList ki m tra t có n m trong danh

sách StopList hay không.

2.2.2.2 Các hàm chính :

- Hàm TinhTanSo( ) : tính s l n xu t hi n c a t trong tài li u.

* Thu t toán :

int TinhTanSo(string Tu, string MaTL)

{

- T mã tài li u xác nh c tên t p tin ch a n i dung c a tài

li u.

- Duy t t u n cu i v n b n ta tìm t khóa c n tìm, n u

Page 93: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 93 Nguy n Trung Hi u - 0112216

tìm th y thì t ng bi n m lên m t n v .

- Tr v bi n m

}

- Hàm TinhTrongSo( ) : tính tr ng s c a t trong tài li u.

* Thu t toán :

double TinhTrongSo( int T ns )

{

return TanSo* log 10 (t ng s tài li u / s tài li u ch a t ó)

}

- Hàm ThemTaiLieuVaoInverted() : hàm này dùng c p nh t thêm t p

tin tài li u vào t p tin Inverted.

* Thu t toán :

void ThemTaiLieuVaoInverted( )

{

B1 : Duy t qua t ng t c a t p tin tài li u.

B2 : N u t ó có n m trong StopList thì quay l i B1.

B3 : Tính t n s c a t trong tài li u.

B3 : Ki m tra t ó có trong t p tin Inverted ch a ?

- N u ch a ta thêm t m i và thêm mã tài li u, t n s , tr ng s cho

ng 0.

- N u có r i ta ch c n thêm mã tài li u, t n s , tr ng s ( 0 ) vào

mà ta tìm th y trong t p tin Inverted.

Page 94: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 94 Nguy n Trung Hi u - 0112216

B4 : C p nh t l i tr ng s tòan b t p tin Inverted.

}

- Hàm CapNhatTrongSo() : Sau khi thêm tài li u m i vào tr ng s s

không còn chính xác n a nên ta ph i c p nh t l i tr ng s .

* Thu t toán :

void CapNhatTrongSo()

{

- Duy t qua t ng t trong t p tin Inverted.

- Tính s tài li u ch a t ó (s nút con c a nó)

- Tính t ng s tài li u.

- C p nh t l i thu c tính tr ng s (g i hàm TinhTrongSo)

}

2.2.3 p giao di n t o m i ch m c

Hình 6-9 L p giao di n t o m i ch m c

p này s có các i t ng h tr giao di n cho ng i s d ng l p ch m c,

o ra t p tin Inverted m i

2.2.3.1 Ý ngh a c a các bi n thành ph n :

Page 95: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 95 Nguy n Trung Hi u - 0112216

• lcm : i t ng thu c l p l p ch m c.

2.2.3.2 Màn hình giao di n t o m i ch m c :

Hình 6-10 Màn hình t o m i ch m c

• txtDuongDan : ch a ng d n n các t p tin ã c tách t .

• btnDuongDan : ch n ng d n n các t p tin ã c tách t .

• ListBox1 : ch a các t p tin Xml trong ng d n c a txtDuongDan

• ListBox2 : ch a các t p tin Xml c ch n l p ch m c.

• btnLeft, btnRight : chuy n các t p tin qua l i gi a 2 ListBox

Page 96: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 96 Nguy n Trung Hi u - 0112216

• chkSelectAll : ch n t t c các t p tin l p ch m c.

• chkRemoveAll : Lo i b t t c .

• btnThoat : tr l i Form chính.

• btnLapChiMuc : ch ng trình b t u l p ch m c.

- S ki n btnLapChiMuc_Click() : dùng i t ng lcm (c a l p l p ch m c)

l p ch m c cho t t c các t p tin trong ListBox2.

2.2.4 p giao di n c p nh t ch m c

Hình 6-11 L p Màn hình c p nh t ch m c

p MH_CapNhatChiMuc s làm nhi m v c p nh t các t p tin Xml ã c

tách t vào t p tin ã l p ch m c Inverted.

2.2.4.1 Ý ngh a c a các bi n thành ph n :

• lcm : i t ng thu c l p l p ch m c.

Page 97: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 97 Nguy n Trung Hi u - 0112216

2.2.4.2 Màn hình giao di n c p nh t ch m c :

Hình 6-12 Màn hình c p nh t ch m c

• txtDuongDan : ch a ng d n n các t p tin ã c tách t .

• btnDuongDan : ch n ng d n n các t p tin ã c tách t .

• ListBox1 : ch a các t p tin Xml trong ng d n c a txtDuongDan

Page 98: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 98 Nguy n Trung Hi u - 0112216

• ListBox2 : ch a các t p tin Xml c ch n l p ch m c.

• ListBox3 : ch a các t p tin ã c l p ch m c.

• btnLeft, btnRight : chuy n các t p tin qua l i gi a ListBox1 và ListBox2

• chkSelectAll : ch n t t c các t p tin l p ch m c.

• chkRemoveAll : lo i b t t c .

• btnThoat : tr l i Form chính.

• btnCapNhat : ch ng trình b t u c p nh t ch m c.

- S ki n btnCapNhat_Click( ) : dùng i t ng lcm (c a l p l p ch m c)

p nh t ch m c cho t t c các t p tin trong ListBox2, các t p tin n u ã c

p ch m c r i thì ch ng trình t ng b qua.

2.3 Các l p trong quá trình tìm ki m

2.3.1 các l p

Hình 6-13 S l p tìm ki m

Page 99: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 99 Nguy n Trung Hi u - 0112216

2.3.2 p tìm ki m

Hình 6-14 L p x lý tìm ki m

L p CTimKiem s có nhi m v tách t câu h i, lo i b các t trong danh sách

StopList, sau ó tìm các t khóa c a câu h i trong t p tin Inverted xác nh các tài

li u liên quan n câu h i, cu i cùng là tính t ng quan gi a các tài li u v i câu

i, s p x p t ng quan gi m d n và hi n th cho ng i s d ng.

2.3.2.1 Ý ngh a c a các bi n thành ph n:

• ttg : ây là i t ng c a l p tách t ghép dùng tách t câu h i.

• sl : ây là i t ng c a l p CstopList dùng ki m tra các t trong

câu h i có n m trong danh sách StopList không.

2.3.2.2 Các hàm chính :

- Hàm TachTuCauHoi( ) : hàm này nh m m c ích tách câu h i thành các t

riêng bi t. Ta dùng m t i t ng thu c l p CTachTuGhep tách t câu h i. K t qu

tr v là m t chu i ch a các t ã c tách ta s l u vào m t t p tin CauHoi.xml

trong th m c CauHoi.

Page 100: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 100 Nguy n Trung Hi u - 0112216

* Thu t toán :

void TachTuCauHoi(câu h i)

{

CTachTuGhep ttg = new CTachTuGhep

String str = ttg.TachTuGhep(câu h i)

L y t ng t trong chu i str a vào t p tin CauHoi.xml

}

Ví d : t p tin CauHoi.xml

<WORDS>

<WORD Name="tai n n" />

<WORD Name="giao thông" />

<WORD Name=" i" />

<WORD Name="tphcm" />

</WORDS>

- Hàm LoaiBoSLCauHoi( ) : hàm này nh m m c ích lo i b các t không

quan tr ng trong câu h i.

* Thu t toán :

void LoaiBoSLCauHoi()

{

- t p tin CauHoi.xml

- Duy t qua các t xem có n m trong StopList hay không ?

Page 101: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 101 Nguy n Trung Hi u - 0112216

- u không a vào t p tin CauHoiLoaiBoSL.xml ( t p tin này c ng

m trong th m c CauHoi)

}

Ví d : t p tin CauHoiLoaiBoSL.xml

<WORDS>

<WORD Name="tai n n" />

<WORD Name="giao thông" />

<WORD Name="tphcm" />

</WORDS>

- Hàm ThemDocVaWeight( ) : hàm này nh m m c ích là tìm ki m trong t p

tin Inverted các tài li u liên quan n các t khóa c a câu h i.

* Thu t toán :

void ThemDocVaWeight()

{

- t p tin CauHoiLoaiBoST.xml và duy t qua t ng t .

- o t p tin CauHoiVaTaiLieu.xml

- i v i t ng t ta dùng công c XPath xác nh v trí t trong t p

tin Inverted

- a t khóa và các tài li u liên quan ( mã tài li u, t n s , tr ng s )

vào t p tin CauHoiVaTaiLieu.xml

}

Ví d : t p tin CauHoiVaTaiLieu.xml sau khi g i hàm ThemDocVaWeight

Page 102: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 102 Nguy n Trung Hi u - 0112216

<WORDS>

<WORD Name="tai n n" />

<Doc DOC_ID="1" Frequence="2" Weight="3.63" />

</WORD>

<WORD Name="giao thông" />

<Doc DOC_ID="3" Frequence="1" Weight="1.32" />

</WORD>

<WORD Name="tphcm" />

<Doc DOC_ID="4" Frequence="1" Weight="1.08" />

</WORD>

</WORDS>

- Hàm BoSungCacDocThieu( ) : hàm này nh m m c ích b sung các tài li u

có trong t khóa này mà không có trong t khóa khác ( ph n t n s và tr ng s ta s

giá tr là 0 ).

Ví d : t p tin CauHoiVaTaiLieu.xml sau khi g i hàm BoSungCacDocThieu

<WORDS>

<WORD Name="tai n n" />

<Doc DOC_ID="1" Frequence="2" Weight="3.63" />

<DOC DOC_ID="3" Frequence="0" Weight="0" />

<DOC DOC_ID="4" Frequence="0" Weight="0" />

</WORD>

Page 103: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 103 Nguy n Trung Hi u - 0112216

<WORD Name="giao thông" />

<Doc DOC_ID="3" Frequence="1" Weight="1.32" />

<DOC DOC_ID="1" Frequence="0" Weight="0" />

<DOC DOC_ID="4" Frequence="0" Weight="0" />

</WORD>

<WORD Name="tphcm" />

<Doc DOC_ID="4" Frequence="1" Weight="1.08" />

<DOC DOC_ID="3" Frequence="0" Weight="0" />

<DOC DOC_ID="1" Frequence="0" Weight="0" />

</WORD>

</WORDS>

- Hàm TaoFileDoTuongQuan( ) : hàm này nh m m c ích t o ra t p tin

TuongQuan.xml ch a câu h i và các tài li u liên quan n câu h i kèm v i t ng

quan d a vào t p tin CauHoiVaTaiLieu.xml

Theo lý thuy t thì t ng quan gi a tài li u Di và câu h i Q s c tính theo

công th c :

SC(Q,Di) = ij1w *

n

qjj

d=

i :

n : S t phân bi t trong t p tài li u.

dij : tr ng s c a t j trong tài li u di. (ta ã tính c tr c ó)

wqj : tr ng s c a t j trong câu truy v n Q. S có 2 giá tr nh sau :

Page 104: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 104 Nguy n Trung Hi u - 0112216

wqj = 1 : N u t j có trong câu truy v n Q.

wqj = 0 : N u t j không có trong câu truy v n Q.

Th c ch t là ta ch c n c ng các t ng quan t ng t khóa c a câu h i là ta s có

ng quan c a câu h i v i tài li u.

Ví d : t p tin TuongQuan.xml sau khi g i hàm TaoFileDoTuongQuan

<CAU_HOI Name=”tai n n giao thông t i TPHCM”>

<Doc DOC_ID="1" SIMILAR="3.63" Words="1" />

<DOC DOC_ID="3" SIMILAR ="1.32" Words ="1" />

<DOC DOC_ID="4" SIMILAR ="1.08" Words ="1" />

</CAU_HOI>

- Hàm TinhDoTuongQuan( ) : hàm này nh m tính t ng quan gi a câu h i

và các tài li u có liên quan n nó. Trên th c t là ta g i 3 hàm v a nêu trên.

* Thu t toán :

void TinhDoTuongQuan()

{

ThemDocVaWeight();

BoSungCacDocThieu();

TaoFileDoTuongQuan();

}

Page 105: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 105 Nguy n Trung Hi u - 0112216

2.3.3 p giao di n tìm ki m

Hình 6-15 L p giao di n tìm ki m

8.3.1. Ý ngh a c a các bi n thành ph n :

§ Term : m ng chu i ch a các t khóa c a câu h i.

§ DocID : m ng chu i ch a DocID liên quan n câu h i.

§ Sim : m ng s th c ch a các t ng quan c a câu h i v i các tài li u

(DocID t ng ng).

§Words : m ng s nguyên ch a s t c a câu h i có trong tài li u

(DocID t ng ng).

§ n : t ng s tài li u liên quan n câu h i.

§ tk : i t ng c a l p x lý tìm ki m.

Page 106: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 106 Nguy n Trung Hi u - 0112216

* Giao di n tìm ki m :

Hình 6-16 Màn hình tìm ki m

- Sau khi tìm ki m xong ng i s d ng có th xem t khóa c a câu h i. Ví d v i câu

i : an toàn giao thông t i Tp. HCM b n s có c t khóa nh sau :

Hình 6-17 Xem t khóa câu h i

Page 107: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 107 Nguy n Trung Hi u - 0112216

- Xem t khóa c a tài li u : ngh a là khi ng i s d ng ch n m t tài li u nào ó và

ch n ch c n ng xem t khóa tài li u thì h s th y t khóa ó xu t hi n v i t n s bao

nhiêu và tr ng s t ng ng c a nó.

Hình 6-18 Xem t khóa tài li u

8.3.2. Các hàm chính c a l p :

- Hàm TimKiem_Click( ) : hàm này s dùng i t ng c a l p x lý tìm ki m

tách t câu h i r i tính t ng quan c a các tài li u v i câu h i

* Thu t toán :

void TimKiem_Click()

{

CtimKiem tk = new CtimKiem;

tk.TachTuCauHoi(câu h i)

tk.LoaiBoSLCauHoi(câu h i);

tk.TinhDoTuongQuan();

// Sau khi g i 3 hàm này ta s t o ra c t p tin TuongQuan.xml

c t p tin TuongQuan.xml ta a vào m ng các DocID, Sim, Words

Page 108: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 108 Nguy n Trung Hi u - 0112216

SapXepUuTien();

HienThiTaiLieu();

}

- Hàm s p x p u tiên : dùng gi i thu t InterchangeSort s p x p tài li u nào

liên quan n câu h i nhi u nh t.

* Thu t toán :

void SapXepUuTien ()

{

// u tiên theo Words (s t c a câu h i trong tài li u)

// u tiên theo Sim ( t ng quan c a tài li u v i câu h i)

}

- Hàm hi n th tài li u : ta s hi n th tài li u lên Form cho ng i dùng xem.

Page 109: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 109 Nguy n Trung Hi u - 0112216

3. t s màn hình giao di n khác

3.1 Màn hình chính c a ch ng trình

Hình 6-19 Màn hình chính

Ch ng trình s có 6 ch c n ng :

• Tách t : tách t các tài li u.

• o m i ch m c : t o t p tin Inverted.

• p nh t ch m c : c p nh t thêm tài li u vào t p tin Inverted.

• Tìm ki m : gõ câu h i và nh n các tài li u tr v .

Page 110: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 110 Nguy n Trung Hi u - 0112216

• Thoát : thóat h th ng ch ng trình.

3.2 Màn hình tìm ki m nhi u câu h i

Hình 6-20 Màn hình tìm ki m nhi u câu h i

Các câu h i s c l u trong m t t p tin Xml và theo c u trúc.

Ví d t p tin CauHoi.xml sau :

<Cac_Cau_Hoi>

<Cau_Hoi ID="1">

<Noi_Dung>kinh t tri th c</Noi_Dung>

</Cau_Hoi>

<Cau_Hoi ID="2">

Page 111: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 111 Nguy n Trung Hi u - 0112216

<Noi_Dung> án tham nh ng l n</Noi_Dung>

</Cau_Hoi>

</Cac_Cau_Hoi>

Page 112: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 112 Nguy n Trung Hi u - 0112216

3.3 Màn hình tìm ki m chính ( giao di n Web)

Hình 6-21 Giao di n tìm ki m trên Web

Page 113: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 113 Nguy n Trung Hi u - 0112216

3.4 Màn hình tr v các tài li u tìm c ( giao di n Web)

Hình 6-22 Giao di n các tài li u tr v sau khi tìm ki m

Page 114: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 114 Nguy n Trung Hi u - 0112216

3.5 Màn hình chi ti t c a m t tài li u ( giao di n Web)

`

Hình 6-23 Giao di n chi ti t n i dung c a tài li u

Page 115: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 115 Nguy n Trung Hi u - 0112216

Ph n 3 : NG K T

1. Ch ng trình th nghi m

th ng tìm ki m thông tin ti ng Vi t (Search4VN) c cài t trên máy có

u hình : Pentium IV, CPU 2.0 Ghz, b nh Ram 256 MB, a c ng 40 GB, s tài

li u c l p ch m c là 13.000 tài li u t ng dung l ng kho ng 35 MB. L p ch m c

cho toàn b d li u trên t o thành t p tin Inverted.xml có dung l ng là 40 MB.

Ch ng trình h tr 2 d ng giao di n : giao di n Web ch cho ng i s d ng tìm ki m,

và giao di n Window Application cho Admin s d ng, c hai giao di n trên u c

phát tri n trên môi tr ng Visual studio .NET.

2. ánh giá k t qu t c

Nhìn chung, lu n v n ã hoàn thành nh ng yêu c u ra:

Ø Nghiên c u c cách th c ho t ng c a m t h th ng tìm ki m thông tin.

Ø Tìm hi u c các mô hình xây d ng m t h tìm ki m thông tin.

Ø Tìm hi u các ph ng pháp tách t .

Ø Tìm hi u ph ng pháp l p ch m c cho tài li u.

Ø Áp d ng xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c

có c u trúc.

th ng có m t s u m nh sau:

Ø Tách t ti ng Vi t khá chính xác.

Ø Tham s hóa các y u t liên quan n l p ch m c và tra c u.

Page 116: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 116 Nguy n Trung Hi u - 0112216

Ø Tìm ki m khá nhanh. Các tài li u tr v c s p x p khá chính xác.

Ø Tóm t t c n i dung tài li u tr v

Ø Giao di n thân thi n, d s d ng

Tuy nhiên, h th ng còn m t s khuy t m c n c i thi n:

Ø Ch a t ng l y c các tài li u m i gi ng nh m t h th ng Search Engine.

Ø Ch a h tr b gõ

Ø Ch a h tr các ch c n ng tìm ki m nâng cao

3. ng phát tri n

Ø Tìm hi u k t h p các công c tách t cho k t qu tách t t t nh t

Ø tr các b gõ ti ng Vi t

Ø tr các ch c n ng tìm ki m nâng cao.

Ø ng t c c p nh t ch m c, tìm ki m.

Ø Thêm ch c n ng t ng l y các tài li u và c p nh t vào t p tin ch m c phát

tri n thành m t trang Web tìm ki m cho ti ng Vi t.

Page 117: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 117 Nguy n Trung Hi u - 0112216

TÀI LI U THAM KH O

1. Sách

[1.1] Gerard Salton/ Michael J.McGill; Introduction to Modern Information

Retrieval

[1.2] David A.Grossman/Ophir Frieder; Information Retrival: Algorithms and

Heuristics

[1.3] C.J van RIJSBERGEN Department of Computing Science University of

Glassgow; Information Retrival.

[1.4] inh n; lý ngôn ng t nhiên

2. Lu n v n

[2.1] Thành Giang. Lu n án th c s khoa h c. Tìm hi u v cách xác nh t lo i

và xây d ng công c xác nh t lo i. Giáo viên h ng d n : T.S H B o Qu c.

[2.2] Nguy n H i Quy n, L ng Th Hoàng Thuý. Lu n v n c nhân tin h c. o

khoá cho v n b n ti ng Vi t. GVHD: Chu T t Bích San.

[2.3] Lê Thúy Ng c, M Nhung. Lu n v n c nhân tin h c. Tìm hi u v

Search Engine và xây d ng ng d ng cho Search Engine ti ng Vi t. Giáo viên

ng d n : Th.S Nguy n Th Di m Tiên.

3. Website

[3.1] http://nlp.cs.jhu.edu/~rflorian/fntbl/tbl-toolkit/

Page 118: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 118 Nguy n Trung Hi u - 0112216

[3.2] http://www.dcs.gla.ac.uk

[3.3] http://www.vinaseek.com

[3.4] http://www.google.com

[3.5] http://www.yahoo.com


Top Related