tom tat lats nmvuong
DESCRIPTION
asdsaTRANSCRIPT
-
I HC QUC GIA TP.HCM
TRNG I HC BCH KHOA TP.HCM
NG MINH VNG
TRUY HI THNG TIN DA TRN
ONTOLOGY
Chuyn ngnh: Khoa hc My tnh
M s chuyn ngnh: 62.48.01.01
TM TT LUN N TIN S K THUT
TP. H CH MINH NM 2013
-
Cng trnh c hon thnh ti: Trng i hc Bch Khoa -
i hc Quc Gia TpHCM
Ngi hng dn khoa hc: PGS. TS. Cao Hong Tr
Phn bin c lp 1: PGS. TS. ng Th Bch Thy
Phn bin c lp 2: PGS. TS. L Thanh Hng
Phn bin 1: PGS. TS. Phc
Phn bin 2: TS. Nguyn Th Minh Huyn
Phn bin 3: PGS. TS. Dng Tun Anh
Lun n s c bo v trc Hi ng chm lun n hp ti:
..
..
Vo lc .gi.ngythngnm.
C th tm hiu lun n ti:
- Th vin Khoa hc Tng hp Tp.HCM - Th vin Trng i hc Bch Khoa HQG-TpHCM
-
1
1 Chng 1 - GII THIU
D liu trn Web phn ln l vn bn v ch ph hp cho con
ngi c hiu. Do , vic nghin cu v pht trin cc m hnh
truy hi vn bn c y v chnh xc cao l cn thit. Trong
lun n ny, khi khng cn nhn mnh, chng ti dng thut ng
truy hi ti liu vi ngha l truy hi vn bn.
Nhm khc phc nhc im ni trn ca cc m hnh truy hi
ti liu theo t kha, cc m hnh truy hi theo ng ngha khai thc
v biu din ngha ca cc t v khi nim tim n trong truy vn v
ti liu. Cng vi s ra i v pht trin ca Web c ng ngha,
ontology c s dng rng ri trong vic nghin cu v pht trin
cc m hnh truy hi ti liu theo ng ngha. Trong , nhiu cng
trnh vi mc ch nng cao hiu qu truy hi ti liu : (1) khai
thc thc th c tn; (2) khai thc t WordNet; trong lun n, chng
ti gi t WordNet l t c m t trong mt ontology v t vng
nh WordNet; hoc (3) thm thng tin vo truy vn.
V d vi truy vn tm kim cc ti liu v Earthquake in USA
th cc ti liu v Earthquake in United States of America, v
Temblor in USA hoc v Earthquake in Denali, Alaska 2002 u
ph hp vi truy vn ny. iu ny l do: (1) USA v United States
of America l hai b danh (alias) ca cng mt thc th c tn
(Named Entity, NE); (2) Earthquake v Temblor l hai t WordNet
ng ngha vi nhau; v (3) Denali, Alaska 2002 l mt trn ng
t xy ra USA. Trong khi , cc ti liu v Earthquake in
Fukushima 2011 khng ph hp vi truy vn trn v Fukushima
2011 tuy cng l mt trn ng t nhng xy ra Japan, khng
phi USA. gii quyt cc vn ny, cn khai thc cc c
im ontology v thc th c tn, v t WordNet, v v s kin.
Mc tiu ca lun n l nghin cu khai thc cc ontology v
thc th c tn, t WordNet v s kin nng cao hiu qu truy hi
-
2
ti liu. Th nht, lun n kho st tt c cc c im ontology ca
thc th c tn v nghin cu nh hng ca chng n hiu qu
truy hi ti liu. ng thi, lun n nghin cu cc cch kt hp gia
thc th c tn v t kha trong truy hi ti liu. Trong , so vi
cc cng trnh trc y, lun n khai thc thm cp tn-lp v nh
danh ca thc th c tn biu din truy vn v ti liu. Ngoi ra,
lun n khai thc cc lp thc th mc c th tim n trong t
hi dng Wh. Th hai, lun n nghin cu khai thc cc c im
ontology ca t WordNet v kt hp chng vi t kha. Ngoi cc
c im ontology c bn ca t WordNet l nhn v ngha c
s dng trong cc cng trnh trc y, lun n s dng thm cp
nhn-ngha biu din t WordNet trong trng hp t ny c
nhiu hn mt ngha trong ng cnh xem xt. Th ba, lun n khai
thc ontology v s kin thm vo truy vn cc thc th tim n
lin quan vi cc thc th theo cc quan h tng minh trong truy
vn.
Cc m hnh xut ca lun n s dng cc ontology v thc
th c tn, t WordNet v s kin c bao ph ln, v cc gii
thut nhn din thc th c tn v phn gii nhp nhng ngha ca t
c chnh xc cao ca cc cng trnh khc. V vy, cc kt qu th
nghim trong lun n chu nh hng ca cht lng ca cc
ontology v cng c x l c s dng. Tuy nhin, ngha ca
lun n l nghin cu s khc bit v hiu qu truy hi ti liu ca
cc m hnh khc nhau trn cng mt nn tng ontology v cng c
tin x l.
Vic xy dng mt h thng truy hi ti liu dng ngay trong
thc tin nm ngoi phm vi ca lun n. V vy, trng tm ca lun
n khng phi l vn thi gian x l v truy hi ti liu, m l v
chnh xc v y ca cc m hnh v phng php xut.
Lun n xut cc m hnh truy hi ti liu khai thc cc
c im ontology v thc th c tn, v t WordNet v v s kin
-
3
mt cch tng i y v ton din nhm nng cao hiu qu truy
hi, bao gm:
1. M hnh khai thc cc c im ontology ca thc th c tn
v kt hp chng vi t kha.
2. M hnh khai thc cc c im ontology ca t WordNet kt
hp vi t kha.
3. M hnh m rng truy vn vi cc thc th c tn bng cch
lan truyn theo cc quan h tng minh trong truy vn.
4. M hnh kt hp cc phng php trong cc m hnh c
xut trn.
Hiu qu ca cc m hnh xut c kim tra bng thc nghim
v qua bc kim nh ngha thng k.
Lun n ny gm 123 trang c chia thnh 7 chng. Chng
1 - Gii thiu; Chng 2 - C s kin thc; Chng 3 - Khai thc
thc th c tn; Chng 4 - Khai thc t WordNet; Chng 5 - Khai
thc thng tin tim n; Chng 6 - Kt hp cc m hnh; Chng 7 -
Tng kt. Lun n c 35 bng, 35 hnh v s dng 178 ti liu tham
kho trong c 8 bi bo khoa hc c cng b ca tc gi.
2 Chng 2 - C S KIN THC
2.1 Ontology
Ontology bt ngun t trit hc, c dn xut t ting Hy Lp
l onto v logia. Trong nhng nm gn y, ontology c s
dng nhiu trong khoa hc my tnh v c nh ngha khc vi
ngha ban u. Theo ontology l s m hnh ha v c t cc cc
khi nim mt cch hnh thc, r rng v chia s c. Cc ontology
c s dng trong lun n l KIM ontology, WordNet v YAGO.
KIM ontology cha khong 300 lp thc th, 100 thuc tnh v
kiu quan h, v 77.500 thc th c tn vi hn 110.000 b danh.
Thc th c tn l con ngi, t chc, ni chn, v nhng i tng
khc c tham kho bng tn. Mi thc th c tn c ba c im
-
4
ontology c bn l tn, lp v nh danh. Mi thc th c tn c th
c nhiu tn khc nhau, c gi l cc b danh ca thc th c tn
. Mt khc, cng c nhiu thc th c tn khc nhau nhng c
cng tn. Mi thc th c tn thuc v mt lp trc tip ca n v
ng thi thuc v cc lp cha ca lp trc tip . Mi thc th c
tn c mt nh danh xc nh duy nht n.
WordNet phin bn 3.0 cha khong 155.000 t v 117.000
tp ng ngha. Mi t WordNet c cc c im l nhn (word
form, form hoc label) v ngha (word meaning hoc sense). Trong
, mi nhn l s pht m hoc s ghi vt l ca mt t. Mi ngha
ca mt t c mt nh danh xc nh duy nht n trong WordNet.
Hai nhn c gi l ng ngha ca nhau nu s thay th ln nhau
ca chng trong mt cu khng lm thay i ngha ca cu . Cc
nhn l ng ngha ca nhau s to thnh mt tp ng ngha
(synsets) v c th c dng biu din mt ngha.
YAGO cha khong 1,95 triu thc th, 93 kiu quan h v 19
triu s kin m t quan h gia cc thc th. Cng nh KIM
ontology, cc kiu thuc tnh v quan h gia cc thc th c tn
trong YAGO l nh phn.
2.2 Nhn din thc th c tn v phn gii nhp nhng ngha
ca t
Nhn din thc th c tn (Named Entity Recognition NER) l
nhm xc nh ng nh danh hoc lp ca mt thc th c tn
trong ng cnh xem xt. Ty theo ng cnh, mt gii thut NER c
th khng xc nh c nh danh m ch xc nh c lp ca
thc th c tn, hoc thm ch cng khng xc nh c lp. Trong
lun n, ng c nhn din thc th c tn ca KIM c dng
rt trch cc c im ontology ca thc th c tn trong truy vn v
ti liu. Cc c im ontology ny c lun n khai thc ch
-
5
gii thc th c tn trong truy vn v ti liu. chnh xc v y
ca ng c ny ln lt vo khong 90% v 86%.
Phn gii nhp (Word Sense Disambiguation - WSD) l nhm
xc nh ng ngha ca mt t trong ng cnh xem xt. Trong
Agirre v Soroa (2009), cc tc gi cho thy hiu qu ca gii thut
WSD da trn WordNet xut hiu qu hn cc gii thut da trn
WordNet khc v c chnh xc khong 56.8%. Lun n p dng
gii thut WSD ny rt trch cc c im ontology ca t
WordNet, v dng chng ch gii ng ngha ca cc t WordNet
trong truy vn v ti liu.
2.3 Tp d liu kim tra
Mi tp kim tra bao gm 3 phn: (1) mt tp ti liu; (2) mt
tp truy vn; v (3) mt tp cc cp truy vn v ti liu c lin quan
vi nhau. Mt s tp kim tra chun l TREC, CISI, NTCIR, CLEF,
Reuters-21578, TIME v WBR99. Trong , tp TIME gm 425 ti
liu v 83 truy vn, c cung cp bi SMART. TREC l hi tho
c t chc hng nm bi Vin K Thut - Cht Lng Hoa K v
B Quc Phng Hoa K nhm to ra mt c s cho vic nh gi
cc phng php truy hi thng tin vi quy m ln. Trong , tp ti
liu L.A. Times ca TREC c s dng ph bin trong cc bi bo
ca SIGIR-2007 v SIGIR-2008. Tp ti liu ny cha hn 130.000
ti liu, vi gn 500MB.
2.4 o hiu qu truy hi v kim nh ngha thng k
Cc o thng dng cho vic nh gi hiu qu truy hi ca
mt m hnh truy hi ti liu l chnh xc v y . Hai o
ny thng l b tr vi nhau, tc l nu chnh xc cao th y
thp v ngc li. V vy mt o kt hp c hai c s dng
l F (F-measure). Mt cch khc nh gi hiu qu truy hi ti
liu l xy dng ng cong P-R, cho thy s thay i ca chnh
xc theo s tng dn ca y . Bn cnh , chnh xc trung
-
6
bnh nhm (mean average precision - MAP) cng l mt trong nhng
o chun ca cng ng truy hi ti liu.
S hn thua gia cc m hnh th hin bi cc o trn c
th l tnh c. Do , khi tin hnh so snh cc m hnh, mt gi
thuyt null (null hypothesis) c t ra l cc m hnh ny tng
ng nhau v hiu qu truy hi d l o hiu qu ca chng
khc nhau. ph nhn gi thuyt null v khng nh m hnh ny
tht s hiu qu hn m hnh kia th cn c bc kim nh ngha
thng k (statistical significance test). Trong cc phng php kim
nh ngha thng k th phng php kim nh ngu nhin Fisher
c tnh n nh cao nn s c lun n s dng.
3 Chng 3 - KHAI THC THC TH C TN
3.1 Gii thiu
Cc c im ontology ca thc th c tn tim n trong truy
vn v ti liu l c ngha vi hiu qu truy hi. V d nh i vi
lp ca thc th c tn, cc ti liu cha Ha Noi, Paris, hoc
New York c th l cc cu tr li cho truy vn tm ti liu v cc
thnh ph (tc l cc thc th thuc lp thnh ph) trn th gii.
Truy hi ti liu da trn t kha s khng tm c cc ti liu
trn cho truy vn ny, bi v n khng s dng thng tin lp tim n
ca cc thc th trong cc ti liu so khp vi lp ca cc thc
th m ngi dng quan tm. Trong trng hp nh danh ca thc
th c tn, cc ti liu v U.S., USA, United States, hoc America
nn c tr v cho truy vn tm cc ti liu v United States of
America. Truy hi ti liu ch da trn t kha s tht bi bi v n
khng s dng tri thc l mt thc th c tn c th c nhiu b danh
khc nhau. Trong trng hp thng tin kt hp bi lp v tn ca
thc th, vi truy vn tm kim cc ti liu v ng Washington,
ngi dng mun nhn c cc ti liu ni v Washington nh l
-
7
mt ngi. Trong khi cc m hnh da trn t kha c th tr v bt
k trang no cha t Washington, cho d l tn ca mt tiu bang
hay mt trng i hc. V th, mt trong nhng mc tiu ca lun
n ny l nghin cu, kho st v khai thc cc c im ontology
khc nhau ca thc th c tn cho truy hi ti liu.
Hn na, s xut hin ca mt thc th c tn trong mt ti liu
hm cha v ko theo cc thng tin tim n khc. Th nht, l cc
b danh ca thc th . V d, nu quc gia Georgia xut hin trong
mt ti liu th xem nh cc b danh ca n nh Gruzia cng c
trong ti liu . Th hai, l cc lp cha ca lp ca thc th .
V d, nu thnh ph Paris xut hin trong mt ti liu th xem nh
cc lp cha ca lp City nh Location cng c trong ti liu . V
vy, nng cao hiu qu truy hi, cc ti liu cn c m rng bi
cc c im ontology bao ph, tc l c hm v ko theo bi,
cc c im ontology gc ca cc thc th c tn xut hin trong
cc ti liu .
Mt khc, mt truy vn thng khng ch c thc th c tn, v
d truy vn economic growth of Vietnam, Vietnam l thc th c
tn c nh danh, cn economic v growth l cc t kha. Cc
t kha ny cng quan trng trong vic th hin ni dung ca truy
vn. V th, vic kt hp thc th c tn v t kha l cn thit
biu din ni dung ca cc truy vn v ti liu.
Thm vo , trong cc truy vn c cha t hi Wh nh Who,
Which, Where, When hoc What, cc t hi ny hm cha lp ca
cc thc th c tn c hi. V d truy vn Where did the Battle
of the Bulge take place?, t hi Where hm v cc thc th c
tn thuc lp Location. V th, vic khai thc v nh x t hi Wh
n lp ca thc th c tn thch hp cng c lun n nghin cu
nhm nng cao hiu qu truy hi ti liu.
Chng ny xut cc m hnh khng gian vect (Vector
Space Model VSM) da trn thc th c tn v t kha, vi bn
-
8
ni dung chnh sau: (1) khai thc tt c cc c im ontology ca
thc th c tn; (2) m rng ti liu bng cc c im ontology bao
ph cc c im ontology gc ca thc th c tn; (3) khai thc lp
ca thc th c tn tim n trong cu hi Wh; (4) kt hp thc th c
tn v t kha.
3.2 M hnh a khng gian vect cho thc th c tn
Cc c im ontology ca thc th c tn
Lun n xut mt m hnh trn nhiu khng gian vect tng
ng vi cc c im ontology khc nhau ca thc th c tn.
biu din mt cch hnh thc cc truy vn v ti liu bng cc c
im ontology ca thc th c tn, lun n nh ngha b ba (N, C,
I), trong N, C, v I ln lt l tp hp cc tn, lp v nh danh
ca cc thc th trong ontology v thc th. Theo :
1. Mi truy vn q hoc ti liu d c m hnh ha nh l mt
tp con ca (N{*})(C{*})(I{*}). Mi b ba
(tn/lp/nhdanh) trong tp ny c xem l mt thut ng
(term) ontology ca thc th c tn. Trong * biu th mt
tn, lp hoc nh danh khng xc nh ca mt thc th c
tn trong truy vn hoc ti liu.
2. Truy vn q c m t bi b bn (Nq
,
Cq
, NCq
,
Iq
), trong
Nq
, Cq
, NCq
v
Iq
ln lt l cc vect trn N, C, NC, v I.
3. Ti liu d c biu din bi b bn (Nd
,
Cd
, NCd
, Id
),
trong Nd
,
Cd
, NCd
v Id
ln lt l cc vect trn N, C,
NC, v I.
tng t ca mt ti liu d v mt truy vn q c nh
ngha l:
sim( d
, q
) = wN.cosine( Nd
,Nq
) + wC.cosine( Cd
,Cq
)
+ wNC.cosine( NCd
,NCq
) + wI.cosine( Id
, Iq
) (3-1)
-
9
Trong wN + wC + wNC + wI = 1. Cc trng s wN, wC, wNC v wI ca
cc vect thnh phn c th c iu chnh ty theo mc quan
trng ca bn c im ontology trong tng min ng dng c th.
X l truy vn v ti liu
Nh trnh by trn, trong m hnh a khng gian vect NE
xut, mi truy vn hoc ti liu c biu din bng bn vect trn
cc khng gian N, C, NC, v I. Mi vect c xy dng trn mt
ti thut ng ontology tn, lp, cp tn-lp hoc nh danh tng
ng vi truy vn hoc ti liu.
Mi truy vn q trong m hnh a khng gian vect c x l
theo cc bc sau:
1. Cc thc th c tn trong truy vn c rt trch bi mt ng
c nhn din thc th c tn.
2. Vi mi thc th c tn c nhn din:
Nu thc th ch c nhn din c tn n, th n c b
sung vo ti thut ng ontology tn biu din q.
Nu thc th ch c nhn din c lp c, th c c b
sung vo ti thut ng ontology lp biu din q.
Nu thc th ch c nhn din c tn n v lp c, th c b sung vo ti thut ng ontology cp tn-lp
biu din q.
Nu thc th c nhn din y c tn n, lp c v nh
danh id, th id c b sung vo ti thut ng ontology nh
danh biu din q.
Mi ti liu d trong m hnh a khng gian vect c x l
theo cc bc sau:
1. Cc thc th c tn trong ti liu c rt trch bi mt ng
c nhn din thc th c tn ging nh trong x l truy vn.
2. Vi mi thc th c tn c nhn din:
-
10
a. Nu thc th ch c nhn din c tn n, th n c b
sung vo ti thut ng ontology tn biu din d.
b. Nu thc th ch c nhn din c lp c, th c v
super_class(c) c b sung vo ti thut ng ontology lp
biu din d.
c. Nu thc th ch c nhn din c tn n v lp c, th ln
lt b sung vo cc ti thut ng ontology tn, lp v cp
tn-lp biu din d cc thut ng sau:
n
c, super_class(c)
,
d. Nu thc th c nhn din y c tn n, lp c v nh
danh id, th ln lt b sung vo cc ti thut ng ontology
tn, lp, cp tn-lp v nh danh biu din d cc thut ng
sau:
name(id)
c, super_class(c)
,
id
y, name(id) l mt tn bt k ca thc th c nh danh l id
v super_class(c) l mt lp cha bt k ca lp c. Cc thng tin ny
c nh ngha trong ontology v thc th c tn m h thng s
dng.
3.3 Kt hp thc th c tn v t kha
M hnh a khng gian vect kt hp thc th c tn v t kha
Cc truy vn hoc ti liu khng ch cha thc th c tn m cn
cha t kha. V th, ngoi bn vect trn cc thut ng ontology
ca thc th c tn, truy vn hoc ti liu cn c thm vect trn t
kha.
-
11
tng t ca mt ti liu d v mt truy vn q c nh
ngha nh sau:
sim( d
, q
) = .[wN.cosine( Nd
,Nq
) + wC.cosine( Cd
,Cq
)
+ wNC.cosine( NCd
,NCq
) + wI.cosine( Id
,Iq
)]
+ (1 ).cosine(KWd
,KWq
) (3-2)
Trong wN + wC + wNC + wI = 1, [0, 1], v KWd
v KWq
ln lt
l vect trn khng gian t kha ca ti liu d v truy vn q. Trng
s biu din mc quan trng ca thc th c tn v t kha
trong vic biu din truy vn v ti liu, v c th c iu chnh
ty theo tng min ng dng c th.
Vi mt truy vn cho trc, sau giai on lc ti liu, tp ti liu
tha mn biu thc Bool ca cc t kha c th c giao hoc hp
vi tp ti liu tha mn biu thc Bool ca cc thc th c tn trong
truy vn ny. Nh vy c hai m hnh biu din cch kt hp thc
th c tn v t kha, ln lt c k hiu l NEKW v
NEKW, tu theo vic ly giao hay hp cc tp ti liu tho mn
cc biu thc Bool ca cc t kho v thc th biu din truy vn.
Trong cc m hnh a khng gian vect kt hp thc th c tn v t
kho trnh by trn, cm t no c xem l thc th c tn th
cng c xem l t kha.
M hnh tng qut
Vi quan im xem cc thc th c tn v t kha u l cc
thut ng, lun n xut mt m hnh khng gian vect khc, kt
hp thc th c tn v t kha, c gi l m hnh tng qut v k
hiu l NE+KW. Theo m hnh ny, mi ti liu hoc truy vn c
biu din bng mt vect trn mt khng gian hp nht ca cc thut
ng tng qut l tn, lp, cp tn-lp, nh danh, v t kha.Vic
-
12
xy dng cc vect, lc v xp hng ti liu ging nh trong VSM
truyn thng, nhng trn cc ti thut ng tng qut ny.
Mi truy vn q trong m hnh NE+KW c x l theo cc bc
sau:
1. Loi b cc t khng cha thng tin quan trng (stop-words)
v a cc t v dng nguyn mu (stemming).
2. Cc thc th c tn trong truy vn c rt trch bi ng c
nhn din thc th c tn.
3. Vi mi thc th c tn c nhn din:
a. Nu thc th ch c nhn din c tn n, th b ba (n/*/*)
c b sung vo ti thut ng tng qut biu din q.
b. Nu thc th ch c nhn din c lp c, th b ba (*/c/*)
c b sung vo ti thut ng tng qut biu din q.
c. Nu thc th ch c nhn din c tn n v lp c, th b ba
(n/c/*) c b sung vo ti thut ng tng qut biu din
q.
d. Nu thc th c nhn din y c tn n, lp c v nh
danh id, th b ba (*/*/id) c b sung vo ti thut ng
tng qut biu din q.
4. Cm t no khng l thc th c tn s c xem l t kha
v b sung vo ti thut ng tng qut biu din q.
Mi ti liu d trong m hnh NE+KW c x l theo cc bc
sau:
1. Loi b cc t khng cha thng tin quan trng v a cc t
v dng nguyn mu tng t nh trong x l truy vn.
2. Cc thc th c tn trong ti liu c rt trch bi ng c
nhn din thc th c tn tng t nh trong x l truy vn.
3. Vi mi thc th c tn c nhn din:
a. Nu thc th ch c nhn din c tn n, th (n/*/*) c
b sung vo ti thut ng tng qut biu din d.
-
13
b. Nu thc th ch c nhn din c lp c, th (*/c/*) v
(*/super_class(c)/*) c b sung vo ti thut ng tng
qut biu din d.
c. Nu thc th ch c nhn din c tn n v lp c, th b
sung vo ti thut ng tng qut biu din d cc thut ng
sau:
(n/*/*)
(*/c/*), (*/super_class(c)/*)
(n/c/*), (n/super_class(c)/*)
d. Nu thc th c nhn din y c tn n, lp c v nh
danh id, th b sung vo ti thut ng tng qut biu din d
cc thut ng sau:
(name(id)/*/*)
(*/c/*), (*/super_class(c)/*)
(name(id)/c/*), (name(id)/super_class(c)/*)
(*/*/id)
4. Cm t no khng l thc th c tn s c xem l t kha
v b sung vo ti thut ng tng qut biu din d.
Nh vy, so vi vic x l truy vn v ti liu theo m hnh a
khng gian vect, im khc bit y ch l cc thut ng ontology
ca thc th c tn c biu din bng mt nh dng chung l cc
b ba (tn/lp/nh danh), v c trong mt ti thut ng
ontology tng qut chung thay v cc ti thut ng ontology tn, lp,
cp tn-lp, v nh danh ring l.
Cc t hi Wh nh Who, Which, Where, When hoc What
trong truy vn hm cha lp ca thc th c tn c hi. V th, t
hi ny c thay th bng mt lp ca thc th c tn trong
ontology v thc th, u tin lp c th nht c th, nhm biu din
ngha ca t hi. Lun n xut m rng m hnh tng qut
NE+KW vi vic chuyn t hi sang lp ca thc th.
-
14
3.4 nh gi thc nghim
Kho st cc cch kt hp thc th c tn v t kha
Vic kt hp thc th c tn v t kha c th c thc hin
thng qua vic kt hp m hnh a khng gian vect cho thc th v
m hnh khng gian vect cho t kha, hoc thng qua m hnh
thut ng tng qut. C th l lun n nh gi cc m hnh sau y:
1. Lexical: l m hnh khng gian vect da trn t kha truyn
thng c hin thc trong Lucene.
2. NE: l m hnh a khng gian vect da trn thc th c tn.
3. NEKW: l m hnh kt hp thc th c tn v t kha bng
cch hp hai tp ti liu tr v ca hai m hnh NE v KW.
4. NEKW: l m hnh kt hp thc th c tn v t kha bng
cch giao hai tp ti liu tr v ca hai m hnh NE v KW.
5. NE+KW: l m hnh kt hp thc th c tn v t kha bng
cch hp nht v xem cc thut ng ontology ca thc th c
tn v t kha l cc thut ng tng qut.
Cc m hnh trn c thc nghim trn tp TIME. Hu ht cc
truy vn (80 trong s 83) ca tp TIME khng cha t hi. Do
lun n khng p dng vic nh x t hi n lp ca thc th c
tn trong m hnh NE+KW khi thc nghim trn tp TIME. Vic
nh x t hi ny s c kim tra trn tp TREC phn sau.
kim tra xem s hn thua v MAP ca cc m hnh c phi l
tnh c hay khng, phng php kim nh ngu nhin Fisher c
p dng cho tt c cc th nghim ca lun n vi s hon v l
100.000 v ngng ca tr s p hai chiu l 0,05.
Cc MAP c th hin Bng 3.1 cho thy m hnh da
hon ton trn thc th c tn v m hnh da hon ton trn t kha
c s khc bit cht t MAP, v MAP ca hai m hnh ny
thp hn ng k so vi MAP ca cc m hnh kt hp thc th
-
15
c tn v t kha. Trong m hnh NE+KW c MAP cao nht,
vi cc mc ci thin ng k so vi cc m hnh cn li.
Bng 3.1. Cc chnh xc trung bnh nhm ca cc m hnh
Lexical, NE, NEKW, NEKW v NE-KW
M hnh NE+KW Lexical NE NEKW NEKW
MAP 0,7252 0,6167 0,6039 0,6977 0,681
ci thin 17,6% 20,1% 3,9% 6,5%
Bng 3.2. Tr s p hai chiu ca phng php kim nh ngu nhin
Fisher ca m hnh NE+KW so vi cc m hnh khc
M hnh A M hnh B |MAP(A)
MAP(B)| N
N
+
Tr s p
hai chiu
NE+KW
Lexical 0,1085 0 5 0,00005
NE 0,1213 1 12 0,00013
NEKW 0,0275 7.977 25.059 0,33036
NEKW 0,0442 3.512 12.327 0,15839
Bng 3.2 th hin cc tr s p hai chiu ca phng php kim
nh ngu nhin Frisher gia m hnh NE+KW vi cc m hnh
khc. Lun n chn m hnh NE+KW khng ch bi v MAP cao
nht ca n, m cn bi tnh n gin v tnh ng nht ca n so
vi cc m hnh a khng gian vect. Cc kt qu cho thy m hnh
NE+KW thc s hiu qu hn cc m hnh Lexical v NE (do cc tr
s p hai chiu tng ng nh hn 0,05). C th l vi MAP, m
hnh NE+KW thc s hiu qu hn m hnh Lexical khong 17,6%.
Trong khi m hnh NE+KW c hiu qu tng ng vi cc m
hnh NEKW v NEKW (do cc tr s p hai chiu tng ng ln
hn 0,05). iu ny c th c gii thch l m hnh NE+KW,
tn, lp, cp tn-lp, v nh danh ca thc th c tn c i x
nh nhau, tng ng vi cc trng s ging nhau ca cc vect
-
16
c im
M hnh
thnh phn trn cc khng gian N, C, NC, v I cc m hnh
NEKW v NEKW.
Kho st nh hng ca cc c im ontology ca thc th c
tn
Nh cp n v phn tch trong Phn 3.1, cc c im
ontology ca thc th c tn nh tn, lp, cp tn-lp v nh danh
cn c nghin cu v khai thc. V th trong phn ny, lun n
thc nghim v so snh hiu qu truy hi ti liu ca vic s dng
cc c im ontology khc nhau biu din truy vn v ti liu.
Bng 3.3 trnh by vic khai thc cc c im ontology khc
nhau ca thc th c tn biu din truy vn v ti liu ca cc
nhm cng trnh lin quan v nhm m hnh ca lun n. Cc nhm
m hnh lin quan c k hiu l Group_1, Group_2 v Group_3,
tng ng vi cc nhm cng trnh lin quan c kho st. Nhm
m hnh ca lun n gm hai m hnh l NE+KW+notID v
NE+KW.
Bng 3.3. Vic s dng cc c im ontology ca thc th c tn
biu din truy vn v ti liu
Nhm cng trnh lin quan Nhm m hnh ca lun n
Group_1 Group_2 Group_3 NE+KW+notID NE+KW
Tn x x x x
Lp x x x x
Cp Tn-Lp x x
nh danh x
Tng t nh m hnh tng qut NE+KW, cc nhm m hnh
Group_1, Group_2, Group_3 v NE+KW+notID c cng cc c
im l: (1) xem thc th c tn v t kha l thut ng tng qut;
(2) cm t khng c nhn din l thc th c tn s c xem nh
l t kha; v (3) s dng m hnh khng gian vect biu din
truy vn v ti liu. Tuy nhin, khc vi m hnh NE+KW, Group_1
-
17
ch s dng tn, Group_2 ch s dng lp v xem tn ca thc th
nh t kha, Group_3 ch s dng tn v lp mt cch ring l, v
NE+KW+notID ch s dng tn, lp v cp tn-lp, m khng s
dng nh danh thc th. C th l:
1. Vi mi thc th c b ba y (n/c/id) trong mt truy vn
q, cc thut ng sau y s c s b sung vo ti thut ng
tng qut biu din q, tu theo tng nhm m hnh:
- Group_1: (n/*/*)
- Group_2: (*/c/*) v t kha n
- Group_3: (n/*/*) v (*/c/*)
- NE+KW+notID: (n/c/*)
- NE+KW: (*/*/id).
2. Vi mi thc th c b ba y (n/c/id) trong mt ti liu d,
cc thut ng sau y s c s b sung vo ti thut ng
tng qut biu din d, bao gm c cc thut ng bao ph cc
thut ng gc trong d, tu theo tng nhm m hnh:
- Group_1: (name(id)/*/*)
- Group_2: (*/c/*), (*/super_class(c)/*) v t kha n
- Group_3: (name(id)/*/*), (*/c/*) v (*/super_class(c)/*)
- NE+KW+notID: (name(id)/*/*), (*/c/*),
(*/super_class(c)/*), (name(id)/c/*) v
(name(id)/super_class(c)/*)
- NE+KW: nh NE+KW+notID cng vi (*/*/id).
Cc m hnh ny cng c lun n tin thnh thc nghim v
hiu qu truy hi trn tp TIME. Bng 3.4 trnh by cc MAP ca
cc m hnh Lexical, Group_1, Group_2, Group_3, NE+KW+notID,
v NE+KW. Theo o ny, m hnh NE+KW c hiu qu truy hi
cao nht, nn tip theo y c kim nh ngha thng k so vi
cc m hnh cn li.
-
18
Bng 3.4. Cc chnh xc trung bnh nhm ca cc m hnh
Lexical, Group_1, Group_2, Group_3, NE+KW+notID, v NE+KW
M hnh NE+KW Lexical Group_1 Group_2 Group_3 NE+KW+notID
MAP 0,7252 0,6167 0,6516 0,6259 0,6624 0,7120
ci thin 17,6% 11,3% 15,9% 9,5% 1,9%
Bng 3.5. Tr s p hai chiu ca phng php kim nh ngu nhin
Fisher ca m hnh NE+KW so vi cc m hnh Lexical, Group_1,
Group_2, Group_3 v NE+KW+notID
M hnh A M hnh B |MAP(A) MAP(B)|
N N
+
Tr s p hai chiu
NE+KW
Lexical 0,1085 0 5 0,00005
Group_1 0,0736 1.452 1.354 0,02806
Group_2 0,0993 381 376 0,00757
Group_3 0,0628 2.455 2.340 0,04795
NE+KW+notID 0,0132 8.259 8.295 0,16554
Cc MAP v tr s p hai chiu Bng 3.4 v Bng 3.5 cho
thy m hnh NE+KW thc s hiu qu hn cc m hnh Lexical,
Group_1, Group_2 v Group_3 ln lt l 17,6%, 11,3%, 15,9% v
9,5% MAP. iu ny chng t vic khai thc thm cp tn-lp
v nh danh ca thc th c tn gip ci thin hiu qu truy hi so
vi vic ch s dng t kha hoc ch kt hp t kha vi tn v lp
ca thc th mt cch ring l. Trong khi , m hnh NE+KW c
hiu qu tng ng vi m hnh NE+KW+notID khi th nghim
trn tp TIME. iu ny c th c gii thch l v trong tp TIME
phn ln nu hai thc th c nh danh khc nhau th cc cp tn-lp
tng ng cng khc nhau. V d nh trong tp TIME khng c hai
thnh ph khc nhau c cng tn xut hin trong cc ti liu. Tc l
bn thn mt cp tn-lp xc nh mt thc th, tng ng
nh mt nh danh. Do , trong trng hp ny, vic s dng thm
-
19
nh danh thc th ca m hnh NE+KW khng to nn s khc bit
ng k so vi m hnh NE+KW+notID.
Kho st nh hng ca t hi Wh
Phn ny trnh by th nghim nh gi nh hng ca vic khai
thc lp thc th tim n trong t hi Wh i vi hiu qu truy
hi ti liu, trn mt tp d liu kim tra c nhiu truy vn loi Wh.
Lun n chn tp kim tra gm tp ti liu L.A. Times v tp truy
vn ca QA-Track-99 ca TREC, v tp ti liu L.A. Times c s
dng nhiu trong cng ng truy hi ti liu v phn ln cc truy vn
ca QA-Track-99 (102 trong s 124) c t hi Who, Which,
Where, When hoc What. Chng tht s biu din cc lp ca thc
th c tn v c th cha thng tin hu ch trong vic tm cc ti liu
lin quan cho cc truy vn ny. Lun n t tn cho m hnh
NE+KW m rng vi vic nh x cc t hi Wh n cc lp thc
th tng ng l NE+KW+Wh.
Cc MAP trong Bng 3.6 v cc tr s p hai chiu trong Bng
3.7 cho thy vic khai thc cc thut ng ontology ca thc th c
tn trong truy vn v ti liu, v nh x t hi n lp ca thc
th c tn ci thin hiu qu truy hi. Hiu qu ca m hnh
NE+KW+Wh hiu qu hn 10,8% so vi m hnh da trn t kha
Lexical MAP. khc bit nh gia hai MAP ca hai m
hnh NE+KW+Wh v NE+KW (~3,35%) c th c gii thch nh
sau. Th nht, trong s 124 truy vn, ch 68 cu c t hi Wh v
c nh x thnh lp ca thc th c tn. Trong khi c 22 cu
khng c t hi Wh v 34 cu c t hi Wh nhng khng tm
c trong KIM lp ca thc th c tn tng ng. Th hai, trong
68 cu c nh x t hi, m hnh NE+KW+Wh hiu qu hn,
bng v thua m hnh NE+KW ln lt 32, 24 v 12 truy vn.
-
20
Bng 3.6. Cc chnh xc trung bnh nhm ca cc m hnh
Lexical, NE+KW v NE+KW+Wh
Model NE+KW+Wh Lexical NE+KW
MAP 0,5652 0,5099 0,5469
ci thin 10,8% 3,3%
Bng 3.7. Tr s p hai chiu ca phng php kim nh ngu nhin
Fisher gia cc m hnh NE+KW+Wh, NE+KW v Lexical
M hnh A M hnh B |MAP(A) MAP(B)|
N N
+
Tr s p hai chiu
NE+KW Lexical 0,037 1.751 2.500 0,04251
NE+KW+Wh Lexical 0,0553 143 259 0,00402
NE+KW 0,0183 77 52 0,00129
4 Chng 4 - KHAI THC T WORDNET
4.1 Gii thiu
Ngoi nhc im khng xt n cc c im ontology tim n
ca thc th c tn xut hin trong truy vn v ti liu, truy hi ti
liu theo t kha truyn thng cha tha mn nhu cu tm kim
thng tin cn l do khng xt n ngha ca cc t. Xt cc v d
sau: (1) tm kim cc ti liu v movement; (2) tm kim cc ti
liu v movement belonging to change; v (3) tm kim cc ti liu
v movement belonging to the act of changing location from one
place to another. Bn thn t movement c nhiu ngha khc
nhau. truy vn th nht, ngi dng mong mun tm kim cc ti
liu khng ch cha t movement m cn cha cc t ng ngha
ca n nh motion, front, campaign v trend, hoc cc cc
ngha con ca n nh opening, passing, travel, displacement
v transfer. truy vn th hai, ngi dng khng mong ch nhn
c cc ti liu cha cc t cng c nhn l movement nhng
khng phi l tc ng thay i mt ci g (change), nh
-
21
front hoc trend. Tc l, ch cc ti liu cha t movement
ng ngha vi hoc l ngha con ca change th mi ph hp vi
truy vn th hai. Trong khi , truy vn th ba yu cu cc ti liu
ni v movement vi mt ngha c th v xc nh l s thay i v
tr t ni ny n ni khc, nh s di c ca con ngi t nng thn
ra thnh th. V th, mt trong nhng mc tiu ca lun n ny l
nghin cu, kho st v khai thc cc c im ontology khc nhau
ca t WordNet nh nhn, ngha ca t, ngha cha v ngha con cho
truy hi ti liu.
Cc gii thut WSD thng xp hng cc ngha ca mt t theo
mc ph hp ca chng vi t ny trong ng cnh xem xt. Tip
theo, ngha c th hng cao nht s c gn cho t ny. Trong
trng hp c nhiu hn mt ngha c cng th hng cao nht, cc
gii thut ny s chn ngu nhin mt ngha hoc chn tt c cc
ngha ny. Nu chn ngu nhin mt ngha m l ngha sai th kt
qu tr v s khng ph hp vi truy vn. Cn nu chn tt c cc
ngha th nhiu kt qu tr v s khng ph hp vi truy vn v c
nhiu ngha khng ng c chn. V th, trong trng hp mt
t c nhiu ngha c xc nh bi mt gii thut WSD, lun n
xut s dng ngha cha chung c th nht ca cc ngha ny v kt
hp vi nhn ca t biu din thng tin cho t ny.
Mc khc, trong cc truy vn, thng c mt s t khng phi l
t WordNet hoc cha c cp nht vo ontology v t vng. l
mt tn thc th hoc l mt t cha c trong ontology v t vng
c s dng. V d, vi truy vn What are the best-selling blooks
in USA?, best-selling l t WordNet, USA l mt tn thc th,
v blook (c ngha l mt quyn sch da trn ni dung ca mt
blog) l mt t cha c a vo WordNet.
Trong chng ny, chng ti xut mt m hnh truy hi ti
liu da trn t WordNet v t kha. Cc t khng phi l t
WordNet c xem nh cc t kho thng thng. Trong , da
-
22
trn mt ontology v t vng, mi t WordNet s c biu din bi
thut ng ontology c th nht c th trong mt ng cnh xem xt.
4.2 M hnh khng gian vect da trn t WordNet
Mi t WordNet trong vn bn thng c mt ngha xc nh.
Tuy nhin, ngha ca mt t WordNet c th khng c xc nh
ng v nhiu l do. Th nht, l s m h v ngha ca mt t
trong truy vn, do ng cnh khng r rng ca truy vn hoc do ch
ca ngi dng mun tm cc ti liu ni v bt k ngha c th
no ca t . Th hai, l do ng cnh khng r rng ca t
WordNet trong ti liu. Th ba, gii thut WSD c hn ch trong
vic xc nh ng ngha ca mt t trong truy vn hoc ti liu, d
trong ng cnh con ngi hiu c ng ngha ca t .
Nh cp trn, trong trng hp mt t c nhiu hn mt
ngha ph hp, lun n xut biu din t ny bng mt thng tin
c th nht c th. l s kt hp gia nhn ca t vi ngha
cha chung c th nht ca cc ngha ph hp ca t . Thng tin kt
hp ny mang ngha rng hn mt ngha ngu nhin nhng hp hn
tp hp tt c cc ngha ph hp. Ngha cha chung c th nht
msc_hypernym l mt quan h gia mt ngha v mt tp ngha. Mt
ngha s c gi l mt msc_hypernym ca mt tp ngha {s1, s2, ...}
nu s l mt ngha cha chung ca chng v khng c ngha cha
chung no ca chng c th hn s.
Tm li, ni mt cch tng qut, mt t WordNet c nhn f c
th c ch gii thnh mt trong cc nh dng sau: (1) ngha ca f
khi n c mt ngha duy nht c xc nh; hoc (2) thng tin kt
hp khi n c nhiu hn mt ngha c xc
nh. y, msc_hypernym(f) l ngha cha chung c th nht ca cc
ngha c th ca nhn f trong ng cnh xem xt, theo mt gii thut
WSD c s dng.
-
23
M hnh khng gian vect da trn t WordNet kt hp vi t
kho (l nhng t cn li khng c nhn din nh l mt t trong
mt ontology v t vng nh WordNet) m lun n xut c k
hiu l WN+KW. Tng t nh m hnh tng qut NE+KW
Chng 3, m hnh WN+KW biu din mi truy vn hoc ti liu
bi mt vect n trn khng gian thut ng tng qut. Mt thut
ng tng qut l mt t WordNet hoc mt t kha. Vic biu din
vect, lc v xp hng ti liu tng t nh trong m hnh khng
gian vect truyn thng. im khc bit l, nh vi m hnh khng
gian vect cho thc th c tn, m hnh WN+KW cng m rng ti
liu vi cc c im ontology bao ph cc c im ontology gc
ca cc t WordNet xut hin trong ti liu, khi tnh cc trng s
tf.idf cho vect biu din ti liu.
X l truy vn v ti liu
Mi truy vn q trong m hnh WN+KW c x l theo cc
bc sau:
1. Loi b cc t khng cha thng tin quan trng v a cc t
v dng nguyn mu.
2. Cc t WordNet trong truy vn c nhn din v xc nh
ngha bi mt gii thut WSD.
3. Vi mi t WordNet c nhn din:
Nu xc nh c ngha s duy nht ca t ny, th s (tc
nh danh ca ngha) c b sung vo ti thut ng tng
qut biu din q.
Nu t ny c nhn f v c nhiu hn mt ngha ph hp,
th c b sung vo ti thut ng
tng qut biu din q.
4. T no khng l t WordNet s c xem l t kha v b
sung vo ti thut ng tng qut biu din q.
-
24
Mi ti liu d trong m hnh WN+KW c x l theo cc bc
sau:
1. Loi b cc t khng cha thng tin quan trng v a cc t
v dng nguyn mu tng t nh trong x l truy vn.
2. Cc t WordNet trong ti liu c nhn din v xc nh
ngha bi mt gii thut WSD nh trong x l truy vn.
3. Vi mi t WordNet c nhn din:
a. Nu xc nh c ngha s duy nht ca t ny, th b sung
vo ti thut ng tng qut biu din d cc thut ng sau:
s, hypernym(s)
,
b. Nu t ny c nhn f v c nhiu hn mt ngha ph hp,
th b sung vo ti thut ng tng qut biu din d cc thut
ng sau:
msc_hypernym(f), hypernym(msc_hypernym(f))
,
4. T no khng l t WordNet s c xem l t kha v b
sung vo ti thut ng tng qut biu din d.
y, form(s) l mt nhn bt k ca mt t WordNet c ngha s, v
hypernym(s) l mt ngha cha bt k ca ngha s. Cc thng tin ny
c nh ngha trong ontology v t vng m h thng s dng.
4.3 nh gi thc nghim
Bng 4.1. Vic s dng cc c im ontology ca t WordNet
biu din truy vn v ti liu
Nhm cng trnh lin quan M hnh ca lun n
Group_1 Group_2 WN+KW
Nhn x
Ngha x x
Cp Nhn-Ngha x
Trong phn ny, lun n tin hnh thc nghim so snh hiu
qu truy hi ti liu ca m hnh WN+KW xut vi cc m hnh
M hnh
c im
-
25
lin quan cng khai thc t WordNet kt hp vi t kha. Nh trnh
by Bng 4.1, cc nhm m hnh lin quan c k hiu l
Group_1 v Group_2, tng ng vi cc nhm cng trnh lin quan
kho st, da trn cch khai thc cc c im ontology ca t
WordNet. Tng t nh vi m hnh WN+KW, m hnh khng gian
vect c s dng hin thc hai nhm m hnh Group_1 v
Group_2, v t WordNet v t kha c xem l thut ng tng qut
biu din truy vn v ti liu. Trong , Group_1 ch s dng
nhn cn Group_2 ch s dng ngha biu din t WordNet trong
truy vn v ti liu. So vi Group_2, m hnh WN+KW ca lun n
khai thc v s dng thm cp nhn-ngha ca t WordNet trong
trng hp mt t WordNet c nhiu hn mt ngha trong ng cnh
xem xt. C th l:
1. Lexical: l m hnh khng gian vect da trn t kha
truyn thng c hin thc trong Lucene, nh Chng 3.
2. Group_1: nhm m hnh ny, vi mi t WordNet, nu t
ny truy vn th n c biu din bi nhn xut hin
trong truy vn, nu t ny ti liu th n c biu din
bng tp ng ngha ca t ny. Cc t khng c xc nh
l t WordNet c xem l t kha.
3. Group_2: nhm m hnh ny, vi mi t WordNet c
ngha s, nu t ny truy vn th n c biu din bng s,
nu t ny ti liu th n s c biu din bng s v
hypernym(s). Cc t khng c xc nh l t WordNet
c xem l t kha.
Tng t nh Chng 3, chng ti chn tp ti liu L.A.
Times ca TREC tin hnh thc nghim hiu qu truy hi ca cc
m hnh trn. Tip theo, chng ti chn cc truy vn ca Adhoc-
Track-99 c ti liu lin quan thuc tp L.A. Times. C 44 truy vn
trong tng s 50 truy vn ca Adhoc-Track-99 c chn. Mi truy
vn y c 3 phn: tiu (title), m t (description) v tng
-
26
thut (narrative). Trong , phn tiu c s dng lm truy vn
trong tt c cc th nghim ca chng ny.
Bng 4.2 trnh by cc MAP ca cc m hnh ny v Bng
4.3 l kt qu kim nh ngha thng k theo phng php Fisher.
Cc kt qu ny cho thy m hnh WN+KW tht s hiu qu hn ba
m hnh cn li, m c bit l vic s dng thm cp nhn-ngha
gip ci thin hiu qu truy hi so vi cc m hnh khai thc cc c
im ontology ca t WordNet trc y. MAP, m hnh
WN+KW hiu qu hn so vi cc m hnh Lexical, Group_1 v
Group_2 ln lt l 30%, 19,7% v 14,9%.
Bng 4.2. Cc chnh xc trung bnh nhm ca cc m hnh
Lexical, Group_1, Group_2 v WN+KW
M hnh WN+KW Lexical Group_1 Group_2
MAP 0,2866 0,2204 0,2395 0,2494
ci thin 30% 19,7% 14,9%
Bng 4.3. Tr s p hai chiu ca phng php kim nh
ngu nhin Fisher gia m hnh WN+KW vi cc m hnh
Lexical, Group_1 v Group_2
M hnh A M hnh B |MAP(A) MAP(B)|
N N
+
Tr s p hai chiu
WN+KW
Lexical 0,0662 2.079 2.060 0,04139
Group_1 0,0471 2.471 2.427 0,04898
Group_2 0,0372 2.486 2.472 0,04958
5 Chng 5 - KHAI THC THNG TIN TIM N
5.1 Gii thiu
Mt truy vn thng ngn gn nn nhiu khi khng din t ht
mun ca ngi dng. lm r ngha hn ni dung ca truy vn,
phng php m rng truy vn c s dng rng ri trong cng
ng truy hi thng tin. M rng truy vn l thm vo truy vn cc
thng tin tim n khng xut hin truy vn nhng gp phn biu
-
27
din r hn ngha ca truy vn, tc lm r hn mun ca ngi
dng.
Phng php kch hot lan truyn (Spreading Activation - SA),
l mt phng php m rng truy vn, tm kim trn ontology cc
khi nim c lin quan vi cc khi nim truy vn theo cc quan h
trong ontology. Cc khi nim c kch hot s c thm vo truy
vn. Vic thm thng tin ph hp vi mun ca ngi dng
thng lm tng hiu qu truy hi ti liu. Ngc li, hiu qu truy
hi ca m hnh thng gim nu thm cc thng tin khng ph hp.
V d, xt cc truy vn tm cc ti liu v cc ni dung sau: (1)
cities that are tourist destinations of Thailand; (2) Jewish
settlements are built in the east of Jerusalem; v (3) works of
Ernest Hemingway. truy vn th nht, Chiang Mai v Phuket nn
c thm vo truy vn, v chng thuc lp City v l cc im du
lch ni ting ca Thi Lan. Vic thm vo truy vn cc thnh ph du
lch ni ting khc nh Jakarta v Hanoi l khng ph hp, v hai
thnh ph ny khng Thi Lan. truy vn th hai, cc khu nh c
Do Thi c xy dng pha ng ca thnh ph Jerusalem nh
Beit Orot v Beit Yehonatan nn c thm vo truy vn. truy vn
th ba, cn thm The Old Man and the Sea v A Farewell to Arms
vo truy vn ny v chng l cc tc phm ca nh vn Ernest
Hemingway.
Khc vi cc phng php kch hot lan truyn trc y, trong
chng ny lun n xut phng php m rng truy vn vi cc
thc th c tn tim n bng cch lan truyn trn ontology theo cc
quan h tng minh trong truy vn. Cc b danh, lp cha v lp con
ca thc th trong ontology c khai thc thc hin kch hot lan
truyn. Tuy nhin, sau khi cc thc th tim n c thm vo truy
vn, c truy vn v cc ti liu u c xem nh cc ti t kho.
Vic kt hp phng php kch hot lan truyn xut y v cc
c im ontology v thc th c tn v t WordNet trnh by
-
28
cc chng trc s c hin thc trong m hnh hp nht
Chng 6.
5.2 M rng truy vn
Phng php kch hot lan truyn m rng truy vn m lun
n xut trong chng ny l phng php rng buc theo quan h,
c gi l R+CSA. Truy vn ban u c m rng thng qua
Phng php R+CSA. Tip theo cc ti liu v truy vn m rng s
c biu din bi cc khng gian vect da trn t kha. Cui
cng, vic lc v xp hng ti liu c thc hin nh vi VSM
truyn thng thng qua m un VSM da trn t kha, trong
trng s ca cc t kha c tnh theo tf.idf.
Phng php R+CSA xc nh thng tin tim n lin quan vi
truy vn gm nm bc chnh sau:
1. Nhn din quan h: nhn din cc cm t quan h trong truy
vn v nh x chng thnh cc quan h tng ng trong
ontology c s dng.
2. Nhn din cc khi nim khi ng: nhn din v ch gii cc
thc th xut hin trong truy vn.
3. Thit lp cc b quan h: biu din truy vn ban u thnh cc
b quan h I-R-C (hoc C-R-I) cho mi quan h R c xc
nh bc 1, vi I v C ln lt l mt thc th c tn xc
nh v mt lp thc th c nhn din bc 2.
V d vi truy vn Where is the actress, Marion Davies,
buried?, cm t quan h c xc nh bi hai t where v
buried c nh x thnh quan h R l buriedIn, Marion
Davies c nhn din l thc th c tn c nh danh I l
#Marion_Davies v c lp l Woman, v t where c nh
x thnh lp C l Location. V vy b quan h c thit lp
trong truy vn ny l [I: #Marion_Davies]-(R: buriedIn)-[C:
Location].
-
29
4. Kch hot lan truyn c rng buc theo quan h tng minh
trong truy vn: vi mi b quan h I-R-C, tm cc thc th c
tn tim n Ia c quan h R vi I v Ia c lp l C hoc l lp
con ca C trong ontology. V d, trong ontology c s dng
c quan h:
[I: #Marion_Davies]-(R: buriedIn)-
[Ia: #Hollywood_Cemetery]
v #Hollywood_Cemetery l thc th c lp l lp con ca
Location, nn l mt thc th c tn tim n cn tm cho b
quan h v d thit lp bc 3.
5. M rng truy vn: thm vo truy vn tn chnh ca mi Ia tim
n c tm thy. v d trn, Hollywood Cemetery c
thm vo truy vn.
Nh vy, so vi phng php SA t do, phng php R+CSA
c ba rng buc. Th nht l rng buc v khong cch. Tc l, da
trn ontology v s kin c s dng, ch cc thc th c quan h
trc tip vi cc thc th ban u xut hin trong truy vn mi c
kch hot. Th hai l rng buc v quan h. Tc l, trn ontology v
s kin, s lan truyn ch c thc hin trn cc quan h xut hin
tng minh trong truy vn. Th ba l v lp thc th. Tc l, lp ca
mi thc th c kch hot phi ging vi, hoc l lp con ca, lp
theo quan h tng ng trong truy vn.
5.3 nh gi thc nghim
tin hnh thc nghim m hnh R+CSA, tng t nh
Chng 3, chng ti chn tp ti liu L.A. Times v tp truy vn ca
QA-Track-99. Chng ny so snh hiu qu truy hi ti liu gia m
hnh R+CSA do lun n xut vi hai m hnh sau:
1. Lexical: l m hnh khng gian vect da trn t kha truyn
thng c hin thc trong Lucene, nh Chng 3 v
Chng 4.
-
30
2. CSA: l m hnh s dng phng php kch hot lan truyn c
rng buc theo khong cch. N m rng truy vn bng cch
lan truyn trn ontology theo tt c cc quan h trc tip vi
cc thc th ban u trong truy vn. Cc truy vn m rng v
cc ti liu sau cng c biu din theo m hnh khng
gian vect da trn t kha.
Cc MAP trong Bng 5.1 v cc tr s p hai chiu trong Bng
5.2 cho thy vic m rng truy vn mt cch hp l s lm tng hiu
qu ca truy hi vn bn. MAP, m hnh R+CSA ca lun n
hiu qu hn ln lt l 26,5% v 17,8% so vi hai m hnh Lexical
v CSA.
Bng 5.1. Cc chnh xc trung bnh nhm ca cc m hnh
Lexical, CSA v R+CSA
M hnh R+CSA Lexical CSA
MAP 0,6451 0,5099 0,5474
ci thin 26,5% 17,8%
Bng 5.2. Tr s p hai chiu ca phng php kim nh ngu nhin
Fisher gia m hnh R+CSA vi hai m hnh Lexical v CSA
M hnh A M hnh B |MAP(A) MAP(B)|
N N
+
Tr s p hai chiu
R+CSA Lexical 0,1352 1.691 1.630 0,03321
CSA 0,0977 2.207 2.268 0,04475
6 Chng 6 - M HNH HP NHT
6.1 Gii thiu
Chng 3 v Chng 4 ln lt gii thiu m hnh khai thc
thc th c tn v m hnh khai thc t WordNet m lun n xut
cho truy hi ti liu. Tuy nhin, cc truy vn v ti liu thng cha
c cc thc th c tn v cc t WordNet. Trong khi , Chng 5
xut phng php kch hot lan truyn c rng buc theo quan h
thm vo truy vn cc thc th tim n. Tuy nhin, cc truy vn
-
31
m rng v ti liu vn c biu din di dng cc t kha v vic
so khp gia chng l s so khp gia cc t kha.
Do , trong chng ny, chng ti xut m hnh hp nht
UM (Unified Model) kt hp cc phng php c xut cc
Chng 3, 4 v 5, tha hng u im ca tng phng php.
y l m hnh khng gian vect tng qut khai thc v ch gii cc
c im ontology ca thc th c tn v t WordNet trong cc ti
liu v truy vn, vi s m rng truy vn bng cch khai thc cc
thc th tim n lin quan n cc khi nim v quan h trong truy
vn.
6.2 M hnh hp nht da trn ontology
Kin trc h thng ca m hnh hp nht UM c trnh by
trong Hnh 6.1 c hai phn chnh l phn1 cha cc m un ch gii
v m rng truy vn v phn 2 cha cc m un m rng v ch gii
ti liu. M hnh hp nht s dng ba ontology KIM, WordNet v
YAGO, ln lt c khai thc nh l ontology v thc th c tn,
ontology v t WordNet, v ontology v s kin.
phn 1 ca kin trc h thng, m un Phng php R+CSA,
l phng php trnh by Chng 5, xc nh cc thc th tim
n ph hp m rng truy vn. Tip theo, t truy vn c m
rng, m un Nhn din v ch gii thc th c tn, v m un Phn
gii nhp nhng v ch gii t WordNet ln lt xc nh v nhng
cc thut ng ontology c th nht ca thc th c tn v t
WordNet vo trong truy vn. Thm vo , m un Nhn din v
ch gii t hi thay th t hi, nu c, bng lp ca thc th c
tn thch hp. Cui cng, vic truy hi ti liu theo ng ngha c
thc hin thng qua m un VSM tng qut da trn thc th c tn,
t WordNet v t kha.
phn 2 ca kin trc h thng, m un Nhn din v ch gii
thc th c tn, v m un Phn gii nhp nhng v ch gii t
-
32
WordNet ln lt xc nh v nhng cc thut ng ontology ca thc
th c tn v t WordNet vo trong ti liu. Tip theo, ti liu c
m rng bng cc thut ng ontology bao ph cc thut ng
ontology gc ca thc th c tn v t WordNet. Cc thut ng
ontology ny v t kha c nh ch mc thng qua m un M
rng v nh ch mc ti liu theo cc thut ng ontology ca thc
th c tn, t WordNet v t kha v c lu tr Kho cha ti
liu c ch gii v m rng theo thc th c tn, t WordNet v t
kha.
Hnh 6.1. Kin trc h thng ca m hnh UM
X l truy vn
Truy vn ban u c m rng theo phng php xut
Chng 5, nhng cc thc th tim n thm vo khng c thay th
bng cc tn chnh ca chng. Tip theo cc t khng hm cha
Phn 2
Phn 1
Cc ti liu c xp hng
VSM tng qut da trn
NE, t WordNet v KW
Kho cha ti liu c ch gii v m rng theo
NE, t WordNet v KW
M rng v nh ch mc ti liu theo cc thut ng ontology
ca NE, t WordNet v KW Phn gii nhp nhng
v ch gii t WordNet
Ontology v t WordNet
Ontology v NE (KIM)
Nhn din v
ch gii NE
......
......
......
......
..
Ti liu th
Nhn din v
ch gii NE
Truy vn m rng c ch gii theo
NE, t WordNet v KW
Phn gii nhp nhng v ch gii t WordNet
Truy vn c m rng
Nhn din v ch gii t hi
Truy vn th
Phng php R+CSA
-
33
thng tin quan trng trong truy vn m rng c loi b. Vic nhn
din v ch gii thc th c tn v t WordNet trong truy vn m
rng ging nh m hnh NE+KW v m hnh WN+KW Chng
3 v Chng 4. Trong , nu mt t va l thc th c tn va l t
WordNet, th s c u tin xem l thc th c tn. Mt t khng
c nhn din nh l thc th c tn hoc t WordNet th s c
xem nh l t kha. Bn cnh , t hi (Who, Which, Where,
When hoc What) truy vn cng s c nh x ng thi thnh
lp tng ng trong ontology v thc th.
X l ti liu
i vi mi ti liu, u tin h thng loi b cc t khng hm
cha thng tin quan trng. Tip theo h thng nhn din cc thc th
c tn v t WordNet, v m rng chng ging nh m hnh
NE+KW v m hnh WN+KW trnh by Chng 3 v Chng
4. Trong , nu mt cm t va l thc th c tn va l t
WordNet th s c u tin xem l thc th c tn. Nu mt cm t
khng c nhn din nh l thc th c tn hoc t WordNet th s
c xem nh l t kha. Cui cng, cc ti liu c nh ch mc
theo cc thut ng ontology ca thc th c tn, t WordNet, v t
kha.
6.3 nh gi thc nghim
Trc ht, trong phn ny, lun n gii thiu m hnh NE+WN
l kt hp gia m hnh NE+KW+Wh Chng 3 vi m hnh
WN+KW Chng 4. Tip theo, m hnh hp nht UM l m hnh
kt hp gia m hnh NE+WN trn vi m hnh R+CSA Chng
5. Lun n tin hnh nh gi thc nghim kim tra xem m hnh
NE+WN c hiu qu hn hai m hnh NE+KW+Wh v WN+KW
hay khng, v m hnh UM c hiu qu hn hai m hnh NE+WN v
R+CSA hay khng. Nm m hnh ny c thc nghim trn tp d
-
34
liu kim tra ging nh Chng 3 v Chng 5, tc l tp ti liu
L.A. Times v tp truy vn ca QA-Track-99.
Cc MAP trong Bng 6.1 v cc tr s p hai chiu trong Bng
6.2 cho thy vic khai thc cc c im ontology ca thc th c tn
v t WordNet cng vi cc thc th tim n trong truy vn tht
s lm tng hiu qu truy hi ti liu. C th l, m hnh UM c hiu
qu hn bn m hnh NE+KW+Wh, WN+KW, NE+WN v R+CSA
ln lt l 26.8%, 32.9%, 19% v 11,1% MAP.
Bng 6.1. Cc chnh xc trung bnh nhm ca cc m hnh
NE+KW+Wh, WN+KW, NE+WN, R+CSA v UM
M hnh UM NE+KW+Wh WN+KW NE+WN R+CSA
MAP 0,7166
0,5652 0,5391 0,6024 0,6451
ci thin 26.8% 32.9% 19% 11,1%
Bng 6.2. Tr s p hai chiu ca phng php kim nh ngu nhin
gia m hnh NE+WN vi cc m hnh NE+KW+Wh v WN+KW,
v gia m hnh UM so vi cc m hnh NE+WN v R+CSA
M hnh A M hnh B |MAP(A)
MAP(B)| N
N
+
Tr s p
hai chiu
NE+WN NE+KW+Wh 0,0372 1.716 1.643 0,03359
WN+KW 0,0633 2.009 2.109 0,04118
UM NE+WN 0,1142 1.043 966 0,02009
R+CSA 0,0715 2.188 2.140 0,04328
7 Chng 7 - TNG KT
Mc tiu ca lun n l nghin cu v xut cc m hnh truy
hi ti liu da trn ontology nhm ci thin hiu qu truy hi ti
liu. Cc thng tin trong cc ti liu v truy vn phn ln c din
t thng qua cc khi nim l thc th c tn v t WordNet. Do
, lun n nghin cu cc c im ontology khc nhau ca thc
th c tn v t WordNet v khai thc chng biu din ng ngha
ca truy vn v ti liu. Mt khc, mi truy vn hm cc thc th
-
35
c tn tuy khng xut hin trong truy vn nhng cc ti liu ni v
chng cng nm trong mong i ca ngi t truy vn. V vy, lun
n cn nghin cu cc phng php khm ph v thm vo truy
vn cc thc th tim n ny. Cc m hnh truy hi ti liu m lun
n xut da trn ba loi ontology l ontology v thc th c tn,
ontology v t vng (nh WordNet), v ontology v s kin.
Cc m hnh trong lun n c th nghim trn cc tp d liu
kim tra chun TIME v TREC, theo cc o hiu qu chun l
chnh xc, y , F v MAP. c bit l phng php kim
nh ngha thng k c s dng xc nhn li s tng hiu qu
ca cc m hnh xut.
Chng 3, lun n kho st cc cch khai thc cc c im
ontology khc nhau ca thc th c tn cc cng trnh lin quan v
truy hi ti liu, v nhn thy hai c im l cp tn-lp v nh
danh thc th cha c s dng. Lun n nghin cu xut v
lm th nghim nh gi cc m hnh biu din truy vn v ti liu c
s dng y cc c im ontology ca thc th (tc l tn, lp,
cp tn-lp, v nh danh) v kt hp vi t kho. Bn cnh , lun
n cng xut nh x cc t hi Wh vo cc lp thc th tng
ng khi biu din truy vn.
Chng 4, lun n tp trung nghin cu khai thc cc c
im ontology v t vng c nh ngha trong mt c s d liu
v t vng nh WordNet. Lun n xut mt cch mi l s dng
nhn ca t kt hp vi ngha cha chung c th nht ca cc
ngha c th.
Chng 5, phng php m lun n xut l ch kch hot v
thm vo truy vn cc thc th c tn c quan h vi cc thc th
xut hin trong truy vn theo cc quan h tng minh trong truy vn
. Cui cng, Chng 6 xut mt m hnh hp nht, kt hp cc
m hnh c nghin cu v pht trin cc Chng 3, 4 v 5.
Kt qu thc nghim cho thy m hnh hp nht tht s hiu qu hn
-
36
+26,5%
+11,1%
+32,9%
+7,3% +5,7%
+26,8%
+3,3%
tng m hnh xut ring l.
Hnh 7.1 l s tm tt li cc m hnh chnh m lun n
nghin cu v xut, theo th t pht trin v ci thin dn, trn
tp ti liu L.A. Times v tp truy vn QA-Track-99 ca TREC. S
ny cho thy cc m hnh NE+KW, WN+KW v R+CSA c
MAP cao hn m hnh Lexical (l m hnh truy hi ti liu theo t
kho thng dng) ln lt l 7,3%, 5,7% v 26,5%. Hn na, m
hnh NE+KW+Wh c MAP cao hn m hnh NE+KW l 3,3%.
M hnh UM, kt hp c ba m hnh NE+KW+Wh, WN+KW v
R+CSA, c MAP cao hn cc m hnh thnh phn ln lt l
26,8%, 32,9% v 11,1%. So vi m hnh Lexical, m hnh UM
lm tng hiu qu truy hi mt cch rt ng k l 40,5%, vi
MAP 0,7166 so vi 0,5099.
Hnh 7.1. S pht trin v hiu qu ca cc m hnh xut
T cc nghin cu v kt qu t c ca lun n ny, chng
ti ngh mt s vn v hng nghin cu tip theo nh sau:
Khai thc cc thc th tim n c quan h bc cu vi cc
thc th trong truy vn thng qua quan h tng minh trong
.
Lexical (MAP = 0,5099)
NE+KW
R+CSA
WN+KW
UM (MAP = 0,7166)
NE+KW+Wh
-
37
Kt hp phng php R+CSA ca lun n vi phng php
phn hi lin quan gi (pseudo feedback).
p dng cc c im ontology ca thc th c tn v t
WordNet trn cc m hnh truy hi thng tin khc m hnh
khng gian vect.
Th hin ch trong m hnh ho ch (topic modeling)
bng cc khi nim ontology nh thc th c tn v t
WordNet, v dng cc ch ny biu din cc ti liu v
truy vn
CC CNG TRNH CA TC GI LIN QUAN N
LUN N
[1] T. H. Cao and V. M. Ngo, Semantic Search by Latent
Ontological Features, in International Journal of New
Generation Computing, Springer-Verlag, SCIE, Vol. 30, No.1,
pp. 53-71, 2012.
[2] V. M. Ngo and T. H. Cao, Discovering Latent Concepts and
Exploiting Ontological Features for Semantic Text Search, in
Proceedings of the 5th International Joint Conference on Natural
Language Processing (IJCNLP-2011), pp. 571-579, 2011.
[3] V. M. Ngo, T. H. Cao and T. M. V. Le, WordNet-based
Information Retrieval Using Common Hypernyms and
Combined Features, in Proceedings of the 5th International
Conference on Intelligent Computing and Information Systems
(ICICIS-2011), pp. 313-318, 2011.
[4] V. M. Ngo, T. H. Cao and T. M. V. Le, Combining Named
Entities with WordNet and Using Query-Oriented Spreading
Activation for Semantic Text Search, in Proceedings of the 8th
IEEE International Conference on Computing and
-
38
Telecommunication Technologies (IEEE-RIVF-2010), pp. 13-18,
2010.
[5] V. M. Ngo and T. H. Cao, Ontology-based Query Expansion
with Latently Related Named Entities for Semantic Text
Search, in Proceedings of the 2nd Asian Conference on
Intelligent Information and Database Systems (ACIIDS-2010),
Springer-Verlag, Studies in Computational Intelligence, Vol.
283, pp. 41-52, 2010.
[6] V. M. Ngo and T. H. Cao, A Generalized Vector Space Model
for Ontology-based Information Retrieval, in Vietnamese
Journal on Information Technologies and Communications, Vol.
22, No.2, pp 43-53, 2009.
[7] T. H. Cao, K. C. Le and V. M. Ngo, Exploring Combinations of
Ontological Features and Keywords for Text Retrieval, in
Proceedings of the 10th
Pacific Rim International Conference on
Artificial Intelligence (PRICAI-2008), Springer-Verlag, LNAI,
Vol. 5351, pp. 603-613, 2008.
[8] T. H. Cao, V. M. Ngo, D. T. Hong and T. T. Quan, A Named-
Entity-based Multi-Vector Space Model for Semantic Document
Clustering, in Proceeding of PAKDD-2008 Workshop on Web
Mining and Web-Based Application (WMWA), pp. 139-150,
2008.