primjena tehnika distribuirane umjetne inteligencije · 2012-05-04 · ključnim riječima kao i...
Post on 25-Dec-2019
2 Views
Preview:
TRANSCRIPT
Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 1
* Idas - sin mesenskog kralja Afareja i njegove žene Arene, čovjek goleme snage. Od boga mora Posejdona dobio je krilata kola na kojima se vozio u boj. Sa svojim bratom Linkejem, koji se isticao izuzetno oštrim vidom, sudjelovao je u pohodu Argonauta u Kolhidu, u potrazi za zlatnim runom.
mr Dragutin Vuković, dipl.inž.
Microlab d.o.o.
Savska cesta 41, pp.17
41000 Zagreb
HRVATSKA
Primjena tehnika distribuirane umjetne inteligencije
u traženju i dohvatu dokumenata: projekt IDDAS*
Sažetak: Identificiraju se problemi pri pronalaženju u dohvatu dokumenata u distribuiranim
informacijskim sustavima, u kojima su velike količine dokumenata pohranjene na geografski
raspršenim, ali umreženim računalima. Raspoznaju se tehnike distribuirane umjetne inteli-
gencije koje daju mogućnosti za rješavanje navedenih problema. Opisana je primjena znanja i
metaznanja o dokumentu, te pravila za osvježavanje metaznanja asimiliranjem svjedočanstava
o značaju dokumenta. Predložena je arhitektura sustava s dinamičkim razmještanjem
dokumenata, zasnovana na ovim tehnikama.
Abstract: Problems regarding the search and retrieval of documents in distributed
information systems, in which there are wast amounts of documents stored on geografically
dispersed, networked computers, are identified. Techniques of distributed artificial
intelligence are recognized, giving possibilities for solution to problems mentioned. Use of
document knowledge and metaknowledge is described, as well as heuristics for updating
metaknowledge by assimilation of evidence about document's relevance. An architecture of
system with dynamic allocation of documents, based on described techniques, is proposed.
Uvod
Računala se često koriste za pohranu informacija kao što su podaci, elektronička pošta, pisma,
izvještaji, tabele, grafike, slike itd. Uobičajeni izraz za jedinicu takve informacije je
dokument. Međutim, informacija pohranjena u dokumentima u višekorisničkim okolinama
teško se iskorištava iz slijedećih razloga:
1. ime koje se dodjeljuje dokumentu je kratko i nedovoljno opisuje sadržaj dokumenta;
2. ime dano dokumentu nije uvijek jedinstveno;
3. ime dokumenta može imati različito značenje za različite korisnike;
Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 2
4. korisnici nisu svjesni dokumenata pohranjenih od strane drugih korisnika, niti gdje
su ti dokumenti pohranjeni, u kojem obliku su pohranjeni i kako su organizirani;
5. uzorci razdiobe dokumenata se mijenjaju s vremenom.
Problem se još pogoršava u okolinama gdje su korisnici razmješteni na fizički razdvojenim
računalima, kao što je slučaj u svim vrstama računarskih mreža.
Potrebna je neka metoda koja će pomoći korisnicima da upravljaju, koriste i dijele
informacije. Cilj projekta IDDAS je da se razvije distribuirani sustav dokumentacijskih
servera koji koriste znanje i metaznanje za upravljanje dokumentima i obradu upita.
Naš pristup projektu IDDAS je da se iskoriste koncepti iz automatizacije ureda, distribuirane
umjetne inteligencije, i strojnog učenja. Koncepti iz automatizacije ureda mogu se primijeniti
na izradu strukture za organiziranje dokumenata u distribuiranoj višekorisničkoj uredskoj
okolini: to zahtijeva analizu informacijskih potreba ureda i razvijanje podatkovnih modela
koji će omogućiti pristup kako strukturiranim tako i nestrukturiranim podacima. Prinicpi
distribuirane umjetne inteligencije mogu se upotrijebiti za razvoj distribuiranih, inteligentnih,
sustava za obradu upita koji učinkovito dohvaćaju informaciju smještenu negdje u prostranoj
mreži i prilagođuju algoritam dohvaćanja pojedinačnim korisnicima uz pomoć metaznanja
pribavljenog tijekom upotrebe sustava.
Strojno učenje se može koristiti za određivanje najboljeg skupa heurističkih pravila za
automatizirano prikupljanje i osvježavanje tog metaznanja.
Podloga
Pregled literature o automatizaciji ureda razotkriva nepodesnost sadašnjih sustava baza
podataka za rukovanje raznovrsnim tipovima podataka i primjena koje nalazimo u uredima.
Također su neprikladni za okolinu distribuiranih računala koje postaju sve raširenije i u
strukturiranim i u nestrukturiranim uredima. (Strukturirani ured obično se bavi velikim
količinama standardiziranih transakcija, dok je nestrukturirani ured zaokupljen profesionalnim
funkcijama u kojima je fokus na odabiru i postizanju cilja. Tipične aktivnosti u strukturiranom
uredu uključuju tipkanje i rad sa zapisima. Nestrukturirani uredi koriste podršku odlučivanju i
rješavanju problema kao što su tabelarni kalkulatori i poslovna grafika.)
Tradicionalno, uredi su održavali informacijske sustave koristeći arhivske ormare u koje su
spremali papirne primjerke važnih informacija. Informacije su organizirane po abecednoj,
geografskoj, numeričkoj, predmetnoj ili kronološkoj metodi. Dijeljenje tih informacija unutar
velikog poduzeća često je otežano jer različiti odjeli koriste različite metode organizacije.
Računarski arhivski sustavi moraju se prilagoditi i strukturiranim i nestrukturiranim tipovima
dokumenata. Strukturirani dokumenti uključuju obrasce, tablice, računarski stvorene
Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 3
izvještaje, i ostale produkte tradicionalne obrade podataka; nestrukturirani dokumenti
uključuje tekstovne datoteke, programe, elektroničku poštu, grafike, slike, zvučno/glasovne
zapise, itd. Dodatno, postoje vanjski dokumenti čiji se opisi, a ne njihov sadržaj, unose u
računalo. Izraz multimedijski dokument koristiti će se s namjerom da obuhvati sve navedene
vrste dokumenata.
Brojni sustavi su oblikovani za obradu multimedijskih dokumenata. Oni su razvijani oko
paradigme baze podataka, i/ili paradigme arhivskog ormara. Među njima su IBM-ov "Office-
by-example", DISSOS, INGRES, Xerox Star Office System i Visi On operativna okolina.
Ključni problem s kojim se treba suočiti pri dohvaćanju multimedijskih dokumenata je odabir
podatkovnog modela koji može pružiti ujednačeni prilaz za pristup strukturiranim i
nestrukturiranim podacima. Tekuća istraživanja su usredsređena na tri modela: nadomještanje,
hipertekst, i posuvrnuta datoteka. Model posuvrnute datoteke nudi najveće mogućnosti, ali
nameće i velike zahtjeve za spremišnim prostorom i održavanjem. Hipertekst omogućuje veze
ka unutarnjoj strukturi dokumenta kao i veze s drugim dokumentima. Dohvat dokumenta u
hipertekstu je rezultat kretanja po tim vezama. Problem je kako održavati i obnavljati te veze
u distribuiranoj okolini.
Nadomjestak je šifrirana predstava dokumenta koja služi kao indeks za original. Pošto se
pretraživanje provodi nad nadomjescima a ne nad samim dokumentima, pretraživanje troši
manje vremena. Pošto se nadomjesci mogu kopirati i distribuirati kroz čitavu mrežu, to je
model koji je odabran za IDDAS projekt.
Kao dodatak izučavanju podatkovnih modela, veliki dio posla bio je posvećen konstruiranju
složenih mehanizama za dohvat. Ti mehanizmi su zasnovani na prepoznavanju uzoraka kao i
na razmatranjima iz teorije odlučivanja. Međutim, oni se ne mogu jednostavno protegnuti na
distribuirane okoline, i osjećamo da je tu mjesto gdje se uspješno može primijeniti
distribuirana umjetna inteligencija.
Svojstva sustava distribuirane umjetne inteligencije određena su metodama upravljanja i
suradnje korištenim za organiziranje njihovog rada. Te metode mogu se opisati prema
njihovim pristupima u dijeljenju zadataka i rezultata. Davis i Smith [SMIT81] razvili su
osnovnu metodologiju za svaku od njih, koristeći pregovaranje i formalizam ugovorne mreže
za dijeljenje zadataka.
Koncept distribuiranog rješavanja problema suradnjom ekspertnih sustava prvi su razmatrali
Lesser i Erman tijekom razvijanja sustava za raspoznavanje govora, Hearsay-II [ERMA75],
[LESS77]. Taj sustav je uveo ideju višestrukih izvora znanja, koji međusobno dijele rezultate
i hipoteze. U toj interakciji korištena je struktura podataka nazvana školska ploča,
višerazinska struktura koja sadrži probne rezultate raspoložive svim izvorima i koje svaki
izvor znanja može mijenjati, stvarati i brisati. Svaka razina školske ploče predstavlja
Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 4
drugačiju predstavu prostora problema. Elementi svake razine su hipoteze sa stalnim
pridjevima o gledištima na toj razini. Pridjevi su mehanizmi za ugradnju svrhovitog
raspoređivanja izvora znanja i njihovih, podacima vođenih, izvršavanja. Kasnije, razvijena je
formalna karakterizacija školskih ploča za upravljanje inteligentnim sustavima.
Rad Foxa [FOX81] pokazao je sličnost između organizacijskih teorija i oblikovanja složenih
sustava umjetne inteligencija, zasnovanih na znanju. Također, očekuje se da, kako se uvode u
urede i inženjerske okoline [CULL80], računala budu integrirana u postojeću strukturu, koja
je često hijerarhijska. Tenney i Sandell [TENN81], [___81] pružili su sredstva za izgradnju i
analizu tih struktura u okolini za donošenje odluka. Taj rad se protegnuo na opis složenih
procesa za njihovo instanciranje u distribuiranim računarskim sustavima [PATT85].
Performanse mnogih, na znanju zasnovanih, sustava mogu se pripisati masovnosti
primjenjenih heurističkih pravila specifičnih za razna područja. Heuristika pravila su
neformalna, prosudbena pravila koja nastaju empirijski kroz specijalizaciju, generalizaciju i
analogiju i koja su naučena iz prethodnih razmatranja [LENA82]. U kontekstu pretraživanja,
one sugeriraju obećavajuće alternative u čvoru i ukazuju na one neproduktivne.
Automatizirano prikupljanje tog znanja odavno je bilo cilj istraživača umjetne inteligencije
[REND87], [DIET79].
Spektar strojnog učenja proteže se od učenja napamet kao najniže razine, do induktivnog
učenja kao najviše razine [MICH83]. Lenatovi programi AM i EURISKO bili su ogledi u
učenju otkrivanjem, paradigmi induktivnog učenja, koja utjelovljuje principe formiranja
empirijske teorije [LENA83], [LENA83a]. Otkrivanje teorija vođeno je skupom heurističkih
pravila.
Vrijednost pojedinačnih heurističkih pravila za pretraživanje opsežno je proučavana u
[GASC77]. Međutim, problem kombiniranja znanja iz nekoliko pravila još nije detaljno
proučen. Ukupni skup heuristika, primijenjen na zadatak rješavanja problema kao što je
dohvat dokumenata, trebao bi se idealno ponašati bolje od bilo kojeg svog podskupa.
Znanje i metaznanje o dokumentu
Organizacija dokumenata
Pretpostavljeni okoliš za projekt IDDAS sastoji se od mreže jednokorisničkih računala, od
kojih se svako identificira imenom (adresom, naslovom). Dokumenti, osnovne jedinke
informacija u mreži, distribuirani su među računalima. Dokument nije trajno lociran, već
može migrirati na druga računala. Različite verzije jednog dokumenta na istom računalu su
dozvoljene, ali ne i dvije kopije s istim imenom. Pošto dokument i njegove kopije na drugim
Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 5
računalima imaju ista imena, potrebno je ime dokumenta udružiti s imenom računala da bi se
dobilo ime dokumenta jedinstveno na razini mreže. Skup dokumenata u sustavu se dinamički
mijenja jer se novi dokumenti stvaraju i kopiraju od drugih korisnika, a ponekad se postojeći
dokumenti brišu ili sele na druge lokacije.
Imenik dokumenata
Imenik dokumenata, smješten na svakom računalu, sadrži znanje, na razini objekta, o logičkoj
i fizičkoj strukturi dokumenata te metaznanje o sadržaju i smještaju dokumenata. Imenik je
organiziran u tri jedinice: nadomjesci dokumenata, spisak ključnih riječi, i metaznanje o
dokumentu.
Nadomjesci dokumenta
Svaki dokument predstavljen je u imeniku dokumenata nadomjestkom koji sadrži njegove
pridjeve. Nadomjestak se konstruira iz informacija pribavljenih od operacijskog sustava,
korisnikovih informacija i pretpostavljenih vrijednosti. Dokument i njegov nadomjestak se
nadalje dopunjuju i brišu u skladu s upotrebom sustava. Nadomjesci zauzimaju samo mali dio
spremišnog prostora potrebnog za pohranu dokumenata ali uglavnom sadrže dovoljno
informacija da bi korisnik mogao zaključiti da li mu je dokument koristan ili ne. Te
informacije sastoje se od slijedećih pridjeva: ime, verzija, smještaj, autori, datum stvaranja,
tip, pristupna prava i riječnik ključnih riječi.
Ključne riječi predstavljaju sadržaj dokumenta; svaki dokument može biti povezan s nekoliko
ključnih riječi i svaka ključna riječ može biti povezana s mnogo dokumenata. Korisnik može
postaviti upit na bazi sadržaja o vlastitim, lokalno pohranjenim, dokumentima ili o
dokumentima pohranjenim na drugim računalima. Automatizirani sustavi za razumijevanje
teksta mogli bi obraditi takav upit, čitajući redom dokumente, ali to rješenje bi bilo sporo i
skupo. Imena dokumenata mogu dati ideju o njihovom sadržaju ali nisu dovoljno opisna za
pouzdanu obradu upita na bazi sadržaja. Međutim, ako se imenu doda skup ključnih riječi
postiže se precizniji opis sadržaja dokumenta. Dohvat dokumenta može se upravljati tim
ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim
pridjevima također su moguće.
Riječnik ključnih riječi
Nakon što je dokument stvoren ili izmijenjen, od autora se zahtijeva da stvori (dopuni)
ključne riječi koje predstavljaju sadržaj. Dohvat na bazi sadržaja pouzdava se u preciznost
ključnih riječi, tako da je suštinski važno pronaći ujednačenu predstavu ključnih riječi za sve
Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 6
korisnike. Taj problem se pojednostavnjuje pridruživanjem skupa svih ključnih riječi jednom
od njegovih pravih podskupova, primarnim ključnim riječima. Pridruživanje se postiže na dva
načina:
1. sinonimi i ključne riječi u bliskom odnosu pridružuju se jednoj od sinonimnih
ključnih riječi, i
2. ključne riječi koje su instance više kategorije pridružuju se nazivu kategorije.
Na primjer, ključne riječi "auto", "automobil" i "kola" bit će pridružene primarnoj ključnoj
riječi "automobil". Kao primjer druge vrste pridruživanja, ključne riječi "jabuka", "kruška",
"banana" su instance općenitije kategorije "voće" pa će stoga sve četiri ključne riječi biti
pridružene primarnoj ključnoj riječi "voće".
Ovo pridruživanje je ovisno o primjeni. Riječnik ključnih riječi se prilagođuje primjeni na tri
načina:
1. razdvajanjem nekih kategorija u specifičnije podkategorije,
2. stapanjem više kategorija u jednu općenitiju katagoriju, i
3. dodavanjem novih ključnih riječi i kategorija koje do tada nisu bile na raspolaganju.
Metaznanje
U tipičnom sustavu za upravljanje dokumentima, dohvat dokumenata sastoji se od uparivanja
predikata za pretragu sa pridjevima dokumenata na popisu. Dokumenti za koje je uparivanje
uspješno dohvaćaju se iz spremišta. U distribuiranom sustavu za upravljanje dokumentima
imenici dokumenata mogu biti centralizirani ili distribuirani, sa ili bez zalihosti. Međutim,
informacije u imenicima su koherentne na razini čitavog sustava; zalihosne kopije imenika
služe samo da bi se smanjilo vrijeme pristupa imenicima. Zbog te koherentnosti, odaziv na
upit za dohvat dokumenta neovisan je o identitetu autora upita.
Međutim, dokumenti značajni jednom korisniku mogu biti sasvim različiti od dokumenata
koji su važni nekom drugom. To je problem koji na prvi pogled izgleda da proizlazi iz
nedostatka specifičnosti pri formuliranju upita: detaljniji izbor predikata trebao bi rezultirati
odbacivanjem iz selekcije dokumenata koji su nevažni korisniku. Za to bi, međutim, trebalo
raspolagati vrlo sofisticiranim jezikom za postavljanje upita, dovoljno bogatim da omogući
izražavanje korisnikovih ciljeva, planova i interesa. Također bi bilo potrebno i složenije
predstavljanje dokumenata, s više detalja. Poboljšano ponašanje sustava bilo bi zasjenjeno
povećanjem napora kod formuliranja upita.
Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 7
Pretpostavimo da je odgovor na neki upit skup dohvaćenih dokumenata D (slika 1). Općenito, D
će biti aproksimacija skupa značajnih dokumenata Z. Idealan dohvat dokumenata je onaj za koji
vrijedi D=Z za sve upite.
A
Slika 1.: Skup dohvaćenih dokumenata D i skup značajnih dokumenata Z kao podskupovi skupa
svih dokumenata A
Realistični cilj je da se maksimiziraju:
- udio dohvaćenih dokumenata u skupu značajnih, određen sa:
| |
| |
- udio značajnih dokumenata u skupu dohvaćenih, određen sa:
| |
| |
Idealni odziv na upit ovisi o modelu korisnika koji postavlja upit. Pretpostavimo da je Zi idalan
odziv za korisnika ki. Idealan odziv sustava bez ikakovog modela za njegove korisnike, bit će:
⋃
Ako pretpostavimo selekciju od 100% i SJEĆANJE od 100%, za korisnika kj PRECIZNOST će
biti:
| |
|⋃ |
Dakle, u odsustvu bilo kakve informacije o korisniku, bilo eksplicitno navedene u upitu ili
ugrađene u bazu znanja sustava, najbolji mogući odziv bit će unija svih skupova značajnih
dokumenata opisanih upitom, iz perspektive svakog korisnika. U velikim višekorisničkim
sustavima odziv će tada sadržavati veliki broj beznačajnih dokumenata. Bolji odziv može se
postići samo ako u sustavu postoje modeli njegovih korisnika.
Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 8
IDDAS treba pstvariti preciznije odzive tako što pohranjuje metaznanje o dokumentima na
svakoj stanici. Metaznanje omogućuje stvaranje modela trenutnog stanja sustava i modela
osobnih sklonosti lokalnog korisnika. Ti modeli su dinamični, tj., oni su samoinicijalizirajući i
razvijaju se kako se sustav koristi, tako da sustav poboljšava svoje performanse korištenjem.
Svaki element metaznanja je četvorka koja se sastoji od dviju oznaka korisnika, ključne riječi i
faktora izvjesnosti. Faktor izvjesnosti, FI, je broj iz intervala 0,1 . Na primjer, element znanja:
(Ivan, Josip, izvoz, 0.8)
predstavlja slijedeće:
Ivanovo dosadašnje iskustvo ukazuje na to da je vjerojatnost pronalaženja
značajnih dokumenata koji sadrže informacije o izvozu među dokumentima čiji
vlasnik je Josip, dosta visoka i iznosi 80%.
Formalno, za zadani skup svih korisnika, K, i skup svih primarnih ključnih riječi, R, definira se
funkcija metaznanja, M, kao pridruživanje:
[ ]
Metaznanje je particionirano među računalima u mreži tako da ako je Ki, podskup skupa K, skup
korisnika na računalu i, tada je samo metaznanje za Ki K R pohranjeno na računalu i.
Faktor izvjesnosti predstavlja osnovu za uređenje potrage za dokumentima. On odražava:
1. prostranost informacija u računalu koje se tiču specifične ključne riječi,
2. koliko su se upotrebljivim pokazali u prošlosti dokumenti povezani s tom ključnom
riječi, i
3. koliko su svježe informacija kojima raspolaže računalo.
Metaznanje se najprije inicijalizira s nekim početnim vrijednostima faktora izvjesnosti. Tehnike
za mijenjanje tih vrijednosti za vrijeme upotrebe sustava, određene su heurističkim pravilima.
Kad bi korisnik raspolagao metaznanjem o svakom dokumentu a ne samo o korisnicima sustava,
znanje bi bilo precizno. Međutim, ovaj pristup bi imao dva nedostatka:
1. za prosječni broj dokumenata po korisniku, n, potrebno metaznanje bilo bi n puta
uvećano, i
2. ne bi se moglo načiniti predviđanje značaja dokumenta kod nastajanja novih
dokumenata.
S druge strane, pamćenjem metaznanja kao relacije između dva korisnika, novim dokumentima
se može odrediti značaj na osnovi te relacije. Postoje pozitivne korelacije među pridjevima
korisnikovih dokumenata i razumno je je novim dokumentima tog korisnika dodijeliti slične
pridjeve.
Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 9
Arhitektura sustava
Obrada upita
IDDAS sustav radi u mreži računala. Računala dijele zadatke, znanje i metaznanje surađujući u
obradi upita koji uključuju dohvaćanje dokumenata. Prvenstveni problem u dohvatu dokumenata
je pretraživanje, tj. pronalaženje dokumenata. Strategija u traženju dokumenta je da se zadovolji
postavljeni upit a pri tome minimizira
1. potrošena procesna moć računala,
2. komunikacija među računalima, i
3. vrijeme potrebno za dovršavanje pretrage.
Poteškoće u provođenju ove strategije su u tome da
1. upit predstavlja zadatak koji nije potpuno uobličen, pa ga se možda neće moći egzaktno
zadovoljiti, i
2. pretraga treba prestati na svim računalima čim prije nakon što upit bude zadovoljen ili
se pokaže nezadovoljivim.
U IDDAS sustavu upotrebljava se metaznanje za vođenje pretraživanja. Pretraživanje se provodi
paralelno na više računala i učinkovitost mu se poboljšava upotrebom sustava.
Složeni upit se obrađuje tako da se najprije razloži u jednostavnije podupite, upotrebom lokalnog
metaznanja, tako da se prostor pretraživanja svakog podupita svede na dokumente u vlasništvu
jednog korisnika. Podupiti se zatim šalju odgovarajućim računalima na obradu. Rezultati se
prenose u računalo koje je poslalo podupite, gdje se oni kombiniraju i rangiraju prema
padajućem redu značaja.
Na primjer pretpostavimo da je postavljen slijedeći upit:
(oznaka_upita, izvorište, odredište, opis) =
(upit_1, korisnik_1, svi, "nađi sve dokumente o kreditima")
i pretpostavimo da je metaznanje korisnika korisnik_1 slijedeće:
(korisnik_1, korisnik_1, kredit, 0.6)
(korisnik_1, korisnik_3, kredit, 0.3)
(korisnik_1, korisnik_7, kredit, 0.8)
Osnovni upit bit će na osnovi tog metaznanja razložen na slijedeće podupite:
(upit_1_a, korisnik_1, korisnik_1, "nađi sve dokumente o kreditima")
(upit_1_b, korisnik_1, korisnik_3, "nađi sve dokumente o kreditima")
(upit_1_c, korisnik_1, korisnik_7, "nađi sve dokumente o kreditima")
Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 10
Rezultati ovih podupita vratiti će se korisniku korisnik_1 gdje će se poredati prema faktorima
izvjesnosti kao
[rezultat_1_c, rezultat_1_a, rezultat_1_b]
Ako je podupit zasnovan na sadržaju, značajno metaznanje se također šalje u izvorište upita
zajedno s dokumentima i nadomjescima koji čine rezultat podupita. Preneseno metaznanje se
koristi za dopunjavanje metaznanja primaoca u skladu sa strategijom učenja koja će biti opisana.
Kad lokalni dokument-server otkrije novog korisnika u mreži, on mu dodjeljuje pretpostavljeni
faktor izvjesnosti i pridružuje ga sa svim ključnim riječima koje ima pohranjene. Jedine ključne
riječi s kojima započinje novi korisnik su one pridružene njegovim vlastitim dokumentima.
Dodatne ključne riječi mogu se pojaviti u bazi znanja kao sporedni učinak obrade upita. Druge
aktivnosti kao što su stvaranje, brisanje i kopiranje dokumenata zahtijevaju suradnju među
računalima, što također dovodi do promjena u metaznanju.
Dinamičko razmještanje dokumenata
Značajna prosudba potrebna je kod razmatranja smještaja dokumenta u distribuiranom sustavu.
Parametri za ovu prosudbu su zauzeće memorije, vrijeme pristupa, vrijeme i teškoća mijenjanja
dokumenta, koherentnost dokumenta, sigurnost dokumenta i pouzdanost dokumenta. Ako se ne
dozvoli postojanje više od jednog primjerka dokumenta u sustavu time je uključeno: garantirana
koherentnost podataka, spor pristup dokumentu i minimalno zauzeće memorije. Postojanje većeg
broja kopija istog dokumenta u sustavu podrazumijeva: veće zauzeće memorije, brži pristup
dokumentu, povećana pouzdanost, sporije mijenjanje dokumenta, manju sigurnost dokumenta i
mogući gubitak koherentnosti dokumenta.
U IDDAS sustavu dinamički se razmještaju dokumenti što uključuje smještanje, kopiranje i
migraciju dokumenata u mreži računala. Problem razmještaja definiramo kako slijedi:
Zadano: broj dohvata i izmjena svakog dokumenta sa svake stanice, i topologija mreže,
kapaciteti komunikacijskih kanala, troškovi komunikacije, spremišni kapaciteti računala i
troškovi pohrane dokumenta na računalima.
Traži se: razdioba dokumenata po računalima u mreži koja minimizira ukupne troškove i ne
prelazi ograničenja kapaciteta, i razdioba metaznanja po računalima u mreži koja minimizira zbir
troškova obrade upita i troškova osvježavanja metaznanja.
Pretpostavlja se da se svi upiti mogu razložiti u podupite o pojedinačnim dokumentima, tako da
se smještaj svakog dokumenta može razmatrati neovisno. Iako to smanjuje složenost problema,
pokazuje se da je problem NP kompletan. Heuristička pravila se koriste za svladavanje te
složenosti. Ovdje predložena pravila zasnovana su na značaju dokumenata korisnicima.
Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 11
Osvježavanje metaznanja
Dinamika sustava
IDDAS se razvija za upotrebu u širokom opsegu uredskih okolina. Stanje te okoline u bilo kojem
trenutku dano je sadržajem i konfiguracijom metaznanja i baza dokumenata u sustavu. Naredbe
koje ispostavljaju korisnici čine ulazne informacje sustava, a dohvaćeni dokumenti i nadomjesci
predstavljaju izlaz iz sustava. Stanje sustava se mijenja kao rezultat izvođenja naredbe.
Blokovska šema dinamike sustava prikazana je slikom 2.
h(k)
x(k)y(k)
Izlaz:
dohva}eni
dokumenti i
nadomjesci
Ulaz:
naredbe
Stroj za obradu
upita
Podsustav
za u~enje
Baza dokumenatai
metaznanje
y(k) = q(x(k),h(k)) h(k+1) = a(x(k),h(k))
Slika 2.: Blokovska šema dinamike sustava
Heuristička pravila za osvježavanje metaznanja
Heuristička pravila za osvježavanje i nadopunjavanje metaznanja zasnovana su na paradigmi
inteligentnog uredskog djelatnika koji provodi uređenu potragu za dokumentima na osnovi
prethodnih iskustava u uredskoj okolini.
Na primjer, ako Ivan zatraži od Josipa dokumente o kreditima i Josip mu pruži jedan ili više
dokumenata koji su značajni za Ivana, tada će Ivan upamtiti da Josipova baza dokumenata može
sadržavati i druge značajne dokumente o kreditima. S druge strane, ako Josip ne raspolaže niti
jednim dokumentom o kreditima, i ta vrsta dokumenata nije niti značajna za njega, Ivan će
naučiti da nema potrebe ubuduće postavljati Josipu upite u vezi te vrste dokumenata. U oba
slučaja, Josip može pretpostavljati da će Ivan nastaviti s potragom za dokumentima o kreditima i
na drugim mjestima, stoga će Josip povećati svoje vjerovanje u mogućnost da Ivan bude ubuduće
Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 12
dobar izvor dokumenata te vrste. To povećanje Josipovog vjerovanja bit će umjereno jer Ivanovo
novopribavljeno znanje o kreditima ne mora biti značajno za Josipa.
Skup heurističkih pravila koja se koriste u početnim pokusima ne uključuju diobu metaznanja.
Metaznanje korisnika dopunjuje se samo svjedočanstvima koja se direktno pribavljaju za vrijeme
obrade upita, a iskustvo drugih korisnika se ne prenosi. Također, neka od pravila sadrže
parametre koji se mogu podešavati. Za potrebe početnih pokusa razvijen je slijedeći skup
pravila:
Pravilo 1.
AKO dokument je brisan
TADA metaznanje se ne mijenja
Pravilo 2.
AKO korisnik_1 načini dokument
TADA metaznanje korisnika_1 o korisniku_1 koje se odnosi na svaku
ključnu riječ dokumenta povećava se na 1.0 (maksimalni značaj)
Pravilo 3.
AKO korisnik_1 ispostavi naredbu za dohvat po ključnoj_riječi_1
I barem jedan od nadomjestaka korisnika_2 sadrži ključnu_riječ_1
TADA (a) metaznanje korisnika_1 o korisniku_2 koje se odnosi na
ključnu_riječ_1 se uvećava
(b) metaznanje korisnika_2 o korisniku_1 koje se odnosi na
ključnu_riječ_1 se uvećava
Pravilo 4.
AKO korisnik_1 ispostavi naredbu za dohvat po ključnoj_riječi_1
I niti jedan od nadomjestaka korisnika_2 ne sadrži ključnu_riječ_1
TADA (a) metaznanje korisnika_1 o korisniku_2 koje se odnosi na
ključnu_riječ_1 se smanjuje na 0.0
(b) metaznanje korisnika_2 o korisniku_1 koje se odnosi na
ključnu_riječ_1 se uvećava
Pravilo 5.
AKO korisnik_1 ispostavi naredbu za čitanje po ključnoj_riječi_1
I barem jedan od dokumenata korisnika_2 sadrži ključnu_riječ_1
TADA (a) metaznanje korisnika_1 o korisniku_2 koje se odnosi na
ključnu_riječ_1 se mijenja, na osnovi najvećeg značaja
svih dokumenata korisnika_2 u vezi s ključnom_riječi_1
Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 13
(b) metaznanje korisnika_2 o korisniku_1 koje se odnosi na
ključnu_riječ_1 se uvećava
Pravilo 6.
AKO korisnik_1 ispostavi naredbu za čitanje po ključnoj_riječi_1
I niti jedan od dokumenata korisnika_2 ne sadrži ključnu_riječ_1
TADA (a) metaznanje korisnika_1 o korisniku_2 koje se odnosi na
ključnu_riječ_1 se smanjuje na 0.0
(b) metaznanje korisnika_2 o korisniku_1 koje se odnosi na
ključnu_riječ_1 se uvećava
Pravilo 7.
AKO korisnik_1 ispostavi naredbu za čitanje po ključnoj_riječi_1
I dokument_1 čiji je vlasnik korisnik_2 sadrži ključnu_riječ_1
I značaj dokumenta_1 za korisnika_1, po ključnoj_riječi_1,
prelazi migracijski prag
I korisnik_1 nema kopiju dokumenta_1
TADA (a) korisnik_1 kopira dokument_1 od korisnika_2
(b) metaznanje korisnika_1 o korisniku_1 koje se odnosi na
ključnu_riječ_1 dokumenta se povećava na 1.0
Pravilo 8.
AKO korisnik_1 ispostavi naredbu za čitanje po ključnoj_riječi_1
I korisnik_1 je kopirao dokument_1 od korisnika_2
I maksimalni značaj dokumenta_1 za korisnika_2 po bilo kojoj
ključnoj riječi je manji od praga brisanja
TADA dokument_1 se briše iz baze dokumenata korisnika_2
Asimilacija svjedočanstva
Prikazana heuristička pravila za učenje omogućuju mijenjanje metaznanja na osnovi novih
svjedočanstva, koja se tipično sastoje od procjene značaja dokumenta, promatranja dokumenta
koji se kopira i slično.
Plan osvježavanja metaznanja treba uzimati u obzir
1. vremensko prvenstvo: sustav je dinamičan i stoga nedavno pribavljena svjedočanstva
bolje pokazuju tekuće stanje sustava od onih pribavljenih ranije.
2. pouzdanost svjedočanstva: neke vrste svjedočanstva su pouzdanije od drugih. Na
primjer, ako Ivan pronađe kod Josipa nadomjestak s odgovarajućom ključnom riječi, ta
akcija sama po sebi ne mora značiti da će Josipovi dokumenti biti značajni za Ivana u
Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 14
budućunosti. Međutim, ako je Ivan pročitao dokument, vrijednost značaja koju mu je
pridružio predstavlja pouzdano svjedočanstvo. Pouzdanost izvora također je važna za
procjenu metaznanja poslanog od nekog korisnika. Kad Josip nudi Ivanu metaznanje o
dokumentima o kreditima, Ivan će ovo metaznanje prihvatiti samo ako se Josip u
prošlosti jest pokazao pouzdanim izvorom dokumenata o kreditima.
3. svojstvo zasićenja: kad je početni faktor izvjesnosti nekog elementa metaznanja visok,
dodatna potvrdna svjedočanstva neće ga značajno povećavati. Međutim, ako je
svjedočanstvo niječno, smanjenje faktora izvjesnosti bit će veliko. Situacija je potpuno
obrnuta ako je početna vrijednost faktora izvjesnosti mala.
Metoda mijenjanja metaznanja koja je razvijena za potrebe projekta uzima u obzir sve ove
uvjete. Osnovu metode čine dvije linearne funkcije f1 i f2, (slika 3).
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
0 1
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
0 1
NoviFI
StariFI
NoviFI
StariFI
f1(x) f2(x)Potvrdno svjedo~anstvo Nije~no svjedo~anstvo
Slika 3.: Linearne funkcije za promjenu metaznanja
Prva funkcija f1 upotrebljava se uz potvrdna svjedočanstva i povećava faktor izvjesnosti, dok
druga funkcija f2 smanjuje vrijednost faktor izvjesnosti kao posljedica niječnih svjedočanstava.
Kad se uspješno pronađe nadomjestak s traženom ključnom riječi, nova vrijednost faktora
izvjesnosti, FI, određena je sa:
FI = pf1(FI) + )1-p)f2(FI)
gdje p, iz intervala 0,1 , predstavlja mjeru pouzdanosti te vrste informacija.
Na primjer, ako određenom svjedočanstvu pripisujemo pouzdanost p = 0.7, rezultirajuća funkcija
za određivanje nove vrijednosti faktora izvjesnosti bit će težinska suma dviju originalnih
funkcija i izgledat će kako je to prikazano na slici 4.
FI = pf1(FI) + )1-p)f2(FI)
Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 15
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
0 1
NoviFI
StariFI
Slika 4.: Funkcija za promjenu metaznanja uz pouzdanost p=0.7
ZAKLJUČAK
Pokretanje projekta IDDAS rezultat je suradnje MicroLAB-a s njemačkom firmom COI GmbH,
proizvođačem DOSSIER sustava za arhiviranje dokumenata na optičkim diskovima. DOSSIER
je distribuirani sustav baziran na klijent-server principu, podržava višestruke servere dokumenata
u mreži, pretraživanje baza dokumenata po ključnim riječima i radi na različitim operacijskim
platformama - od DOS osobnih računala do UNIX radnih stanica.
Izvođenje projekta IDDAS planirano je u nekoliko faza:
Faza 1: simulacija koja se izvodi kao jedinstven proces na jednom računalu. Ova simulacija služi
za ispitivanje heurističkih pravila za mijenjanje metaznanja, i određivanje parametara kod
parametriziranih pravila.
Faza 2: Simulacija koja se izvodi kao skup procesa na jednom računalu. Ova simulacija služi za
ispitivanje međudjelovanja više korisnika u stvarnom vremenu i provjeru da sustav nije podložan
zastojima.
Faza 3: Prototipni sustav na mreži računala. U prototipu će se koristiti rezultati i iskustva
prethodnih dviju faza.
Faza 4: Integriranje sustava IDDAS i DOSSIER da se dobije komercijalni proizvod inteligentne
distribuirane arhive.
Trenutno je u izvedbi prva faza projekta.
Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 16
LITERATURA
[SMIT81] R. G. Smith i R. Davis, " Frameworks for Cooperation in Distributed Problem
Solving", IEEE Transactions on Systems, Man and Cybernetics, Vol. SMC-11,
No. 1, January 1981, pp. 61-69.
[ERMA75] L. D. Erman i V. R. Lesser, "S Multi-Level Organization for Problem Solving
Using Many, Diverse, Cooperating Sources of Knowledge", Proceedings of the
4th International Joint Conference on Artificial Intelligence, USSR, September
1975, pp.483-490.
[LESS77] V. R. Lesser i L. D. Erman, "A Retrospective View of the Hearsay-II
Architecture", Proceedings of the 5th International Joint Conference on Artificial
Intelligence, Cambridge, MA, August 1977, pp. 790-800.
[FOX81] M. S. Fox, "An Organizational View of Distributed Systems", IEEE Transactions
on Systems, Man and Cybernetics, Vol. SMC-11, No. 1, January 1981, pp 70-80.
[CULL80] R. E. Cullingford, i M. W. Krueger, "Automated Explanations as a Component of
a CAD system", Proceedings International Conference on Cybernetics and
Society, Cambridge, MA, 1980.
[TENN81] R. R. Tenny i N. R. Sandell, Jr., "Structures for Distributed Decisionmaking",
IEEE Transactions on Systems, Man and Cybernetics, Vol. SMC-11, No. 8,
August 1981, pp. 517-527.
[____81] _____, "Strategies for Distributed Decisionmaking", IEEE Transactions on
Systems, Man and Cybernetics, Vol. SMC-11, No. 8, August 1981, pp. 527-538.
[PATT85] H. E. Pattison, D. D. Corkill i V. R. Lesser, "Instantiating Descriptions of
Organizational Structures", COINS Technical Report 85-45, Department of
Computer and Information Sciences, University of Massachusetts, Amherst, MA,
November 1985.
[LENA82] D. B. Lenat, "The Nature of Heuristics", Artificial Inteligence, Vol. 19, No. 2,
October 1982, pp.189-249.
[REND87] L. A. Rendell, "Conceptual Knowledge Acquisition in Search", neformalni spis.
Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 17
[DIET79] T. G. Dietterich i R. S. Michalski, "Learning and Generalization of Characteristic
Descriptions: Evaluation Criteria and Comparative Review of Selected Methods",
Proceedings Sixth International Joint Conference on Artificial Intelligence, 1979,
pp. 223-231.
[MICH83] R. S. Michalski, J. G. Carbonell, i T. M. Mitchell, urednici, Machine Learning, An
Artificial Intelligence Approach, Vol. I, Tioga Press, Palo Alto, CA, 1983.
[LENA83] D. B. Lenat, "Theory Formation by Heuristic Search", Artificial Intelligence, Vol.
21, Nos. 1,2, March, 1983, pp. 189-249.
[LENA83a] D. B. Lenat, "EURISKO: A Program That Learns New Heuristics and Domain
Concepts", Artificial Intelligence, Vol. 21, Nos. 1,2, March, 1983, pp. 61-98.
[GASC77] J. Gaschnig, "Exactly How Good Are Heuristics?: Toward a Realistic Predictive
Theory of Best-First Search", Proceedings Fifth International Joint Conference
on Artificial Inteligence, Cambridge, MA 1977, pp. 434-441.
top related