tóth máté és kovács zoltán csaba - exkss.com · magának ezt a ismeretet. mind a mai napig...
Post on 28-Feb-2019
216 Views
Preview:
TRANSCRIPT
Tartalom
1 Bevezetés ......................................................................................................................................... 4
2 A fogalmak osztályozásának alapkérdései ...................................................................................... 6
3 Tudásszervezési rendszerek .......................................................................................................... 11
3.1 A metaadat fogalma .............................................................................................................. 11
3.2 Tárgyszavas osztályozás ........................................................................................................ 16
3.3 Ellenőrzött szótárak ............................................................................................................... 18
3.4 Taxonómiák ........................................................................................................................... 19
3.5 Tezauruszok ........................................................................................................................... 23
3.6 Facettás osztályozás .............................................................................................................. 26
4 Az ontológia fogalma ..................................................................................................................... 30
5 Ontológia szintaxisok ..................................................................................................................... 39
5.1 RDF ........................................................................................................................................ 39
5.2 OWL ....................................................................................................................................... 46
5.3 SKOS....................................................................................................................................... 48
5.4 XTM ....................................................................................................................................... 49
5.5 További Topic Maps szintaxisok ............................................................................................ 50
5.5.1 HyTM ............................................................................................................................. 51
5.5.2 LTM ................................................................................................................................ 51
5.5.3 CTM ............................................................................................................................... 51
5.5.4 GTM ............................................................................................................................... 52
6 Ontológiaépítés a gyakorlatban .................................................................................................... 54
6.1 Az ontológiaépítés eszközei................................................................................................... 54
6.1.1 Szemantikus web ontológiák fejlesztésére szolgáló eszközök ...................................... 54
6.1.2 Tématérképek fejlesztésére szolgáló eszközök ............................................................. 55
6.2 Ontológiaépítés az OKS segítségével ..................................................................................... 57
6.2.1 Az OKS letöltése és használata ...................................................................................... 57
6.2.2 Az ontológiák építésének első lépései ........................................................................... 59
6.2.3 Tartalmak formalizálása LTM szintaxis segítségével ..................................................... 61
6.2.4 Ontológiaépítés az Ontopolyval .................................................................................... 65
7 Az ontológiák használata ............................................................................................................... 78
7.1 döntéstámogatás ................................................................................................................... 78
7.2 tudásmenedzsment ............................................................................................................... 79
7.3 Oktatás .................................................................................................................................. 83
7.4 szemantikus web ontológiák ................................................................................................. 85
8 Összefoglalás ................................................................................................................................. 92
9 Irodalomjegyzék ............................................................................................................................ 94
1 Bevezetés
Az információtechnológia minden kétséget kizáróan forradalmi változásokat okozott az
elmúlt évek társadalmi és gazdasági folyamataiban. Az információtechnológia mindenütt
jelen van, gyakorlatilag a társadalom életének nincs olyan szegmense, a gazdaságnak nincs
olyan szektora, amely ne támaszkodna kisebb vagy nagyobb mértékben informatikai
támogatásra. Az elmúlt években a technikáról egyre inkább a tartalomra, a keresésre, az
informatikai eszközökön közvetíthető szolgáltatásokra terelődött a hangsúly. Ezt a
tendenciát jelzi az is, hogy egyre többen és egyre magasabb szinteken kezdenek foglalkozni a
szemantikus technológiákban rejlő lehetőségek kiaknázásával. Megjelent az igény arra, hogy
a tartalmakat gépi olvasásra is alkalmas formátumban rögzítsék, és az adatok
újrahasznosíthatók legyenek különböző kontextusokban, sokféle alkalmazás fejlesztése
során. Mindezek egyik legfontosabb előzményét a szemantikus web elképzelés jelenti.
Tim Berners-Lee és kollégái 2001-ben a következőképpen fogalmazták meg a szemantikus
web lényegét. “A szemantikus web nem egy önálló web, hanem a jelenleginek a
kiterjesztése, ahol az információnak jól definiált jelentést adunk, amely elősegíti a
számítógépek és az emberek közti együttműködést. Az első lépéseket már megtettük abban
az irányban, hogy a jelenlegi web struktúrájába beleszőjük a szemantikus webet. A közeli
jövőben ezek a fejlesztések jelentős új funkciókat kaphatnak, ahogy a gépek egyre
alkalmasabbak lesznek azon adatok feldolgozására és “megértésére”, amelyeknek ma
csupán a megjelenítésére képesek.” (Berners-Lee et al. 2001.)
Elmondható, hogy a szemantikus web immáron több mint 10 éves története során sem volt
képes beteljesíteni azokat az álmokat, amelyeket a koncepció megjelenését követően
vizionáltak. Elindult ugyanakkor egy erős kutatási irány, amely hosszú távon az adatok
formális kódolásán keresztül egyre több, különböző forrásból származó információk
integrálásán alapuló, izgalmas alkalmazás kifejlesztését teszi lehetővé.
Jelen dolgozat célja, hogy összefoglalja az ontológiafejlesztéssel kapcsolatos legalapvetőbb
ismereteket a hazai egyetemek hallgatói és oktatói számára. Tekintettel arra, hogy az
ontológiaépítés alapvetően a fogalomalkotásban, a fogalmak osztályozásában és egymáshoz
képest fennálló kapcsolataik leírásában gyökerezik, szükségesnek tartottuk, hogy ezekkel a
kérdésekkel is érdemben foglalkozzunk. A dolgozat második felében egy konkrét
ontológiafejlesztésre szolgáló szoftver (Ontopoly) használatán keresztül nyomon követhetjük
egy tématérkép ontológia kereteinek felépítését és adatokkal történő feltöltését.
Az ontológiák építésének társadalmi motivációi között első helyen áll a tartalmak
kereshetőségének, megjelenítési és kreatív újrahasznosítási lehetőségeinek növelése. Ez
olyan szótárak fejlesztését teszi szükségessé, amelyek a vállalkoznak a világ létezőinek lehető
legteljesebb szabványos leírására. Minden ontológia a világ tudásának egy-egy fontos
szegmensét reprezentálja, amelyek együttesen egy globális hálózati metaadat-infrastruktúra
kiépítésének a lehetőségét hordozza magában.
2 A fogalmak osztályozásának alapkérdései
Tekintve, hogy az ontológia egy tudásszervezési rendszer, amelyben a valóságot kell
formalizálni, tisztáznunk kell a fogalomalkotásnak és a fogalmak osztályozásának
alapkérdéseit. A legkézenfekvőbb párhuzam maga az emberi nyelv, amely a valóság
jelenségeit kategóriákba sorolva, nyelvi jelekkel (szavakkal) azonosítva ragadja meg.
Az információközvetítő tevékenység a tudástársadalomban értelmezett ismeretek
közvetítését jelenti. Jellemzően a tudás szövegekben jelenik meg. A szöveg szemantikája,
jelentése maga a tartalom, ami különböző formátumokban, hordozókon is megjelenhet.
Ilyen értelemben tehát a tartalom absztrakt fogalom. A szövegek tartalmának a
reprezentálására szurrogátumok szolgálnak a tartalomkezelés hagyományos
intézményeiben, mint például a könyvtárakban.
A szurrogátum az eredeti dokumentum mása, helyettesítője, amelyben az arra vonatkozó
adatelemek rendezett halmazként vannak jelen. „A szurrogátum a dokumentumokat mint
tárolási-keresési egységeket képviseli az információtárolás és -keresés során.” (Varga 2012)
A fogalmak osztályozása és a tartalmak reprezentálása jellemzően könyvtári tevékenység,
ugyanakkor nem tekinthetünk el attól a ténytől, hogy több más tartalomszolgáltató
intézmény is foglalkozik ezekkel a kérdésekkel. A feldolgozó munkának két területét
különböztethetjük meg:
- A dokumentumok formai leírását és azonosítását, ez a formai feltárás, katalogizálás,
illetve a bibliográfiai leírás feladata.
- A dokumentumok tartalmi vagy tárgyi feltárását, mellyel a tartalmi feltárás
foglalkozik.
Ezen feldolgozási tevékenység eredménye a szurrogátum. (Varga 2012)
A fogalmak osztályozása és a tartalmak reprezentálása során azt az üzenetet kell megkeresni
és kifejezni, amelynek információs értéke van azok számára, akiket az információs rendszer
célközönségének, használóinak tekintünk.
A dokumentumok formai és tartalmi feltárása során több funkciónak kell eleget tenni. A
feldolgozásnak célja lehet
- egy dokumentumállomány reprezentálása, áttekinthetővé tétele (formai és tárgyi
szempontok),
- az információk visszakereshetővé tétele,
- a kompatibilitás, szabványosság biztosítása, vagy
- azonosítás (egyértelmű kapcsolat a dokumentum és a szurrogátum között). (Varga
2012)
Az ontológiaépítés során az egyes dokumentumok formai és tartalmi szempontú
osztályozásának szempontja egyaránt megjelenik.
A tartalmi feltárás különböző szinteken valósul meg. Egyrészt szükséges hozzá egy
visszakereshetőséget biztosító adatszerkezet, másrészt a szöveg egyedi információinak
elemzése. A munka során le kell írnunk magát a tartalmat, amelynek célja, hogy a hasonló
szemantikai jellemzőkkel bíró entitások együtt maradjanak, illetve, hogy valamennyi tartalmi
információ visszakereshető legyen.
A tartalom leírása során tartalmi csoportokat kell kialakítani, amelyhez a fogalmak
osztályozása szükséges. A fogalmakból az osztályok kialakítás és az egyes egyedek ezekbe
történő besorolása az emberi gondolkodás egyik legalapvetőbb tevékenysége. A megismerés
során az egyedeket jellemzőik alapján csoportokba soroljuk. Amennyiben egyedek egy
bizonyos csoportja kitüntetett, érzékelhető és jól definiálható közös jellemzőkkel bírnak.
Például a személyautók csoportjába sorolhatjuk a 2-7 személyes, jellemzően négy kerékkel
bíró, első számú funkcióját tekintve személyszállításra szolgáló közúti járműveket. Az
osztályok kialakítása nyomán gazdaságosan kezelhetjük a saját memóriakapacitásunkat,
hiszen egy-egy jármű esetében elegendő megjegyeznünk, hogy az személyautó és így nem
kell valamennyi típushoz (Skoda Octavia, Audi A4, Ford Focus) rögzítenünk a fent felsorolt
jellemzőket.
A világ létezőit így egyrészt szétválogatjuk eltérő tulajdonságaik alapján, másrészt
összevonjuk a hasonlóságok mentén. A fentiek alapján egy osztályba tartoznak azok az
objektumok, amelyek ugyanazzal vagy ugyanazokkal a közös tulajdonságokkal rendelkeznek.
Az osztályalkotás nem más, mint az osztályt jellemző kritériumok meghatározása. Az
osztályba sorolás pedig a hasonló egyedek csoportosítása, illetve annak a megállapítása,
hogy mi mibe tartozik bele. (Varga 2012)
Pálvölgyi (2011) a következőképpen magyarázza mindezt. „Amikor a valóságos dolgokat
(jelenségeket, egyedeket stb.) érzékeljük, értelmezzük, tudatosítjuk, elengedhetetlen, hogy
(1) képesek legyünk arra, hogy megkülönböztessük őket egymástól, (2) és arra is, hogy
különböző dolgok közös ismérveit megállapítsuk. Ha képesek vagyunk dolgok valamely közös
ismérvét megállapítani, akkor meg tudjuk határozni (el tudjuk határolni) azon dolgok körét,
amelyekre a közös ismérv vonatkozik. Ez a művelet osztályozási művelet, és a neve
osztályalkotás. A művelet eredménye: meghatározott dolgok (jelenségek, egyedek stb.) egy
osztályának a létrehozása, megalkotása. Ehhez kapcsolódik az osztályba sorolás művelete.
Az osztályozás valamennyi esetben fogalmi síkon történik. „A fogalom olyan gondolat, amely
a valóság objektumait, jelenségeit az adott tárgyakra nézve közös, más tárgyaktól őket
elválasztó ismertetőjegyeik szerint általánosítja, emeli ki.” (Varga 2012) A szakirodalom két
terminussal írja a fogalom alapvető jellemzőit.
- A fogalom tartalma – intenzió – a benne általánosított dolgok lényeges
ismertetőjegyeinek összessége.
- A fogalom terjedelme - extenzió - a benne általánosított dolgok összessége. (Barátné
1998)
A fogalom a terjedelmét alkotó dolgok osztályát képviseli. Az osztály az elemek olyan nyílt
összessége, melyet közös tulajdonságok, ismertetőjegyek jellemeznek. Az osztályok elemei
rendelkeznek kitüntetett szemantikai jellemzőkkel illetve más megkülönböztető ismérvekkel.
(Varga 2012) Ha egy osztályon belül az elemek egy csoportja a kitüntetett szemantikai
jellemzők mellett más közös tulajdonságokkal is rendelkezik, alosztályt alkot.
Minél nagyobb mértékben általánosítunk egy-egy fogalmat, annál kevesebb ismertetőjeggyel
vagyunk képesek azt leírni. Az ismérvek számának növelésével egyre speciálisabb, a
csökkentésével egyre általánosabb fogalmakhoz jutunk. Bizonyos fogalmakat már csupán
egyetlen ismérvvel, önmagával lehet jellemezni, ezeket fogalmi kategóriáknak nevezzük. Erre
lehet példa az anyag, az energia, az idő, a mozgás vagy a tulajdonság. „A facetták a fogalmi
kategóriák olyan alkategóriái, amelyek egy-egy szakterület általános fogalmait képviselik.”
(Varga 2012)
Összefoglalva tehát az osztályozás az emberi gondolkodás alapvető formája, mely
párhuzamba állítható a fogalomalkotással. Természetes logikán alapul. Azt a logikai
tevékenységet, mely során a jelenségeket, tárgyakat hasonlóságuk foka alapján
egybegyűjtünk, és különbségeik foka alapján elkülönítjük egymástól, osztályozásnak
nevezzük. Ha az osztályozás tárgyai a könyvtár állományába tartozó dokumentumok vagy
szolgáltatási körébe tartozó információk, akkor könyvtári osztályozásról beszélünk. Ha
valamely bibliográfiában felsorakoztatott mű, akkor pedig bibliográfiai osztályozásról
beszélünk.
Az osztályok a gondolkodásunkban definiálhatók más osztályok uniójaként, metszeteként,
komplementereként stb. Az alapvető halmazelméleti műveletekkel képesek lehetünk leírni
az egyes fogalmak közötti átfedéseket, különbségeket, sajátos viszonyokat. „A reláció a
halmazok vagy egy halmaz elemei között megállapított kapcsolat. Fogalmi reláción - teljesen
analóg módon - a fogalmak vagy ismérvek közötti kapcsolatokat értjük.” (Varga 2012) Ennek
általános jelölése aRb.
A relációkat is különféleképpen osztályozhatjuk azok természete szerint. Most csak azon
legjellemzőbb kapcsolattípusokat soroljuk fel, amelyek az osztályozási rendszerek kialakítása
során jelentőséggel bírnak.
- Ekvivalencia reláció. Abban az esetben, amikor két osztályba ugyanazon egyedek
tartoznak. Tipikusan a szinonimákra, illetve különböző nyelvű megnevezések közötti
ekvivalencia leírására szolgál. Pl. ekvivalencia reláció áll fenn a macska – cat – katt
különböző nyelvű elnevezések között, vagy a kutya – eb szinonimák között. Ezekben
az esetekben elmondható, hogy minden olyan egyed, amely a kutya szóval leírható,
biztosan leírható az ebbel is. A valóság minden olyan eleme, amelyet macskaként
definiálunk, az meghatározható mint cat vagy mint katt is.
- Generikus reláció van két olyan egyed között, amelyek egymás fölé- vagy
alárendeltjeinek tekinthetők. Pl. Minden személyautó jármű, de nem minden jármű
személyautó. Tehát a jármű a személyautó fölérendeltje. Valamennyi személyautó
osztályba tartozó egyed része a járművek osztályának is. A generikus reláció az
ontológiák esetében kifejezetten nagy jelentőséggel bír, amelyet Ungváry (2004) a
következőképpen magyaráz: „Az ontológia részét alkotó fogalmi hierarchia
kifejezéseivel dokumentumok (források, elsősorban webforrások) tartalma
osztályozható, írható le. E hierarchia kifejezései tehát a dokumentumok (források)
tartalmára vonatkozó másodlagos vagy ún. metaadatokat képviselnek, maga a
hierarchia pedig tekinthető osztályozási rendszernek, illetve információkereső
nyelvnek. A különbség a hagyományos osztályozási rendszerekhez (ETO) és
információkereső nyelvekhez (tezauruszok) képest az, hogy az ontológiákkal a logikai
szerkezet jóvoltából automatizáltan kihasználható a generikus hierarchia eddig csak
intellektuálisan hasznosított tulajdonsága, a generikus öröklődés. Az öröklődés az
ontológiákban például azt jelenti, hogy ha a kutya fogalmának ismertetőjegye az
ugatás, akkor a kutyák minden fajtájára érvényes, hogy ugatnak. Ez a következtetés
minden nyelvhasználó, és vele minden kereső számára magától értetődő, mégpedig
anélkül, hogy kutyák minden egyes fajtájára nézve külön-külön rögzítenie kellene
magának ezt a ismeretet. Mind a mai napig azonban a logika egyetlen változata sem
teszi igazán lehetővé ennek a következtetésnek a formális végrehajtását (azaz ezt az
ismeretet egy formális rendszerben az egyes kutyafajták esetében külön-külön
rögzíteni kell). Az ontológiákat azért találták ki, hogy ezt a problémát a mesterséges
intelligencián alapuló rendszerekben és az ismeretbázisokban, rajtuk keresztül pedig
valamiképpen az információkeresésben is valahogy áthidalják.”
- Szerkezeti relációnak tekinthetők az egész-rész viszonyokat leíró kapcsolatok.
Magyarország része Budapest, ugyanakkor Budapest egésze Magyarország. Ez a
viszony jellemzően hierarchikus, de a hierarchia nem generikus természetű.
Gondoljunk csak a város – megye – ország – kontinens fogalmak közötti viszonyokra
konkrét példákon keresztül. Pécs város része Baranya megyének; Baranya megye
része Magyarországnak; Magyarország része Európának. Ha generikus viszonyról
lenne szó, akkor igaznak kellene lenni annak az állításnak, hogy az alosztály egyede a
főosztály egyede is. Ez azonban nem igaz, hiszen egy város semmiképpen sem lehet
egy megye is. A relációtípust hívhatjuk partitív hierarchiának is.
Ezen relációkkal az egyes fogalmakat reprezentáló osztályok egymáshoz való viszonya írható
le. Az ontológiák különösen hatékonyak ezen relációk megragadásában és ezáltal a választott
fogalmak közötti összefüggések reprezentálásában.
Az ontológiák mellett számos más tudásszervezési rendszer is létezik. Ezeket tekintjük át a
következő fejezetben.
3 Tudásszervezési rendszerek1
A tudásszervezési rendszerek feladata, hogy segítségükkel sikerüljön úgy elrendezni a
tartalmakat, hogy a felhasználók könnyedén megtalálják, amit keresnek. Ahogy az
információs túlterheltség egyre növekszik, a nem keresett dolgok egyre mélyebben elfedik
azt, amit keresünk, ezek az eszközök egyre fontosabbá válnak. Tudásszervezési rendszereket
alkalmaznak honlapok készítése során is, de legfontosabb eszközei a más tudományágakban
kifejlesztett információszervezési technikák. Ezek közül a legtöbb a könyvtártudományból
jön, mint például a tezauruszok, taxonómiák vagy a facettás osztályozás.
A tudásszervezési rendszerek kapcsán számos probléma megfogalmazható:
- A tudományok fogalmi rendszere változik, nehéz követni.
- A hierarchikus osztályozási rendszerek követőek, nem tükrözik az újdonságot.
- Információkereséskor ritkán gondolkodunk tudományokban, inkább témákat
keresünk. (Garshol 2003)
A szemantikus technológiák viszonylag új szereplői ennek a területnek, és az eddig létező
technikák nyújtotta lehetőségekkel összehasonlítva jobban szervezett tartalmakat ígérnek.
Jelen fejezet célja, hogy áttekintse a létező tudásszervezési rendszereket, hogy azok
fényében világossá válhasson az ontológiák jelentősége, erősségei és hátrányai. Garshol
(2003) áttekintette a legalapvetőbb fogalmakat a tudásszervezési rendszerekkel
kapcsolatosan. Ez a fejezet ezen tanulmány gondolatmenete, meghatározásai és logikája
alapján készült.
3.1 A metaadat fogalma
A metaadat minden információ-visszakeresés alapja, így azzal kezdjük, hogy megvizsgáljuk,
mit takar ez a fogalom. Az az általános feltételezés az információszervezésről, hogy az
különálló egységekből áll, bár ezen egységek szakszerű megnevezése változó. Időnként úgy
hivatkoznak rájuk, mint „dokumentumok”, máskor mint „dolgok”. Ebben a fejezetben a
továbbiakban az objektum kifejezést fogjuk használni ezen egységekre, mivel nem tűnik
1 Garshol (2004) alapján.
megfelelőnek az a feltételezés, hogy a szó hagyományos értelmében ezek mind
dokumentumok lesznek.
A metaadatot általában úgy definiálják, hogy „adat az adatról”, ami természetesen nagyon
tág meghatározás. Az informatika világában ez általában egy adott reprezentáció
adatkészletéről szóló információra vonatkozik, amely jellemzően sémainformációt (schema),
adminisztratív információt stb. jelent. Mindazonáltal a tartalomszervezésben (content
management) és a tudásszervezésben a metaadat általában azt jelenti, hogy „információ az
objektumokről” (az „objektum” itt a fent meghatározott értelemben szerepel), azaz
információ egy dokumentumról, képről, egy újra felhasználható tartalommodulról stb.
Miután minket most elsősorban a tartalomkezelés érdekel, ezt a definíciót fogjuk alkalmazni
a továbbiakban.
A metaadatok legismertebb szógyűjteménye a Dublin Core (DC). A készlet 15 tulajdonságból
áll, amelyek alkalmazhatók információs források leírására. (DCMI 2001) A DC metaadat
elemkészlet (DCMES 2006), a DC metaadat kifejezések (DCMT 2006), valamint a finomított
elemkészlet (DC 2004) információs erőforrások leírására szolgál elsősorban.
A tulajdonságok olyan információkat tartalmaznak, mint például „cím”, „alkotó”, „tárgy”,
„leírás”, „kiadó”, „dátum”, „nyelv” stb. A Dublin Core specifikáció mindegyik tulajdonság
jelentését meghatározza, de arról nem szól, hogy miként lehet ábrázolni a tulajdonságokat
és azok értékeit is egyszerre, és így független minden konkrét technológiától. A Dublin Core-
nak az a célja, hogy a források, a tartalmak felfedezését segítse, vagyis az információ
visszakeresését támogassa. A metaadatok éppen olyan hasznosak a tartalomkezelés során,
mint a tartalom közreadás utáni megismerésében, és így metaadatokat a gyakorlatban
mindkét célra használunk.
Az Országos Széchényi Könyvtár egy Dublin Core metaadatelemkészlet-generátorral segíti a
Dublin Core használatát. (http://mek.oszk.hu/dc/)
A DC metadatelem-készletnek számos más erőforrásokat leíró nyelv számára konvertálható.
A világháló alapvető szabványához illeszkedik a DC HTML (2003), a legfontosabb szemantikus
web ajánláshoz a DC RDF (2002) és a tématérkép technológia csereformátumához a DC XTM
(2003).
Általában véve a metaadat legjobb meghatározása az, hogy „bármilyen állítás egy
információs forrásról”, függetlenül attól, hogy mire használjuk, melyik metaadatkészletet
vesszük alapul, vagy hogy miként ábrázoljuk.
A metaadatok legfontosabb funkciója, hogy segítik a dokumentumok és tartalmak
visszakeresését. Eleinte csak dokumentum-visszakeresésre használták ezeket, a szemantikus
technológiák térhódításával vált nyilvánvalóvá, hogy a felhasználó szempontjából a
tartalmak – dokumentumtól függetlenül való – kereshetővé tétele az igazán releváns. Erről
szól a „tárgyközpontúság forradalma”. (Pepper 2008a, 2009)
Nyilvánvaló, hogy egy nagy dokumentumkorpuszban egy adott információt keresni
bármilyen metaadat (vagyis a tárgyakról szóló információ) nélkül meglehetősen reménytelen
feladat. A kérdés az, hogy milyen típusú információ segítene a legtöbbet a felhasználónak?
Az egyik gyakori eset, amikor a felhasználó már látta egyszer a keresett tárgyat és így talán
emlékszik bizonyos részleteire, mint például szavakra a címből, vagy a szerző nevére vagy
hogy mikor írták. Ebben az esetben ezek a nyomok felhasználhatók a dokumentum
megtalálásához a nyomokra rákeresve és addig próbálgatva a különböző kereséseket, amíg
elő nem kerül a megfelelő dokumentum. A Dublin Core metaadat meglehetősen jól
támogatja a visszakeresésnek ezt a formáját, mivel ez pontosan az a fajta információ,
amelyet tartalmaz.
Általánosabb esetben a felhasználó egy adott tárgyról szeretne információt kapni, és ezért
bármilyen rendelkezésre álló felhasználói felület elé leül, hogy választ kapjon a kérdésére:
vajon milyen objektumok szólnak X tárgyról? Ebben az esetben az a kérdés, hogy mennyi
segítséget tud adni a felhasználói interfész ennek a felhasználónak?
Ha feltételezzük, hogy az interfész a Dublin Core metaadaton alapszik, kiderül, hogy nem túl
sokat. Alább láthatók a Dublin Core metaadatai egy 2005-ben megjelent egyetemi
tankönyvnek.
Cím A szemantikus világháló elmélete és gyakorlata
Létrehozó Szeredi Péter, Lukácsy Gergely, Benkő Tamás
Tárgy Szemantikus web, RDF, OWL, ontológia, tudásreprezentáció
Kiadó Typotex
Dátum 2005
Nyelv Magyar
Terület Magyarország
Formátum Könyv
Nyilvánvaló, hogy ez az információ nem sokat segít, ha az olvasó meg akarja állapítani, miről
szól a könyv, bár a tárgyból láthatjuk, hogy a szemantikus webhez, az RDF-hez (Resource
Description Framework), az OWL-hoz (Web Ontology Language), tudásszervezési rendszerek
közül az ontológiákhoz és általában a számítógépes tudásreprezentációhoz van valami köze.
Ez rávilágít a problémára, miszerint a sztenderd metaadat főként adminisztratív
információkat nyújt és nagyon keveset mond egy objektum tárgyáról. A Dublin Core
metaadat tulajdonságai közül csak néhány foglalkozik ezzel a kérdéssel, és még ezek közül is
a legtöbb csak közvetett módon.
- Cím. Egy dokumentum címe általában jó támpontokat ad arra nézve, hogy miről szól
egy dokumentum, de nem feltétlenül említi meg az összes olyan tárgykör összes
nevét, amelyre a felhasználó kíváncsi, és esetleg olyan tudást is feltételez, amelynek a
felhasználó nincs birtokában. (A mű tárgya jelen esetben azt jelenti: „bármilyen
fogalom, ami a felhasználót érdekelheti”.)
- Leírás. Ez a mező valószínűleg azt írja le, hogy miről szól a dokumentum, de
lehetséges, hogy ez sem segíti hatékonyan a keresést és a megtalálást, ugyanazokból
az okokból, amelyek miatt a „cím” mező sem
- Tárgy. Ez a mező, amely általában kulcsszavak egy készletét tartalmazza, arra szolgál,
hogy pontosan közvetítse, miről szól a dokumentum. Mindazonáltal sok múlik azon,
hogy mennyire széleskörű a kulcsszó-készlet, említésre kerül-e minden vonatkozó
tárgy vagy netán épp túl sok tárgy szerepel a listán, ami miatt a felhasználó túl sok
találatot kap.
A következő kérdés a pontosság, hiszen kérdés, hogy mennyiben lehetünk képesek hitelesen
reprezentálni a világ létezőit.
Amellett, hogy a metaadat nem feltétlenül mond el sokat egy objektum tartalmáról, szintén
probléma az is, hogy nem könnyű olyan készletet létrehozni, amely pontosan leírja a tárgyat.
Képzeljünk el egy felhasználót, amint leül egy interfész elé, amellyel hozzáfér az összes,
Typotex kiadó által közzétett könyvhöz, egy Dublin Core-on alapuló keresési interfészt
használ és a szemantikus webről keres információt. A felhasználó most ismerkedik a témával,
így még nem érdekli annak semmilyen specifikus részlete, csupán a tárgykör maga
általánosságban.
Ha a felhasználó ekkor végez egy keresést a „szemantikus web” kulcsszóval (vagyis ez
szerepel a tárgy mezőben), az összes olyan könyv, amely tartalmazza a „szemantikus web”
kulcsszót, szerepelni fog a keresési eredmények között. Az egyik probléma ezzel az, hogy
ezek között lesznek bevezető anyagok és haladóbbaknak szólók is, az eredmény pedig egy
egyszerű dokumentumlista lesz, amely valószínűleg mutatja a címet, szerzőt és a dátumot.
A cím, szerző, dátum és leírás mezők ez esetben nagyon hasznosak, mivel segítik a
felhasználót az eredmények közötti választásban, de vajon milyen maguknak az
eredményeknek a minősége? Ezt kipróbálva egy dokumentumkorpuszon az alábbi
eredményt kapjuk, a „leggyakoribb legelöl” sorrendben. (Egy olyan egyszerű metaadat
struktúra, mint a Dublin Core, nem teszi lehetővé a „legrelevánsabb” rendezést.)
Cím Szerző Dátum
A szemantikus világháló elmélete és
gyakorlata
Szeredi Péter, Lukácsy Gergely és
Benkő Tamás
2005.
Szemantikus web Bevezetés a tudásalapú
Internet világába
Gottdank Tibor 2005
Explorers’ guide to the semantic web Thomas Passin 2004
Semantic Web Servers - Engineering the
Semantic Web
Graham Moore 2003
Information Architecture with XML Peter Brown 2003
BookBuilder: Content Repurposing with
Topic Maps
Nikita Ogievetsky & Roger Sperberg 2003
The TAO of Topic Maps Steve Pepper 2003
Egy pillantást vetve erre a táblázatra láthatjuk, hogy a fenti dokumentumok legtöbbje nem
elsősorban a szemantikus webről szól, hanem a szemantikus világhálóval összefüggő
témákról. Viszont ha a szerzők nem szerepeltetnék a „szemantikus webet” kulcsszóként,
akkor azok, akik a „szemantikus webre” kerestek, egyáltalán nem találtak volna rá az
előadásaikra.
Egy másik problémája ennek a korpusznak, hogy a szerzőknek maguknak kellett
meghatározniuk a saját kulcsszavaikat, ami azt jelenti, hogy a kulcsszavak megválasztása
meglehetősen eklektikus lehet. Íme a fent említett korpusz néhány szokatlanabb kulcsszava
véletlenszerűen kiemelve: „xml”, „Dublin Core”, „egyetemi tankönyv”, „ontológia”,
„tudásszervezési rendszer”, „funkcionális kompozíció”, „szemantikus”, „Topic Maps”,
„Magyarország újkori története” stb. Nyilvánvaló, hogy ezek több ok miatt sem jó
kulcsszavak.
Szintén problémát jelentenek ugyanazon kulcsszó különböző formái, illetve a szorosan
összefüggő kulcsszavak. A korpuszban találkozhatunk az „intelligens világháló” (a
szemantikus web szinonimája), az „RDF”, „OWL” (a szemantikus web formátumai) stb.
kifejezéseket. Ezzel az a probléma, hogy négy kulcsszó utal két tárgyra és ez a két tárgy
nagyon szorosan összefügg egymással. Ez egyáltalán nem derül ki, és a felhasználónak vagy
előre kell ezt tudnia vagy egyszerűen keresnie kell, ha rá akar jönni.
Összegezve megállapíthatjuk, hogy a leghasznosabb metaadatok egy dokumentumról a
kulcsszavak, mivel egyedül ezek írják le egyértelműen, hogy miről szól a dokumentum. A
többi metaadat hasznos a dokumentum menedzseléséhez, illetve segít a felhasználónak
eldönteni, hogy melyik keresési találatot akarja alaposabban megnézni.
3.2 Tárgyszavas osztályozás
Garshol (2004) a tárgyszavas osztályozással folytatja a tudásszervezési rendszerek
bemutatását.
A könyvtári osztályozás a 19. század végén alakult ki. Addig is létezett tartalmak
csoportosítása, de a fogalmat a mai értelemben csak ettől kezdve használjuk. A könyvtár
funkciói változnak. Régen a megőrzés dominált. Az állomány kialakítása, megőrzése volt a
cél, a használat elsődleges preferenciává később vált. Ma a könyvtár már nem csak
könyveket, hanem minden típusú információt gyűjt és szolgáltat.
A könyvek az emberi ismeretek és tudományok minden területéről merítik tárgyukat. A
tartalmak alapján történő osztályozás kapcsolata nyilvánvaló a valósággal és a tudományok
osztályozásával. A könyvtári osztályozás és a tudományok osztályozása között azonban
lényeges elvi és gyakorlati különbségek vannak.
Elvi különbség, hogy a tudományok osztályozásában a természet és a társadalom jelenségei
az adott kor tudományának színvonalán közvetlenül tükröződnek, ellenben a könyvtári
szakrendszerekben, a dokumentumokban felhalmozódott és a különböző korok
tudományosságát tükröző ismeretek egyszerre és eltérő szinteken jelentkeznek.
Gyakorlati különbségek a következők.
- A tudományok osztályozása valamilyen tudományos dolgozat formájában valósul
meg, mely a tudomány területeinek és fogalmainak körülhatárolásával és
meghatározásával zárul;
- A könyvtári szakrendszerek az ismeretek és tudományok fogalmait, és azoknak
egymással való összefüggéseit a könyvek gyakorlati osztályozását biztosító
táblázatokban rögzítik, szabályrendszerekben adják meg. A tudományok
osztályozásának csak tartalmi, módszertani, szervezeti elemei vannak;
- A könyvtári osztályozásnak a dokumentumok fizikai oldalát, megjelenési formáját is ki
kell fejeznie. A tudományok osztályozását csak tartalmi határok zárják körül;
- A könyvtári osztályozásban általános, interdiszciplináris enciklopédikus és vegyes
tartalmú művek osztályozására is gondolni kell.
- A tudományok osztályozásának célja elméleti szempontból a tudomány fejlődésének
számbavétele, gyakorlati célja pedig a tudomány rendszerének (oktatás, kutatás)
szervezése; a könyvtári osztályozás gyakorlati célja a szakkatalógus vagy más
tájékoztatási, információkereső eszköz létrehozása, és ennek segítségével a kutatási
és egyéb olvasói igények támogatása.
A könyvtári osztályozásnak elsődlegesen tehát gyakorlati célja van, és a tudományok
osztályozásának tükrözése csak másodlagos, eszköz szerepet játszik. A könyvtári osztályozás
célja az információk és hordozóik, a dokumentumok visszakeresésének biztosítása. Azt az
eszközt, melynek segítségével az osztályozást végezzük, osztályozási rendszernek vagy
információkereső nyelvnek nevezzük.
A könyvtári osztályozás rendszerint a következő három funkció mentén értelmeződik:
- a dokumentumok feltárása;
- a dokumentumok tárolása;
- a visszakeresés biztosítása.
A tárgyszavas osztályozás pedig minden olyan tartalomosztályozást jelent, amely az
objektumokat azok alapján a tárgyak alapján csoportosítja, amelyről szólnak. Ennek számos
formája lehet és általában egyéb technikákkal van kombinálva azért, hogy komplex
megoldást nyújtson.
A nyelvi alapozású osztályozási eljárások legelterjedtebb típusa a tárgyszavas osztályozás;
lényege, hogy a dokumentumtartalmak leírására a természetes nyelv szavait, kifejezéseit
használja szabályozott formában (tárgyszavakat). Az osztályozó fogalmakat egymástól
függetlenül hozza létre, tehát ez egy mellérendelő osztályozási eljárás. A tárgyszavas
osztályozási rendszerek igen rugalmasak, könnyen fejleszthetők és egyszerűek, amellett,
hogy magas követelményeket támasztanak. A tárgyszavaktól elvárják, hogy az osztályozott
szakterület, tudomány teljes lefedését adja; tehát a szakterületet hézagmentesen fedje le.
(Sándor, 2002)
Megengedett, sőt szükséges hogy legyenek átfedések; a cél az osztályozásra szánt
dokumentum teljes, sok szempontú leírása a tárgyszavak segítségével. A tárgyszavas
osztályozási rendszerek feladatai: a tárgyszavakkal le kell tudni írni a dokumentum lényeges
vonásait; a tárgyszavak rendje meghatározza a tárolási rendszer (pl. katalógus) szerkezetét
és a tárgyszavaknak alkalmasnak kell lenniük, hogy a használó kérdéseit kifejezzék. A
tárgyszó a dokumentum, információ, szöveg lényegének leírására kiválasztott tömör és
egyértelmű kifejezés. (Sándor, 2002)
Tárgyszók fajtái (Sándor, 2002 alapján):
- tudomány neve (logika, művelődéstörténet, alkalmazott matematika)
- tudományos elmélet neve (relativitáselmélet, értéktöbblet elmélet)
- tudományos irányzat, iskola neve (romantika, szellemtörténet)
- tudományos témák, eljárások megnevezései (répatermesztés, bibliográfia)
- létezők, dolgok, élőlények nevei (bazalt, sugárzás, ragadozók)
- folyamatok, történések nevei (párolgás, földrengés)
- módszerek megnevezései (kísérlet)
- tudományos műszók (kamat, eposz)
- formai tulajdonságok, műfajok (évkönyv)
- intézmények, testületek, szervezetek nevei (Magyar Könyvtárosok Egyesülete)
- dolgok, folyamatok tulajdonságai (képlékeny)
- események nevei (mohácsi csata)
- földrajzi nevek, helyszín (Duna folyó)
- időpontok, időtartamok, korszakok neve (Bach-korszak, századforduló)
- személynevek, alkotások neve (Ady Endre, Biblia)
- közismert rövidítések (IFLA, FTC)
A tárgyszavas osztályozás és a metaadat között az a kapcsolat, hogy azok a metaadat
tulajdonságok és mezők, amelyek különálló tárgyak felsorolásával közvetlenül leírják, miről
szólnak az objektumok, tárgyszavas osztályozást használnak. Ez az alapvető vonás minden
tárgyi alapú osztályozásban közös, és amint látni fogjuk, az egyes technikák közötti
különbségek nem abban vannak, hogy mit mondanak az objektumokról, hanem abban, hogy
mit mondanak a tárgyakról.
Azt hangsúlyoznunk kell, hogy különbség van az osztályozott objektumok leírása és az azok
osztályozásához használt tárgyak leírása között. A metaadat objektumokat ír le, és ennek
egyik módja, hogy összekapcsolja az objektumokat azokkal a tárgyakkal, amelyekről szólnak.
3.3 Ellenőrzött szótárak
Az ellenőrzött szótárak egy meglehetősen tág fogalom, de itt most megnevezett tárgyak egy
zárt listáját értjük alatta, amelyet osztályozásra lehet használni. A könyvtártudományban ez
néha jelölő nyelvként ismeretes. Az ellenőrzött szógyűjtemény alkotóelemeit általában
kifejezésként ismerjük, ahol a kifejezés egy bizonyos fogalom egy bizonyos neve. (Ez
nagyjából ugyanolyan, mint a kulcsszó közértelmű meghatározása).
Szokás különbséget tenni kifejezés és fogalom között úgy, hogy az előbbi egy fogalom neve,
és hogy ugyanannak a fogalomnak több neve is lehet, és hogy ugyanaz a kifejezés több
tárgyat is megnevezhet. Egy ellenőrzött szógyűjtemény kifejezésekből áll és nem közvetlenül
fogalmakból áll, és általában véve minden kifejezés egyértelmű, hiszen csak egyetlen tárgyra
vonatkozik (azaz nincsenek duplikált kifejezések). A „tárgy”, ahogy eddig használtuk ezt a
kifejezést, megfelel a „fogalomnak”.
Pepper (2009) amikor tárgyközpontú forradalomról beszél, akkor is lényegében egy olyan
világot vizionált, amelyben a fogalmak állnak a tudásreprezentáció centrumában és nem a
számítógépes alkalmazások.
A szógyűjtemény kifejezésnek is némiképp eltérő jelentése van az „ellenőrzött
szógyűjtemény”, illetve a „metaadat szógyűjtemény” kifejezésekben. Az első, amint azt
megállapítottuk, bizonyos jelölők vagy osztályozásra használt tárgyak készlete, míg a
második objektumok tulajdonságainak készlete.
A szótárak ellenőrzésének célja annak megakadályozása, hogy a szerzők semmit sem jelentő
kifejezéseket definiáljanak, esetleg túl tág vagy túl szűk értelműeket, illetve annak
megelőzése is, hogy a különböző szerzők hibásan betűzzék vagy enyhén eltérő formáját
használják ugyanannak a kifejezésnek. Vagyis elkerülhetjük, hogy a szerzők a „téma
navigációs térkép” és a „tématérkép” kifejezést használják, ha rákényszerülnek a
„tématérképek” választására. Azt is megakadályozzuk, hogy a „fukcionális összetétel”
kifejezést használják a helyes „funkcionális összetétel” helyett. Az ellenőrzött szógyűjtemény
legegyszerűbb formája egy kifejezéslista és semmi több.
3.4 Taxonómiák
Horváth Zoltánné (2006) definíciója szerint „a taxonómia olyan ellenőrzött szótár (egyben
osztályozási rendszer), amely a dokumentumokat, illetve egyéb információforrásokat az
általuk képviselt fogalmak hasonlósága alapján rendezi és csoportosítja – automatikus
osztályozás esetén klaszteres, nyelvi analízis, illetve numerikus, statisztikai, vagy kombinált
módszerek alapján, viszonylag alacsony hierarchiaszinten –, ezért számítógépes kezelése
áttekinthetőbbnek tűnik, mint a bonyolultabb struktúrákat képviselő osztályozási
rendszereké.
Garshol (2004) ugyanezt a következőképpen írja le: „Taxonómiának egyrészt azokat a
hierarchikus struktúrákon alapuló osztályozási rendszereket nevezik, melyeket tudományos
rendszerező céllal készítenek. A biológiában az élő szervezetek (és szervek) rendszerei
taxonómiák. A tudománytanban az ismeretterületek rendszerét nevezik taxonómiának. A
tanuláselméletben és a mesterséges intelligenciakutatásban is kialakultak taxonómiák és a
nyelvészetben is. A mérhető különbségeken és hasonlóságokon alapuló hierarchiákat
numerikus taxonómiának nevezik. Gazdasági szervezetekben véletlenszerű, hogy a
kialakított hierarchikus rendező rendszert osztályozási rendszernek vagy taxonómiának
nevezik. A szoftverkínálók egy része pl. automatikus és szemiautomatikus taxonómiákat
kínál, más részük meg automatikus osztályozási rendszereket.”
Az információkereső és osztályozási célból készült hierarchikus rendszereket általában
osztályozási rendszereknek nevezik, de az átmenet nem éles az adminisztráció célból készült
osztályozási rendszerek/taxonómiák felé. Az áruk esetében áruosztályozásról (TEÁOR =
Termékek Átfogó Osztályozási Rendszere), a foglalkozások esetében ugyancsak
osztályozásról (pl. FEÁOR) szoktak beszélni, de egyes publikációkban használják (szinonim
kifejezésként) olykor a taxonómia szót is. Ha értékeken alapuló adminisztratív hierarchiákat
készítenek, akkor inkább a taxonómia szót használják (lásd a numerikus taxonómia esetét is).
Vagyis: A tudományos, numerikus és értékalapú, hierarchián alapuló rendező rendszereket
taxonómiának nevezik. Vállalati körülmények között is előfordul, hogy az alkalmazott
osztályozási rendszert taxonómiának nevezik.
Az információkereső, osztályozási, besorolási célú, hierarchián alapuló (gyakorlati) rendező
rendszereket általában és főleg könyvtári-dokumentációs körülmények között osztályozási
rendszernek nevezik.
Elvileg, legáltalánosabb értelemben a taxonómia és a hierarchikus osztályozási rendszer
kifejezések szinonimák, mindkettő hierarchián alapuló rendező rendszert jelent.
Rendező rendszer: fogalmak meghatározott célból kialakított rendszere (lehet hierarchikus
taxonómia és osztályozási rendszer) és enumeratív (ilyen a felsoroló rendező rendszer, mint
például egy egyszerű online mutató), továbbá összetett (ilyen a deszkriptoros.) A rendező
rendszereket foglalják ellenőrzött szótárakba (tárgyszójegyzékekbe, tezauruszokba,
osztályozási táblázatokba, taxonómiai struktúrákba stb.).” (Ungváry 2004)
A Wordmap meghatározása szerint a taxonómiaszoftver lehetőséget ad egy szervezet
számára, hogy a szervezeti információk rendezésére szabványos sémát hozzon létre. A
taxonómia-eszközzel ellenőrizhetők azok a kategóriák, terminológiák, és metaadatok,
amelyeket a szervezet az információs rendszerében használ(hat), elősegítve a navigáció
sikerességét. Egy másik forrás leszögezi, hogy a taxonómia olyan navigációs eszköz,
amelyben a szabványos metaadatok és az ellenőrzött szótár lexikai egységeinek fejlesztése
kombináltan adja azt a navigációs struktúrát, amely segít a felhasználónak a szükséges
tartalmat elérni.
Összességében a következő megállapítások jellemzők (Horváth 2006):
- a taxonómia webes környezetben biztosítja az információforrások, illetve
dokumentumok csoportba rendezését hasonlóságaik alapján a tartalomfeltárás
céljára;
- szisztematikus és szintetikus osztályozási eszköz a tudás-, illetve
ismeretreprezentáció céljára, hierarchikus struktúrában tartalmazza a fogalmakat, és
terminusai a tudásmegosztás nézőpontjából fejlesztik az adott közös nyelvet.
A taxonómia kifejezést régóta széles körben használják és ki is használják olyannyira, hogy ha
valamire taxonómiaként utalunk, akkor tulajdonképpen bármire vonatkozhat, bár általában
valamilyen absztrakt szerkezetet jelent. A taxonómiák eredete Carl von Linné nevéhez
köthető, aki a 18. században hierarchikus osztályozási rendszert fejlesztett ki az élet formái
számára, és ez ma a modern zoológiai és botanikai osztályozás és a fajok névrendszerének
alapja. Jelen tanulmányban a taxonómia kifejezésen olyan tárgyi alapú osztályozást értünk,
amely a kifejezéseket az ellenőrzött szógyűjteményben hierarchiába rendezi, de nem csinál
semmi mást, bár a való életben azt tapasztalhatjuk, hogy a „taxonómia” kifejezést
összetettebb struktúrákra is használják.
E megközelítés előnye, hogy lehetővé teszi azt, hogy az egymással összefüggő kifejezéseket
csoportosítsuk és úgy kategorizáljuk, hogy könnyebben megtaláljuk a megfelelő kifejezést
akár kereséshez akár egy objektum leírásához akarjuk azt használni. Például ez segítheti a
felhasználókat, mivel egyértelművé teszi, hogy van két szorosan összefüggő kifejezés:
„tématérképek” és „XTM”, és segít kiválasztani a megfelelőt. (Vagy legalábbis jelzi a
felhasználónak, hogy esetleg mindkettővel próbálkoznia kéne.)
Példa taxonómiára (Garshol, 2004)
Az ábra a tématérképek elhelyezkedését jelzi egy hipotetikus taxonómiai struktúrában.
Amint látható, ez a struktúra könnyen segíthet kiválasztani a megfelelő kifejezést, ha valaki
információt keres a tématérképekről vagy osztályozni akar egy tématérképekről szóló
dokumentumot.
A taxonómia a tárgyak leírásával segíti a felhasználót; a metaadat szempontjából igazán
nincs különbség egy egyszerű ellenőrzött szógyűjtemény és egy taxonómia között. A
metaadat csupán objektumokat kapcsol tárgyakhoz, míg itt a tárgyakat hierarchiába
rendeztük. Tehát a taxonómia az osztályozáshoz használt tárgyakat írja le, de ő maga nem
metaadat; mindazonáltal használható metaadatban. A következő ábra ezt mutatja be.
A taxonómiák és metaadatok (Garshol, 2004)
Ebben a diagramban a kék vonalak a metaadatok, míg a fekete vonalak, amelyekből a
taxonómia áll, a tárgyi alapú osztályozási séma részei. A megkülönböztetés onnan ered, hogy
a kék vonalak az előadásról szóló állítások, de a fekete vonal a „tématérképek” és a
„tudásreprezentáció” között nem az előadásról, hanem a tématérképekről szóló állítás.
Ennek egyik következménye, hogy ha van egy másik előadásunk a „tématérképekről”, nem
kell megismételnünk, hogy a „tématérképek” a „tudásreprezentáció” alá tartozik.
A taxonómia több információt nyújt a fogalmakról, és ezt a felhasználó segítése érdekében
teszi. Mindazonáltal míg a taxonómia segíti a felhasználót, a fogalmakkal kapcsolatos számos
fontos információról nincs szó, úgy mint:
- A tényről, hogy az „XML Tématérképek” és az „XTM” szinonimák.
- Az „XTM” és a „tématérképek” közötti különbségről. (Sok felhasználó ezeket
egymással felcserélhetőként használja, pedig nem ugyanazt jelentik.)
- A tényről, hogy a „téma navigációs térképek” a „tématérképek” szinonimája, de már
nem használatos.
- A tématérképek és a tárgyi-alapú osztályozás, illetve a tématérképek és a
szemantikus web közötti kapcsolatról.
- Az XTM és az XML, illetve a HyTM és az SGML közötti kapcsolatról.
- A HyTM és az XTM közötti hasonlóságról, illetve arról, hogy miben különböznek a
TMQL-től és a TMCL-től, valamint a TMQL és az XQuery közötti hasonlóságról.
Mindez következményekkel jár a végfelhasználó számára, hiszen ez azt jelenti, hogy
pontosan a megfelelő kifejezést használva kell keresnie, pont a megfelelő helyen kell
keresnie ahhoz, hogy megtalálja a kifejezéseket stb. Egy taxonómia, ahogy azt itt definiáltuk,
nem tudja kezelni ezeket a problémákat, bár észre kell vennünk, hogy sok rendszer,
melyekre taxonómiaként utalunk, bizonyos mértékben tudja kezelni, mivel túllép az itt
meghatározott alapmodellen.
Szóljunk még néhány szót a vállalati alkalmazásokról is. „A taxonómiákat vállalati
környezetben gyakran nevezik a tudásmenedzsment (TM) közösség által fejlesztett
tudásfeltárás (tudásreprezentálás) explicit eszközének. A taxonómia olyan terminusokat
tartalmaz, amelyek a tudásmegosztás nézőpontjából megfelelnek adott környezet közös
nyelvének. Nem szükséges egy tudományág teljes fogalmi reprezentációját képviselnie, de
kialakításakor nélkülözhetetlen segítséget jelent a fogalmi elemzés.
Gazdasági szervezeteknél az üzleti vagy szakmai tevékenység (misszió) a vezérelv, amelynél a
legfelső kategória a misszióra vonatkozó általános megnevezés, és ezt követik olyan
általános és gyűjtőfogalmak, mint: szolgáltatás, marketing, termékek stb. A megnevezések
kodifikálását a tudásmenedzsment közösség vagy szerkesztőbizottság végzi egy tesztcsoport
közreműködésével. A tesztelés társult eredménye a megnevezések „megtanulása” is. A
konszenzuson alapuló megnevezések eltérőek is lehetnek az általánosan használtaktól – a
fogalmi definícióban szerepelnek az értelmezés helyi sajátosságai.” (Horváth 2006).
3.5 Tezauruszok
Garshol (2004) a tezauruszokról is hosszas áttekintést ad, ebben a részben az ő
gondolatmenetét tovább folytatva mutatjuk be ezeket a tudásszervezési rendszereket.
A „taxonómiához” hasonlóan a „tezaurusz” kifejezést is mindenféle tárgyi alapú osztályozási
struktúra leírására használják, habár a tezauruszok szerkezetét két ISO-szabvány is
meghatározza. Az ISO 2788 az egynyelvű tezauruszokat írja le, míg az ISO5964 a
többnyelvűeket. Mi itt most abban az értelemben fogunk a tezauruszokról beszélni, ahogy
azokat az ISO-szabványok meghatározzák, miközben azt is észrevesszük, hogy a gyakorlatban
sok felhasználó valamennyire kibővíti a szerkezetet, és néhány esetben a kifejezést olyan
struktúrákra is használják, amelyek az itt leírtaktól lényegesen különböznek.
A tezaurusz olyan szótár, amelyben a szókészletet a szavak expliciten kifejezett
összefüggéseivel együtt adják meg. Ezért nevezik ellenőrzött szótárnak. A szócikkek
(tezauruszcikkek) azonban nem csak a szemantikai és morfológiai (együttesen
paradigmatikus) összefüggéseket hanem a vezérszóval összefüggő magyarázatokat,
meghatározásokat, használati, történeti, forrás stb. megjegyzéseket is tartalmaznak, ezért a
tezaurusz a terminológiai szótárra is emlékeztet.
Elvileg sokféle tezaurusz készülhet (nyelvészeti, terminológiai, információkereső); itt az
utóbbival foglalkozunk. A tezaurusz görög szó /thesaurus/, kincset, kincstárat jelent. A
tezaurusz szó maga az idők folyamán több értelmet kapott:
- tudományos tezaurusz ókorban és koraközépkorban: valamilyen nagy tudományos
gyűjteményre, anyaggyűjteményre vonatkozott.
- Nyelvészeti tezaurusz a 19. századtól egy nyelv szókincsét felölelő, a szavak,
kifejezések relációit is bemutató szótárat jelentett (pl. Roget angol nyelvi tezaurusza)
- Információs tezaurusz (1960-as évektől) az információk rendszerezett és sokrétű
feldolgozását és keresését segítő fogalomgyűjtemény (a fogalmakat pontosan,
megbízhatóan, sok szempontúan tükrözi) (a továbbiakban tezauruszként ezt jelöljük)
A tezauruszok alapvetően a fent leírt taxonómiákból indulnak ki és úgy terjesztik ki azokat,
hogy jobban leírhassák a világot azáltal, hogy nem csak a tárgyak hierarchiába való
rendezését teszik lehetővé, hanem a tárgyakról szóló egyéb állítások megfogalmazását is.
Fogalmi kapcsolatok vizuális megjelenítése (Forrás: http://www.jayday.org/thesaurus.jpg)
Az ISO 2788 a következő tulajdonságokat határozza meg a tárgyak leírásához (a
hagyományos – angol nyelvben bevett – rövidítésekkel éltünk Garshol 2004 alapján)
BT
A „broader term” (tágabb kifejezés) rövidítése, a hierarchiában fölötte álló kifejezésre
utal: annak a kifejezésnek tágabb vagy kevésbé specifikus jelentésűnek kell lennie. A
gyakorlatban néhány rendszer lehetővé teszi, hogy egy kifejezésnek több BT-je
legyen, míg más rendszerekben erre nincs mód. (Létezik egy inverz tulajdonság is, az
ún. NT – „narrower term”, azaz szűkebb kifejezés –, amelyre a BT utal.) Mondhatnánk
azt is, hogy a fent leírt taxonómiák olyan tezauruszok, amelyek csak a BT/NT
tulajdonságokat használják a hierarchia létrehozásához, és nem használják egyik lent
leírt tulajdonságot sem, tehát kijelenthetnénk, hogy minden tezaurusz tartalmaz egy
taxonómiát.
SN
Ez a kifejezéshez csatolt karakterlánc, amely annak a tezauruszon belüli jelentését
magyarázza meg. Ez azokban az esetekben lehet hasznos, amikor a kifejezés pontos
jelentése nem egyértelmű a kontextusból. Az „SN” a „scope note” rövidítése. Mivel a
felhasználók gyakran használják az „XTM” kifejezést a tématérképekre, hasznos lenne
az XTM-hez egy olyasmi scope note-ot adni, hogy „A tématérképek sztenderd XML
csereformátuma. A tématérképekről beszélve általánosságban, és nem csak
specifikusan a formátumukról, használja a ’tématérképek’ kifejezést.”
USE
Egy másik kifejezésre utal, amely az adott kifejezésnél jobban kedvelt; arra utal, hogy
a két kifejezés egymás szinonimája. (Létezik egy inverz tulajdonság is, az UF.) Például
a „téma navigáviós térképekre” tehetnénk egy USE tulajdonságot a „tématérképekre”
utalva. Ez azt jelentené, hogy elismerjük a „téma navigációs térképeket”, de a
„tématérképek” ugyanazt jelenti és ezért az utóbbi használatát javasoljuk. Ha ezt
tesszük, akkor a „tématérképeken” is lenne egy UF tulajdonságunk a „téma
navigációs térképekre” utalva, mivel ezt jelöli a „USE” kapcsolat.
TT
Ez a „top term” (top kifejezés) rövidítése, amely az adott kifejezés legfelső ősére
(topmost ancestor) utal. Az ezen tulajdonságnak a másik végén lévő kifejezés az,
amelyet akkor találnánk, ha a BT tulajdonságot követnénk egy BT nélküli kifejezés
eléréséig. Szoros értelemben ez a tulajdonság redundáns, mivel nem hordoz többlet
információt, bár talán hasznos lenne.
RT
A „related term” (kapcsolódó kifejezés) rövidítése, az adott kifejezéshez kapcsolódó
kifejezésre utal, amely azonban az adott kifejezésnek nem szinonimája és nem is
tágabb/szűkebb kifejezése. A „tématérképek” esetében használhatnánk ezt annak
kifejezésére, hogy a „tárgyi osztályozás” és az „ontológiák” a „tématérképekhez”
kapcsolódó kifejezések.
Röviden, a tezauruszok sokkal gazdagabb szókincset (vocabulary) kínálnak a kifejezések
leírásához, mint a taxonómiák, és emiatt sokkal erősebb eszközök. Amint látható, ha
taxonómia helyett tezauruszt használnánk, számos gyakorlati problémát megoldanánk az
objektumok osztályozásával, illetve keresésével kapcsolatban.
Magyarországon a legnagyobb általános tezaurusz az Országos Széchényi Könyvtáré,
amelynek kereshető változata a http://mek.oszk.hu/adatbazis/thes.htm címen érhető el. A
következő kép ebből mutatja be a kutya szót, annak kapcsolódó fogalmaival együtt.
3.6 Facettás osztályozás
A facettás osztályozás kifejezést számos különböző dolog jelölésére használják. Eredetileg
S.R. Ranganathan javasolta az 1930-as években (Ranganathan 2002), és úgy működik, hogy
egy bizonyos számú facettát határoz meg, amelyekre a kifejezések feloszlanak. A facettákra
tekinthetünk úgy is, mint különböző tengelyekre, amelyek mentén osztályozhatjuk a
dokumentumokat, és minden facetta tartalmaz egy bizonyos számú kifejezést. A kifejezések
leírásának módja a facettákon belül változó, bár általában egy tezauruszféle struktúra a
használatos, és általában egy kifejezés csupán egyetlen facettához tartozhat (Svenonius,
2000)
A facettás osztályozás egy konkrét digitális könyvtár vonatkozásában (Forrás: Maria
Theodoridou, Martin Doerr 1998)
A facettás osztályozás lényegét legjobban Horváth Tibor és Sütheő Péter (2003) írják le. „Az
információkereső nyelvek önálló típusát jelenti. Nincs ellentétes típuspárja, mert az összes
többi, „nem facettás” információkereső nyelv kínálná magát erre, de a facetta elv
megjelenhet alkalmazási előírásként bármely másik indexelő-osztályozó eljárásban. A facetta
jelentését leginkább a magyar „vetület” kifejezés adja vissza: eszerint vetületes
osztályozásnak is lehetne hívni.
A facetta minden kognitívum számára ugyanazt a kérdést teszi fel: az ismérvek sorozata, a
logontartalom milyen arculatot ölt az indextételben? Hogyan kell az ismérveket elhelyezni az
információt leíró ismérveket tartalmazó vetületek rendjében? Egy „rádiókészülék” – mint
egy tétel ismérve – lehet egy folyamat (pl. munkafolyamat) tárgya. Lehet végterméke. Lehet
tulajdonságok hordozója. Lehet eszköz, ha rádióval, a rádió segítségével egy végbe valami. A
facettás osztályozás szerint egészen más a rádió szerepe, ha más vetületben helyezkedik el.
A facettás osztályozás fordulópontot jelentette az információtudomány történetében.
Ugyanis egy feldolgozási egységhez rendelt ismérvsorozat ugyanúgy nem áll össze
indextétellé, ahogyan a szavaknak egy kupaca még nem alkot mondatot. Módot kell találni a
viszonyok meghatározására. Ezeket a viszonyokat az ismérvek szótárába,
tárgyszórendszerekbe, tezauruszokba, hierarchiákba igyekeztek beépíteni, még az
indexelési-osztályozási folyamat előtt. A facettás osztályozás volt az első hatékony eljárás
arra, hogy az ismérvek kapcsolata magában az indextételben jelenjenek meg. (kezdetben
még tartotta magát az a tévhit, hogy a minden egyes tétel ugyanazokkal a facettákkal írható
le.)
A facettás osztályozás kidolgozója Ranganathan, bár az elv egészen Arisztotelészig vezethető
vissza. Ranganathan szerint a facetta bármely téma összetevőjét megjelenítő általános
fogalom. Nála még öt facetta létezett, amelyek bizonyos szintaxist kölcsönöztek az
indextételnek.”
A facettás osztályozás azon a dokumentumosztályozási elven alapul, hogy minden facettából
egy kifejezést kiválasztva leírjuk a dokumentumot az összes különféle tengely mentén. Ezzel
a dokumentum sok különböző perspektívából leírható. Ranganathan eredeti javaslata
(Kettőspontos Osztályozás néven is ismeretes) öt facettából állt:
Személyiség
Az eredeti szándék szerint ez a facetta a dokumentum elsődleges subject-je számára
van, és a főfacettának tartjuk.
Anyag
Az anyag vagy állomány/lényeg/összetétel, amellyel a dokumentum foglalkozik.
Energia
A folyamatok vagy tevékenységek, amelyeket a dokumentum leír.
Tér
A dokumentum által leírt helyek.
Idő
A dokumentum által leírt időintervallum.
A facettás osztályozás talán nagyon különbözőnek tűnik egy tezaurusztól, de valójában a
tekinthető úgy is, mint egy nagyon fegyelmezett módja a tezaurusz építésének, és
használható osztályozási célokra is.
Létezik egy XML csereszintaxis a facettás osztályozás számára, amely XFML-ként
(eXchangeable Faceted Metadata Language, azaz Facettás Metaadat Csereszintaxis)
ismeretes, és az XTM inspirálta és vannak is azzal közös vonásai. Az XFML nem kívánja meg
semmilyen specifikus facettakészlet használatát, sem az egyes facettákon belüli specifikus
kifejezéskészletét, hanem egy tezaurusz-szerű struktúrát használ a kifejezésekhez a
facettákon belül. (van Dijck, 2003)
Létezik egy általános nézet a facettás osztályozásról, amely szerint minden facettát addig a
pontig általánosítunk, amíg általános tulajdonsággá válik, a dokumentum fogalma pedig
annyira általános, hogy bármilyen típusú objektum lehet a jelentése. E szerint a nézet szerint
csak kis különbség van a facettás osztályozás és az ontológiák között.
Az ontológiák szintén tudásszervezési rendszerek, amelyek a jelen módszertani útmutatóban
kiemelt jelentőséggel bírnak, ezért ezeket önálló fejezetben tárgyaljuk.
4 Az ontológia fogalma
Az ontológia eredetileg filozófiai terminus, amely a világ létezőinek valamint a lételméletnek
a megnevezésére szolgál. Kizárólag ez a kontextus határozta meg az ontológiákról szóló
diskurzusokat egészen az elmúlt néhány évtizedig. A fogalom az 1970-es években nyert új
jelentéseket, amikor a mesterségesintelligencia-kutatásban a szoftverekkel generált
mesterséges világok megnevezésére is használták. Később a tudásmenedzsmentben az 1990-
es években kezdtek ontológiákról beszélni a formális logikai leírásokkal ellátott generikus
hierarchiaszerkezetekkel kapcsolatban.
Az ontológiák a szemantikus-web fejlesztések kapcsán kaptak különösen nagy figyelmet az
elmúlt években. Azt hogy pontosan milyen szerepet játszanak az ontológiák a szemantikus
web működési mechanizmusaiban, Berners-Lee, Handler és Lassila (2001) a
következőképpen magyarázzák. „Elképzelhető, hogy két adatbázis különböző azonosítókat
használ azonos dolgokra. A programnak, amely össze szeretné hasonlítani, vagy kombinálni a
két adatbázisból származó adatokat egymással, tudnia kell, hogy a két terminus ugyanazt
jelenti. Ideális esetben a program képes felkutatni az ilyen közös jelentéseket, bármilyen
adatbázissal is találkozik. Az ilyen problémákra a szemantikus web harmadik nagy
komponense jelenti a megoldást, az ún. ontológiák.”
Szakadát István (2007) hívja fel a figyelmet arra, hogy az informatika és a tudásmenedzsment
területén szerencsésebb lenne a formális ontológia vagy ipari ontológia terminusokkal élni.
Tény, hogy így mindez világosan elkülöníthető lesz a filozófiai fogalom eredeti
jelentésrétegeitől.
Az ontológia fogalma vonatkozásában most kizárólag az informatika és a tudásmenedzsment
területén ismert definíciókat soroljuk fel a főbb tartalmi elemekre koncentrálva a teljesség
igénye nélkül. A definíciók tekintetében részletesebben kitérünk az intelligens webes
alkalmazásokban használatos meghatározásokra, köztük az ISO 13250 szabványban leírt
Topic Maps technológia kapcsán született ismert definíciókra is.
Az első és legalapvetőbb definíció Gruberttől származik, amelyet Szakadát, Szőts, Szaszkó
(2006) a következőképpen mutat be. „Talán a leggyakrabban idézett meghatározás Thomas
Grubertől származik (1993a, 1993b), amely szerint az ontológia „egy fogalmi rendszer
konszenzuson alapuló, explicit, formális specifikációja”. Mivel nagy vonalakban – egy-két
kiegészítéssel együtt – a MEO-projekt számára elfogadhatónak tűnik ez a meghatározás, de
érdemes alaposabban kibontani, hogy pontosan mit is értünk a definíció egyes elemein. A
mondatot az alábbi összetevőkre bonthatjuk:
1) egy fogalmi
2) rendszer
3) konszenzuson alapuló
4) explicit
5) formális
6) specifikációja.
Bizonyos értelemben mindent meghatároz a definíció első két eleme, amely szerint az
ontológiákban a létező dolgokra vonatkozó képzetekeinket reprezentáló fogalmakat akarjuk
egységes rendszerbe foglalni (1). Ehhez természetesen alaposan körbe kell járni, mit is jelent
a fogalom fogalma, illetve milyen típusait érdemes elkülöníteni, de ezzel itt most nem kell
törődnünk. 1 Az ontológiák építésével azt a fajta paradigmatikus tudást akarjuk rögzíteni,
ami a természetes nyelvi kommunikáció során a szó szintű nyelvi megnyilatkozásainkkal
fejezünk ki. A fogalommal a világ valamilyen létező elemére, összetevőjére, dolgára akarunk
utalni úgy, hogy jegyek, tulajdonságok felsorolásával kifejezzük a fogalom tartalmát
(intenzióját) és rámutatunk a világ azon konkrét létező dolgaira, amelyek a fogalom
terjedelmét (extenzióját) alkotják. Az ontológiákba azonban nem pusztán az egyes
fogalmakat vesszük fel, hanem rögzítenünk kell a fogalmak közötti kapcsolatokat is. Amikor
ilyet teszünk, akkor valamiféle struktúrát építünk a fogalmak halmazán, amivel túllépünk a
fogalmak egyszerű felsorolásán, s valamilyen fogalmi rendszerről kell beszélnünk. Ezért kell
beemelni a fogalmi rendszer (vagy másként: konceptualizáció) kifejezést a
meghatározásunkba (2). Ebben az esetben kijelentéseket vagy formulákat, azaz a
természetes nyelv mondat szintű megnyilatkozásainak megfelelő, igazságértékekkel
jellemezhető logikai egységeket kell létrehoznunk (specifikálnunk) és egységes rendszerben
konzisztensen kezelnünk (6).” (Szakadát – Szőts – Szaszkó 2006)
Szintén gyakran idézett meghatározás Ungváry definíciója, amely szerint az ontológia „egy
meghatározott ismeretterület formális modellje” (Ungváry 2004). A definíció kevésbé
szigorú, hiszen az előzőekkel ellentétben nem foglalkozik explicit módon a konceptualizálás
kérdéskörével, hanem sokkal inkább adottságnak veszi azt, hogy egy ismeretterület
formalizálása során fogalmak alkotására van szükség. Szintén nem foglalkozik a definíció a
formalizálás mikéntjével, tehát az egyes – a tudásszervezési rendszerben felsorolt – fogalmak
egymáshoz való viszonyát meghatározó lehetőségekkel. Egy meghatározott ismeretterület
formális modellje bizonyos értelemben lehet egy tezaurusz is, hiszen abban is egy előre
definiált modell által meghatározott keretek között, géppel olvasható formában
(formalizáltan) vannak jelen az egyes fogalmak, amelyek a könyvtári dokumentumok
osztályozása során deszkriptorokként kerülnek használatba.
A Gene Ontology Consortium ontológiájának részlete http://www.godatabase.org/ (Forrás:
Ungváry – Vajda)
„Megosztott konceptualizálás formális, explicit leírása” (Vickery 1997, Horváth Tibor
fordítása).
megosztott: arra vonatkozik, hogy egy ontológia magáévá tette a megegyezéses
tudást, azaz nem személyi vagy individuális, hanem egy szélesebb közösség által
elfogadott.
konceptualizálás: a világ jelenségeinek (fenomenon) absztrakt modellje azáltal, hogy
e fenomenonnak releváns fogalma (concept) határozható meg;
explicit: a használt fogalmak típusát jelenti, a használat megkötöttségeit, amelyeket
határozottan definiálnak;
formális: géppel olvasható (szabályokkal leírt, előírásos);
Az ontológiák lényegében speciális taxonómiák, amelyek a mellett, hogy megmutatják a
fogalmak egymáshoz képesti fogalmi hierarchiáját, a formális logikai szabályok
megjelenítésével még többre képesek az emberi gondolkodás reprezentálásában. (Berners-
Lee, 2001)
„Egy meghatározott ismeretterület formális modellje” (Ungváry, 2004) Az ontológiákkal
kihasználható a tulajdonságok generikus öröklődése a speciálisabb fogalmak irányába.
A szemantikus web fejlesztésekhez képest a tématérképekkel foglalkozó nemzetközi
közösség ontológia definíciója lényegesen lazább. Az ontológiák meghatározása
tématérképes környezetben nem egyezik a szemantikus webet fejlesztő közösség
definícióival. A tématérképek esetében „az ontológia meghatározott tématérképben
használt téma-, név-, előfordulás-, asszociáció- és szereptípusok összessége.” (Garshol 2007)
Mindehhez célszerű a fogalmakat röviden értelmezni. Minderre ráadásul később az
ontológiafejlesztés gyakorlatáról szóló fejezetben közvetlenül is szükségünk lesz.
A tématérképek eredete az elektronikus indexek összeolvasztásán történő munkához
köthető, ezért nagyon is tárgyi osztályozási technikát alkotnak. A tématérképek
tulajdonképpen témák köré rendeződnek, és minden téma valamilyen valós dolog
ábrázolására használatos. A fent használt terminológia szerint a témák fogalmakat jelölnek,
ugyanúgy, ahogy egy jelölő nyelvben a kifejezések fogalmakra vonatkoznak. A
tématérképekben a fogalmakat tárgyaknak hívjuk, és a szabvány hangsúlyozza, hogy „bármi”
lehet tárgy.
Téma (topic) – A tématérképekben tárolt információ alapvető egységei a témák.
Minden olyan dolgot témának kell tekintenünk, amelyről állítást kívánunk tenni. A
témát meg kell nevezni, és biztosítani számára az egyértelmű címezhetőséget. A
szemantikus web vízióban az egyértelmű címezhetőséget az URI-k (Universal
Resource Identifier-ek) biztosítják, ahogy lényegében a tématérkép technológia
esetében is. Minden témához rendelnünk kell egy olyan (külső) erőforrást, amely
egyértelműen azonosítja a témát, és minden más témával szemben
összetéveszthetetlenné teszi. A Topic Maps technológia alkalmazása során PSI-ket
(Public Subject Identifier) használnak a témák azonosítására, de bármely ellenőrzött
szótár elemei alkalmasak az egyértelmű címezhetőség biztosítására. Ilyen
azonosíthatók lehetnek például a DBpedia szótár elemei.
Asszociáció (association) – A témák közötti relációkat az asszociációk írják le. Az
asszociációk segítségével állításokat fogalmazhatunk meg két egymással összefüggő
témáról. Az asszociációk esetében is szükséges lehet az egyértelmű címezhetőség
biztosítására, így ezekhez is rendelhetünk azonosítókat.
Előfordulás (occurence) – A tématérkép technológia harmadik meghatározó elemei
az előfordulások. A tématérképekben az előfordulások azok az elemek, amelyek
tényleges információt hordoznak, és nem egy adott dolgot reprezentálnak, mint az
asszociációk, vagy a témák. Megkülönböztetünk külső és belső előfordulásokat.
Előbbiek a tématérképen kívüli erőforrásokra mutató linkek, utóbbiak a
tématérképbe írt információk, magyarázatok, adatok, tények.
Nevek és névtípusok (name types) – Minden téma állhat különböző neveken. Minden
témának van egy kitüntetett neve, amely szerepel az asszociációkban és amely az
adott fogalom reprezentánsaként funkcionál. Ezen túl azonban bármennyi névtípust
meghatározhatunk. Például beírhatjuk mindennek az angol nevét (tématérkép – topic
map); de személyek becenevét is (Kovács István – Kokó), vagy intézményi
rövidítéseket (Központi Statisztikai Hivatal – KSH).
Szerepek és szereptípusok (role types) – A témák közötti kapcsolatok definiálása
során gyakran nagy jelentősége van annak, hogy egy téma milyen szerepben vesz
részt egy relációban. Egy személy például kutatóként rendelkezik kutatási területtel,
munkavállalóként vesz részt egy munkáltatói viszonyban, és például apaként vesz
részt egy szülő-gyermek viszonyban. Ezen szerepek definiálására használják a
szerepeket, szereptípusokat.
A tématérképek világában az ún. TAO modell a fenti elemek legfontosabb három elemére, a
témákra (topics) az asszociációkra (associations) és az előfordulásokra (occurences) utal.
A tématérképekben szükség lehet bizonyos állítások irányának, bizonyos névtípusok
érvényességi körének meghatározására. Erre szolgál az érvényesség (scope) definiálása.
Ennek tipikus példája a nyelvi meghatározottság. Névtípusok esetében egy megnevezés csak
bizonyos kontextusokban, nyelveken értelmezhető.
Az alábbi ábra a tématérkép technológia általános modelljét mutatja be:
A tématérképek egyszerűsített (TAO) modellje
Ahogy a fenti ábrán is látható, minden tématérkép hátterében van egy ontológia, amely
meghatározza a fogalmak hierarchikus rendszerét, egy egyszerű, néhány témát, tématípust,
asszociációt és előfordulást tartalmazó tématérkép készítése során azonban ez nem
feltétlenül tudatosul. Egy bonyolultabb, nagyon sok tématípust, generikus relációkat (elvont
fölérendelt nem- és alárendelt fajfogalmakat), tartalmazó tématérkép kidolgozása során
előbb kell az ontológiát elkészíteni és csak azt követően megtölteni tartalommal
(információval), azaz konkrét eseteket rendelni a típusokhoz. Ezt hívják ontológiavezérelt
tématérkép-szerkesztésnek. (Pepper 2007, Tóth 2008) Az ontológiavezérelt tématérkép-
szerkesztés során lehetőség van arra, hogy más készítse el az ontológiát és más töltse fel a
tartalmat, hiszen más típusú szakértelemre van szükség a két művelethez. Erre fogunk példát
mutatni a gyakorlati ontológiaszerkesztésről szóló fejezetben.
A tématérkép ontológiák a humán interpretáció szempontjából nagyon hatékonyak:
elsősorban erre optimalizálták ezeket. A géppel végeztetett következtetésekhez ugyanakkor
nem kellően kifinomultak, hiszen nem formális logikákon alapulnak, így nem tudnak olyan
mértékben konzisztensek lenni, mint az RDFS/OWL ontológiák.
A következő ábra az olasz opera egy jeles alakjának az életművét mutatja be egy OKS
segítségével elkészített tématérképben.
A formális logikák hiánya egyrészt előny: biztosítja a világ létezőinek és az azok közötti
kapcsolatok formalizálása szempontjából elengedhetetlen rugalmasságot. Ezért a
tématérképek hatékonyan le tudják képezni a strukturálatlan információkat. (Kormos,
Kovács, Tóth 2008) Másrészt viszont hátrány, mivel a tématérképek így nem állhatnak össze
egy következtetésre is alkalmas globális metaadat-infrastruktúrává, amelynek létrehozása a
szemantikusweb-fejlesztések végső célja, és amelyet a szakirodalomban több helyen reális
célként fogalmaznak meg. (Newcomb 2003, Passin 2004, Pepper 2006)
A MEO (Magyar Egységes Ontológia) projekt tapasztalatai alapján erősen kérdéses a felsőbb
szintű ontológiák valódi haszna. Szakadát István szerint „nemhogy az ontológiák tényleges
ipari alkalmazásától messze vagyunk, de ma még mindenhol az alapok kialakításánál,
megszilárdításánál tartanak.”
Könnyen belátható, hogy minél szélesebb körben végezzük el a tudásreprezentációt, annál
kevésbé tudunk mélyre hatolni az emberi gondolkodás struktúráinak modellezésében. Minél
felszínesebb lesz a tudásreprezentáció, annál kevésbé lesz a kialakított rendszerünk alkalmas
a következtetésekre, valós problémák megoldására.
A tématérkép ontológiák kapcsán mindenképpen szót érdemelnek az azonosítási
mechanizmusok. Míg az RDF/OWL ontológiák esetében az egyes fogalmak közötti
kapcsolatok eleve jól definiált erőforrások között létesülnek. A tématérkép technológia
esetében fogalmak vannak a középpontban, amelyeket URI-kkal utólag azonosítani kell.
A tématérkép technológia PSI-ket (Published Subject Identifier/Indicator – Publikált
Tárgyazonosító/Indikátor) használ a fogalmak egyértelmű azonosítására. A PSI elsődleges
célja, hogy két tématérkép összeolvasztásakor biztosítsa, hogy a számítógép felismerje
azokat a témákat, amelyek a valóság ugyanazon létezőjére utalnak. Az OASIS Topic Maps
Published Subject Technical Committee (OASIS Tématérkép Publikált Tárgyak Technikai
Bizottság) azzal a céllal állt fel 2003-ban, hogy tématérképek és egyéb szemantikus
technológiák (RDF, OWL) közötti interoperabilitást biztosító ajánlásokat dolgozzon ki. 2003
júniusában jelent meg a PSI-kre vonatkozó ajánlás. (Pepper 2003) A dokumentum
részletesen ismerteti a PSI-k legfőbb követelményeit.
A PSI rövidítésnek két feloldása is van. A Published Subject Indicator (Publikált
tárgyindikátor) egyértelműen azonosítja az adott tárgyat az emberek számára. Ez lehet egy
szöveges definíció, egy audio, vagy vizuális reprezentáció. Egy város esetében például állhat
a következő: „Debrecen, magyar megyei jogú város, Hajdú-Bihar megye székhelye.” A
tárgyindikátorokat rendszerint egy önálló HTML oldalon helyezik el. A Published Subject
Identifier (Publikált tárgyazonosító) a címzés, amely a gép számára azonosítja az adott
dolgot. Amennyiben két témának azonos a publikált tárgyazonosítója, azt a számítógép
összeolvasztáskor azonos témaként fogja kezelni. Az indikátor és az azonosító nem azonos a
fogalommal, tárggyal, amelynek az identitását meghatározza. Ezért nem tekinthető PSI-nek,
ha egy online elérhető dokumentum a saját URL-jével azonosítja magát.
Megkülönböztethetők címezhető és nem címezhető dolgok. Csak a nem címezhetőknek van
szükségük tárgyazonosítóra.
A Publikált tárgyi azonosítók működési mechanizmusa (Pepper, Schwab 2003 nyomán)
Különbséget kell tenni a tárgyi azonosító és a publikált tárgyi azonosító között is. Publikált
tárgyi azonosító, amelyet a tématérkép alkalmazásunk készítéséhez tettünk közzé, tárgyi
azonosító ezzel szemben bármi lehet, ami a reprezentálni kívánt dolog identitását
meghatározza (wikipédia oldal, egy adott személy email címe, egy vállalat honlapja).
A PSI-kkel szemben támasztott követelmények a következők:
- A PSI-nek URI-nak kell lenni.
- A Publikált tárgyazonosítónak egy humán interpretációra alkalmas publikált
tárgyindikátorra kell mutatnia.
- A Publikált tárgyindikátornak ki kell fejeznie az egyedi URI-t, amely publikált
tárgyazonosítóként használandó. (Pepper 2003)
Az OASIS bizottsága által a PSI-kre vonatkozóan megfogalmazott ajánlások a következők:
1. A Publikált tárgyindikátor ember által olvasható metaadatokat kell adjon saját
magáról.
2. A Publikált tárgyindikátor megadhat géppel olvasható metaadatokat saját
magáról.
3. Az első és a második ajánlás metaadatainak következetesnek, de nem feltétlenül
azonosnak kell lenni.
4. A Publikált tárgyindikátornak jeleznie kell, hogy PSI-ként használandó.
5. Publikált tárgyindikátornak azonosítania kell a publikálóját. (Pepper 2003)
Az ajánlás arra nem ad választ, hogy hogyan kezeljük azt a problémát, amikor egy dolgot
több URL is egyértelműen azonosít. A hálózati társadalomban a kérdés sokkal életszerűbb.
Egy személyt azonosíthatja az email címe, a róla készült Wikipédia oldal, a saját honlapja,
bármelyik profilja közösségi oldalakon (Iwiw, Facebook, LinkedIn). Tárgyak, fogalmak
esetében Wikipédia oldal vagy a www.everything2.com definíciói. Online szótárak definíciói
ugyanúgy meghatározhatják a dolgokat, amelyekről állításokat kívánunk tenni.
A különböző forrásokból származó tématérképek összeolvasztása akkor valósulhat meg, ha
egy adott tárgyra vonatkozóan valamennyi alkalmazás ugyanazt a PSI-t alkalmazza, ugyanis a
számítógép ebben az esetben lesz csak képes felismerni, hogy ezek ugyanazon valóságban
létező dologról tesznek állításokat.
5 Ontológia szintaxisok
Az ontológiákban lévő fogalmak leírására több szintaxis is létezik, amelyekkel az eltérő
igényekhez igazodva lehetünk képesek a valóság formális reprezentálására. A következőkben
először a szemantikus web ajánlásokban leírt leíró szintaxisokat mutatom be, amelyek közül
a legfontosabbak az RDF és az OWL nyelvek. Ezt követően foglalkozunk a tématérképes
közösség által kifejlesztett leíró nyelvekkel is, hiszen ezekről sokkal kevesebb szó esett a
hazai és a nemzetközi szakirodalomban egyaránt az ontológiaépítéssel kapcsolatosan. A
tématérkép technológia szabványos csereszintaxisa az XTM nyelv, de az ISO 13250-es
szabványcsaládban (és azon kívül is léteznek további szintaxisok).
5.1 RDF
A szemantikus web vízió alapját jelenti az RDF elképzelés, amelynek lényege, hogy a
világhálón megjelenő tartalmat hármas állításokkal (ún. tripletekkel) írják le. A hármas
állítások tagjai más állításokban is részt vehetnek, így a tartalmak valós asszociációs
mezejükkel együtt jeleníthetők meg. A világhálón egyértelműen azonosított entitások közötti
relációk mentén a valóság bonyolult struktúrái írhatók le.
Az XML (a szemantikus web lépcsős modelljében az RDF alatt elhelyezkedő szint) nagy lépést
tett a tartalmak gépi feldolgozhatóságának irányába azzal, hogy biztosítja az egységes
szintaxist szabványos adatcsere-formátumként. Van egy jelentős probléma az XML-lel: az
alkalmazások közötti interoperabilitás előfeltétele, hogy az átvitt információ szemantikáját
egyeztetni kell. Ezt oldja fel az RDF, amellyel tetszőleges webes tartalomhoz társíthatunk
szabványos metainformációt.
Az RDF (Resource Description Framework), a szemantikus web legrégebbi specifikációja. Két
generációja létezik, az első verzió a ’90-es évekből származik, a legutóbbi 2004. február 10-
én jelent meg. (Klyne, Caroll 2004) Ez a verzió elérhető magyar fordításban is a World Wide
Web Konzorcium magyar irodájának oldalán. (Pataki E. 2004)
Ez összesen hat dokumentumot jelent:
- az RDF/XML szintaxis specifikációja;
- az RDF szókészlet leíró nyelv 1.0: RDF séma;
- az RDF bevezető tankönyve;
- az RDF alapfogalmai és absztrakt szintaxisa;
- az RDF szemantikája;
- az RDF tesztsorozata. (Pataki M. 2005)
Az RDF-et úgy tervezték, hogy bármiről lehessen vele állításokat tenni, ami azonosítható a
weben. A szemantikus weben az információkat úgy kell megjeleníteni, hogy azok a
számítógépes programok által is feldolgozhatók legyenek. Az RDF egységes keretet biztosít
az információtartalom leírására, amelyben azok átvihetők egyik alkalmazásból a másikba. (A
különböző alkalmazások közötti információcsere lehetősége azt jelenti, hogy nemcsak azok
az alkalmazások használhatják az információt, amelyek számára azt eredetileg ábrázolták,
hanem a más célokra készült, későbbi alkalmazások is.) Az RDF segítségével létrejöhet az
alkalmazások határain átnyúló tudásreprezentáció.
Az egységes erőforrás azonosítók (URI-k) által azonosított dolgok egyszerű tulajdonságokkal
és tulajdonságértékekkel írhatók le. Ez lehetővé teszi az RDF számára, hogy az erőforrásokkal
kapcsolatban egyszerű állításokat ábrázolhassunk gráf formájában, ahol a csomópontok és az
élek az erőforrásokat, ezek tulajdonságait és a tulajdonságok értékeit reprezentálják.
(Manola, Miller 2004)
Az RDF szabvány tartalmaz egy XML alapú szintaxist is. Az RDF-adat tehát megjelenhet
hármasok halmazaként, mint címkézett, irányított gráf és mint XML-adat. Az RDF elmélet
szempontjából a gráfmodell az elsődleges fontosságú, a hordozhatóság és a gépi
reprezentáció oldaláról viszont az XML-reprezentáció az igazán releváns. (Szeredi, Lukácsy,
Benkő 2005)
Az RDF szempontjából kiemelt jelentősége van az URI-knak, hiszen azok biztosítják az
egységes címezhetőséget. Az URI-k rövid literálok, amelyek weben található objektumokat,
erőforrásokat azonosítanak. Erőforrás lehet egy weblap, annak egy része, egy kép, egy
tetszőleges állomány, hanganyag, erőforrások egy csoportja, egy portál, egy videofelvétel,
függetlenül a formátumtól. Az RDF-fel ezekről tehetünk állításokat. Két metaadat-leírás
bárhol lehet a weben, ha ugyanazt az URI-t használja, akkor a számítógép felismeri, hogy
ugyanarról az erőforrásról szólnak a kijelentések.
Az URI-kkal azonosított erőforrások esetében tehát nem szükséges egyeztetni, hogy az mit
azonosít, ugyanis azok önmagukat azonosítják. (Természetesen ez csak a direkt
reprezentáció esetében érvényes. Indirekt reprezentációról akkor beszélhetünk, amikor az
erőforrás nem önmagát, hanem egy weben nem létező dolgot reprezentál. Jellemző esetben
egy fogalmat, vagy egy személyt, vagy bármi olyan entitást, amely önnön jellemzőiből
adódóan nem lehet jelen a weben.) Pepper nyomán ezért beszélhetünk identitás-alapú
technológiákról az RDF és az OWL esetében egyaránt. (Pepper 2008)
Az RDF adatmodellben négy halmazt definiáltak:
- erőforrások – ez a halmaz bármi előforduló entitást tartalmazhat, aminek van URI-ja.
Ez az összes olyan dolog halmaza, amelyre RDF kijelentés vonatkozhat.
- tulajdonságok – az erőforrásokhoz kapcsolódó jellemzők, amelyeknek szintén van
URI-ja. A tulajdonságok lehetnek erőforrások is, tehát részhalmazát képezik az
előbbinek. Minden tulajdonságnak van jelentése, meghatározható, hogy milyen
erőforráshoz kapcsolható és milyen értéket vehet fel, valamint, hogy milyen
viszonyban van más tulajdonságokkal.
- literálok – karaktersorozatok.
- kijelentések – ez utóbbiak alany, állítmány és tárgy kapcsolatok. Mindhárom elem
egy-egy URI: az alany tetszőleges RDF erőforrás, az állítmány tetszőleges RDF
tulajdonság, a tárgy pedig tetszőleges RDF tulajdonság vagy literál lehet. (Szeredi,
Lukácsy, Benkő 2005)
Sok RDF kijelentéssel létrejöhet hálózati környezetben egy globális metaadat-infrastruktúra,
amely elvileg a világ teljességének a leírásán alapul. Ezt is szemlélteti a következő példa.
2006 májusában a 15. nemzetközi World Wide Web konferencián, Edinburgh-ban
bemutatott szemantikus Wikipédia például a következő RDF kijelentéseket tartalmazta.
(Völkel, Krötzsch, Vrandecic, Haller, Studer 2006)
- London is the capital of the United Kingdom (London az Egyesült Királyság fővárosa)
- London is the capital of England (London Anglia fővárosa)
- England is a part of the United Kingdom (Anglia az Egyesült Királyság része)
„London”, az „Egyesült Királyság” és „Anglia” a kijelentésekben erőforrások, és rendelkeznek
egy-egy URI-val. A „része” és a „fővárosa” esetünkben tulajdonságok, amelyek szintén
rendelkeznek URI-val. Anglia az egyik kijelentésben tárgyként, a másikban alanyként
szerepel.
Az RDF-et szemléletesen tekinthetjük címkézett gráfoknak, amelyek kiindulási pontja egy
alany, a végpontja egy tárgy, a gráf éle pedig az állítmány. A fenti kijelentések a
következőképpen jeleníthetők meg címkézett gráfok segítségével:
Így lényegében valamennyi weben tárolt információt le tudjuk írni, egymáshoz tudjuk
rendelni, közöttük kapcsolatokat tudunk definiálni további URI-k segítségével. Ha két,
egymástól különböző hármasban azonos URI-k találhatók, akkor azok egybeolvaszthatók, és
a leírást tovább folytathatnánk London lakosságának számával, az Egyesült Királyság többi
részével stb.
Az információ RDF-es reprezentációja olyannyira hatékony, hogy – hasonlóan az XML-hez – a
szemantikus web többi rétegétől függetlenül is nagyon sok alkalmazás használja önállóan a
technológiát. Ilyenek például az Arizonai Egyetemi Könyvtár által kifejlesztett RDF alapú
digitális könyvtári rendszer (Han 2005), és a BRICKS projekt. (Hecht, Haslhofer 2005).
Az RDF elkézelés alapötlete tehát, hogy az URI-kkal azonosított erőforrásokat tulajdonságok
segítségével más erőforrásokkal vagy közönséges literálokkal köti össze. Az RDF alapötletét
mutatja be a következő ábra, amivel egy állítást formalizálunk: „Kovács Zoltán (aki ember)
emailcíme: Kovacs.Zoltan@Kripto.hu”. (Szeredi, Lukácsy, Benkő 2005 nyomán)
A példaábra XML szintaxissal a következőképpen írható le:
<%xml version=”1.0” encoding=”ISO-8859-2”?>
<rdf:RDF
xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#”
xmlns:s=”http://www.utils.org/utils#”>
<rdf:Description
rdf:about=http://www.kripto.hu/Kovacs_Zoltan”>
<s:neve>Kovács Zoltán</s:neve>
<s:levélcíme rdf:resource=”mailto:Kovacs.Zoltan@Kripto.hu”/>
<rdf:type
rdf:resource=”http://www.thing.org/rdf/schemas/simple#Ember”/>
</rdf:Description>
</rdf:RDF>
Helyesen valamennyi tulajdonság (beleértve a jelen példában közönséges névvel
hivatkozottak is: neve, levélcíme, típusa) erőforrás. A példában azonban az egyszerűség
kedvéért hivatkoztunk rájuk ebben a formában. Ezen erőforrások kiválaszthatók a FOAF
szótár elemei közül, amelyben a név tulajdonság például foaf:name-ként írható le.
A fenti leírás sorai bizonyos értlmezésre szorulhatnak. Az XML leírás első sora azt jelzi a
feldolgozó alkalmazásnak, hogy milyen verziójú XML adatfolyam következik, adott
karakterkódolással. A következő sor jelzi, hogy RDF-ként kell értelmezni az elemen belüli
tartalmat. Ezt követően jelennek meg a névterek. Ezek közül először az RDF-hez tartozó
specifikációra utal a leírás, majd a következő névtér-deklaráció az s nevet rendeli a megadott
URI-val azonosított névtérhez.
A következő példában Kovács Zoltán tanulmányát rendeljük a szerzőjéhez, bemutatva ezzel
egyetlen alany, állítmány, tárgy hármast (tripletet) tartalmazó állítást. Egy kijelentésben
erőforrások, tulajdonságok és literálok lehetnek. Az állítás elemei a következők: alany
(http://webadmin.kripto.hu/webadmin/portals/kovex/attachments/TopicMaps_2_2008.pdf)
– erőforrás; predikátum: szerzője – tulajdonság; tárgy: Kovács Zoltán – literál.
RDF állítás alanya és tárgya tetszőleges erőforrás lehet, ezért a gráfban az élcímke
megjelenhet csomópontokban is. Az RDF arra is alkalmas így, hogy tulajdonságokról
állításokat fogalmazzanak meg. Egy RDF kijelentés a következőképpen reprezentálható
tripletként:
{[http://…/TopicMaps_2_2008.pdf],szerzője,”Kovács Zoltán” }
Nem jó azonban a példában, hogy literálként került meghatározásra a kijelentés tárgya, azaz
Kovács Zoltán. Célszerű lenne egy olyan URI-t használni, ami egyértelműen azonosítja Kovács
Zoltánt, így a jelenlegi literál helyére kerülhetne egy olyan URI, ami Kovács Zoltánt azonosítja
egyértelműen.
Az RDF egyik erőssége, hogy lehetőség van üres (vagy névtelen, vagy köztes) csomópontok
(blank node) meghatározására is. Ezek a gráf-reprezentációban – ahogy a nevük is mutatja –
üresek. Egy ilyen üres csomópontból bármennyi további állítás tehető. Ha a fenti példában
nincs lehetőségünk olyan URI-t alkalmazni, amely egyértelműen azonosítja Kovács Zoltánt,
úgy célszerű az üres csomópont beiktatásával élni. Az üres csomópontból kiindulva leírható,
hogy az általa reprezentált entitásnak mi a neve, beosztása, email címe stb.
A példaábra a következőképpen írható le:
{[http://…/TopicMaps_2_2008.pdf],szerzője,[üres cspont]}
{[üres cspont],neve,”Kovács Zoltán” }
{[üres cspont],beosztása,”ügyvezető” }
{[üres cspont],email címe,[mailto:Kovacs.Zoltan@Kripto.hu]}
Az RDF segítségével tripletekkel leírhatók azok az ismeretek, amelyeket reprezentálni
kívánunk. A szemantikus web elképzelés, azonban ennél továbbmegy. Egy olyan metaadat-
infrastruktúra megalkotását tűzte ki célul, amely következtetésekre is alkalmas. A
következtetésekhez a világról szóló ismereteinket formálisan le kell írni a számítógép
számára is interpretálható formában. A háttértudás leírására több szemantikus web
technológiát is kifejlesztettek a különböző igények kielégítésére (RDFS, OWL, SKOS, RIF).
Szeredi, Lukácsy, Benkő (2005) szemléletes példáját idézve megérthetjük azt, hogy az
egyszerű RDF állításokhoz képest milyen további fejlesztések szükségesek. „RDF segítségével
képesek vagyunk leírni azt, hogy egy ember barátja egy másiknak. Ezt úgy tehetjük meg,
hogy konstruálunk egy RDF kijelentést, amelynek alanya és tárgya két ember, predikátuma
egy olyan erőforrás, amelyről tudjuk, hogy a „barátja” viszonyt azonosítja valahogy. (…)
Kérdés ezek után, hogy el tudjuk-e dönteni, hogy az egyik ember ismeri-e a másikat? A válasz
evidens, hiszen józan paraszti eszünkkel tudjuk, hogy egy ember nyilván ismeri a saját
barátját. Vegyük észre ugyanakkor, hogy valójában ez egy olyan következtetés volt a
részünkről, amelyhez háttértudásra volt szükségünk. Mi tudjuk ugyanis, hogy valakik nem
lehetnek barátok, ha nem is ismerik egymást. (…) Valami olyan kijelentésre lenne
szükségünk, hogy ’bármely két erőforrás között, amelyek n:barátja viszonyban állnak
egymással, fennáll az s:ismerőse viszony is.’ Ezen tudás birtokában egy gép más képes lenne
kikövetkeztetni, hogy a két ember ismeri egymást, bár ez így explicit módon továbbra sem
lenne leírva.” A sémák és az ontológiák a következtetésekhez szükséges háttértudást
tartalmazzák.
Az RDF séma olyan további erőforrások halmaza, amellyel kibővült az RDF által
meghatározott szótár és amelyek jelentése jól meghatározott. Ezek az erőforrások RDF
kijelentésekben használhatók fel. Alkalmazásspecifikus tulajdonságok és osztályok
definiálhatók, megadhatók ezek egymáshoz való hierarchikus viszonya, illetve jellemzői.
(Szeredi, Lukácsy, Benkő 2005)
Az RDF sémák kifejezéseknek, dolgok osztályainak definiálására szolgál. Nem kínál
önmagában egy ellenőrzött szótárt, csak megteremti annak a lehetőségét, hogy egy-egy
alkalmazáson belül általánosan érvényes kijelentéseket tegyünk. Lényegében az RDF séma az
RDF-hez kínál egy szabványos tipologizáló metódust. Az RDF Séma legfrissebb W3C ajánlása
2004. február 10-én jelent meg. (Brickley, Guha 2004)
A bevezető példában a dokumentum, szerződés, irat és oldalszám (mint tulajdonság)
fogalmak egymáshoz való viszonyát írjuk le RDF séma segítségével. Meghatározásra kerül az
iratok és a szerződések osztálya. Leírjuk, hogy a szerződések dokumentumok is egyben.
Definiáljuk továbbá a bázis URI-t (jelen esetben ez a képzeletbeli
http://www.pelda.hu/dokumentumok lesz) és az RDF sémakonstrukciók eléréséhez
szükséges rdfs névteret URI-ként. (Szeredi, Lukácsy, Benkő 2005 alapján).
<%xml version=”1.0” encoding=”ISO-8859-2”?>
<rdf:RDF
xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#”
xmlns:rdfs=”http://www.w3.org/2000/01/rdf-schema#”
xmlns:base=”http://www.pelda.hu/dokumentumok#”>
<rdf:Description rdf:ID=”Irat”>
<rdf:type rdf:resource=
”http://www.w3.org/2000/01/rdf-schema#Class”/>
</rdf:Description>
<rdfs:Class rdf:ID=”Szerződés”>
<rdfs:comment>Szerződések osztálya</rdfs:comment>
<rdfs:subClassOf rdf:resource=”#Irat”/>
</rdfs:Class>
<rdf:Property rdf:ID=”oldalszáma”>
<rdfs:domain rdf:resource=”#Irat”/>
<rdfs:range rdf:resource=
”http://www.w3.org/2001/XMLSchem#integer”/>
</rdf:Property>
</rdf:RDF>
5.2 OWL
Az OWL specifikáció (Web Ontology Language) 2004 februárjában jelent meg W3C
ajánlásként. (McGuiness, Van Harmelen 2004) Előzménye a DAML+OIL (DARPA Agent
Markup Language + Ontology Inference Layer vagy Ontology Interchange Language) leíró
nyelv volt, amelyet az OWL teljes egészében felváltott. (Conolly et al. 2001) A következő
dokumentumokat fordították le és tették közzé magyarul is:
Áttekintés;
- Útmutató – amely az OWL-t egy kiterjedt példán keresztül szemlélteti;
- Referencia – az OWL modellezési primitívek jól szerkesztett, informális leírása;
- Szemantika és absztrakt szintaxis – az OWL nyelv normatív definíciója;
- OWL Web Ontológia Nyelv tesztsorozata – az OWL használatát illusztráló példák, a
konstrukciók formális jelentése és a témák kifejtése;
- OWL alkalmazási esetek és követelmények – egy webontológia nyelv felhasználási
forgatókönyve, céljai és követelményei. (Pataki E. 2004b)
Az OWL célja, hogy formális logikákon alapuló bonyolult szemantikai relációkat is lehessen a
számítógép számára reprezentálni. Az OWL lehetővé teszi, hogy explicit módon ábrázoljuk
egy meghatározott szókészlet kifejezéseinek jelentését, valamint ezek összefüggéseit. Az
OWL szemantikai kifejezőereje jóval nagyobb mint az XML, az RDF és az RDFS nyelveké, így
hatékonyabb a webtartalom explicit formális leírásában. Ugyan az RDF séma is képes
osztályokat és alosztályokat definiálni, nem tudja végrehajtani valamennyi halmazelméleti
műveletet.
Az OWL nyelv segítségével konstruálhatók osztályok más osztályok uniójaként,
metszeteként, komplemenseként. Lehetséges az osztályok egyedeinek felsorolása. Lehet az
osztályokba tartozó egyedeket a tulajdonságaik szerint definiálni. Az OWL a tulajdonságok
terén is magasabb szintjét képes megragadni a gondolkodásnak. Tulajdonságokat lehet
szimmetrikusnak, tranzitívnek, függvénynek stb. deklarálni általa. Az OWL esetében
megragadható az osztályok, tulajdonságok, vagy egyedek ekvivalenciájának problémája.
(Herman 2006)
A következő példa az OWL nyelvről egy bemutató példa, amely a fő jellemzőit hivatott
szemléltetni. A példában egy cég kollektíváját írjuk le úgy, hogy felsorolja valamennyi
alkalmazott nevét. (Szeredi, Lukácsy Benkő 2005) A példa szemantikailag akkor helytálló, ha
a cég kollektíváját teljes egészében leírjuk, vagyis nem hagyunk ki senkit. Tegyük fel, hogy a
vállalatnak öt dolgozója van.
<owl:Class>
<owl:oneOf rdf:parseType=”Collection”>
<owl:Thing rdf:about=”Nagy Béla” />
<owl:Thing rdf:about=”Kovács János” />
<owl:Thing rdf:about=”Kis Ferenc” />
<owl:Thing rdf:about=”Tóth Lajos” />
<owl:Thing rdf:about=”Szabó Géza” />
</owl:oneOf>
</owl:class>
OWL-nak három növekvő erejű kifejező alnyelve van a különböző felhasználási igényekhez
igazítottan:
- OWL Lite – osztályozási hierarchiákat és egyszerű korlátozásokat alkalmazó
felhasználók támogatására készült.
- OWL DL – a maximális kifejezőképességet igénylő felhasználóknak készült. Az OWL
DL-ben a számíthatóság és az eldönthetőség is megmarad. Az összes nyelvi
konstrukciót tartalmazza, de azok használhatósága csak bizonyos korlátozásokkal
lehetséges. A DL (Description Logic) a leíró logikákra utal.
- OWL Full – olyan maximális kifejezőképességet és az RDF teljes szintaktikai
szabadságát igénylő használóknak készült, akik lemondanak a kiszámíthatósági
garanciákról. A szoftvertámogatás az OWL Full esetében – éppen a túlságosan gazdag
logikai struktúrák következtében – kérdéses, hogy megvalósítható-e. (Pataki E.
2004b)
Az alnyelvek mindegyike az egyszerűbbnek a kiterjesztése. Így például minden érvényes OWL
Lite következtetés egyben érvényes OWL DL következtetés is, és minden érvényes OWL DL
következtetés egyben érvényes OWL Full következtetés is. Minden legális OWL Lite ontológia
egyben legális OWL DL ontológia is, és minden legális OWL DL ontológia egyben legális OWL
Full ontológia is. (Pataki E. 2004b)
A használóknak maguknak kell eldönteni, hogy mely alnyelv a leginkább alkalmas a céljaikra.
(Digitális könyvtári környezetre való alkalmazhatóság tekintetében érdekesség, hogy a DL
mögött egyesek a Digital Library kezdőbetűit vélik felfedezni. Krause 2008)
5.3 SKOS
A SKOS (Simple Knowledge Organization Systems) tudásszervezési rendszerek (tezauruszok,
osztályozási rendszerek, tárgyszójegyzékek, taxonómiák, folkszonómiák) szabványos
reprezentálására kifejlesztett specifikáció a szemantikus web alkalmazások számára. A
fejlesztése viszonylag későn kezdődött az intelligens világháló többi technológiájához képest,
ugyanakkor maga a szintaxis olyannyira ígéretes volt, hogy bő két év alatt a SKOS
szemantikus web ajánlássá nőtte ki magát. Az első munkaterv 2007. május 16-án jelent meg,
(Isaac, Phipps, Rubin 2007) egy 2009. június 15-i javaslatterv után (Miles, Bechhofer 2009a)
ugyanazon év augusztusában megjelent a W3C ajánlás (Miles, Bechhofer 2009b).
A SKOS segítségével létező tudásszervezési rendszereket lehet exportálni a szemantikus web
számára szabványos formátumba. A SKOS félig formális tudásszervezési rendszerek
szemantikus web számára való egyszerű újrahasznosíthatóságát hivatott biztosítani. Nem a
tudásszervezési rendszerek eredeti helyükön való újraírása a cél, hanem azok exportálása
olyan formába, amely szélesebb körű használhatóságot eredményez. Lényegében a SKOS
jelenti a hidat az OWL ontológiák szigorú formális logikái és a weben található szabad és
strukturálatlan közösségi osztályozási rendszerek között. A nyelv RDF-en alapul, így
megvalósulhat az általa leírt információ számítógépek közötti cseréje. (Isaac, Summers 2009)
A SKOS fejlesztésére az igény akkor jelentkezett, amikor világossá vált, hogy nem készülnek
megfelelő számban szakterületi ontológiák, amelyek nélkül még sokáig nem lesz lehetséges
együttműködő rendszereket fejleszteni. A legígéretesebb stratégia a meglévő
tudásszervezési rendszerek, ellenőrzött szótárak újrahasznosítása lett. E mellett nem
bizonyos, hogy valamennyi alkalmazás igényel bonyolult ontológiát, sőt bizonyos esetekben
hatékonyabb lehet az egyszerűbb megoldást választani. Egy szemléletes példát idézve „amíg
az OWL egy nehéz kalapács, addig a SKOS egy egyszerű diótörő gép, illetve amíg az OWL egy
Harley Davidson, addig a SKOS egy sima kerékpár. A SKOS az OWL-lal együttműködhet, így
optimalizálható a tudásreprezentáció mélysége. (Krause 2008)
A digitális könyvtári alkalmazás szempontjából a SKOS közvetlen eredményeket jelenthet a
tudásszervezési rendszerek és a szemantikus web integrálása terén. A könyvtáros
társadalom a fejlesztések kezdeti stádiumától kezdve figyelemmel kísérte a SKOS-t. (Cantara
2006) Lényegében a SKOS célja, hogy a könyvtári osztályozást és a szemantikus web
technológiákat egységes keretek közé integrálja. (Krause 2008) A könyvtári osztályozási
rendszerek évezredes tapasztalatait ez a specifikáció lesz képes a szélesebb webes közösség
számára elérhetővé és használhatóvá tenni. A könyvtárak már a szintaktikai paradigmában is
rendelkeztek nagy mennyiségű szemantikailag kódolt adattal.
5.4 XTM
Az XTM (XML Topic Maps = XML Tématérkép) – ahogy a nevében is benne van – az XML
(eXtensible Markup Language = Kiterjesztett Jelölőnyelv) alapján tématérképek készítésére
kifejlesztett nyelv. Ez a leggyakrabban használt szintaxis, a tématérképek nemzetközi
csereformátuma. (Pepper, Moore, 2001; Hunting 2003)
A nyelv legújabb verziója, az XTM 2.0, amely az ISO/IEC 13250:2007(E) szabvány szabvány
része. Az 1.0 verzióhoz képest meglévő különbségeket a szabvány D függeléke tartalmazza.
(ISO 13250, 2007)
A nyelv alkalmazására manuálisan nincs szükség, így nem okoz problémát annak
terjengőssége. Több tématérkép-szerkesztő program is van forgalomban, amelyekkel
ontológia-vezérelt módon készíthetők alkalmazások.
Az alábbi példa szemlélteti a szintaxis jellegzetességeit.
<?xml version="1.0" encoding="utf-8" standalone="yes"?> <topicMap xmlns="http://www.topicmaps.org/xtm/" version="2.0">
<topic id="person">
<name>
<value>Person</value>
</name>
</topic>
<topic id="city">
<subjectIdentifier
href="http://dbpedia.org/page/City"></subjectIdentifier>
<name>
<value>City</value>
</name>
<occurrence>
<type>
<topicRef href="#wiki"></topicRef>
</type>
<resourceRef
href="http://en.wikipedia.org/wiki/City"></resourceRef>
</occurrence>
</topic>
<topic id="db">
<name>
<value>Date of birth</value>
</name>
</topic>
<topic id="hun">
<subjectIdentifier
href="http://dbpedia.org/page/Hungarian"></subjectIdentifier>
<instanceOf>
<topicRef href="#nationality"></topicRef>
</instanceOf>
<name>
<value>Hungarian</value>
</name>
</topic>
<topic id="population">
<name>
<value>Population</value>
</name>
</topic>
5.5 További Topic Maps szintaxisok
Léteznek további szintaxisok, amelyekkel ontológiák alkothatók. Ezek közül némelyeknek
már csak történeti jelentőségük van – ilyen például a HyTM –, más nyelvek pedig nem
képezik az ISO 13250 szabványcsalád részét, de jelentősége miatt mégis érdemes néhány
mondatban megemlékezni róluk. Ez utóbbiakra példa az LTM amelyet tekintve, hogy
oktatásra fejlesztették ki, számunkra is jó eszköz lesz a későbbiekben az ontológiaszerkesztés
alapjainak bemutatására.
5.5.1 HyTM
Az SGML alapú HyTM-nek (HyTime Topic Maps) csak történeti jelentősége van már, hiszen ez
a tématérképek számára eredetileg kifejlesztett szintaxis nem része a legújabb ISO
szabványnak. A tématérképek történetének kezdeti szakaszában ez volt az egyetlen szintaxis.
A HyTM alapjául szolgáló HyTime nyelvet eredetileg az SMDL-lel (Standard Music Description
Language) együtt kezdték el fejleszteni az 1980-as évek végén. Arra keresték a választ, hogy
miként lehetne zenei utalásokat hiperlinkekkel reprezentálni. Az első szabvány javaslat 1989-
ben született, 1992. november 1-től az ISO és az IEC közös szabványa lett ISO/IEC 10744
tételszámon. A HyTime-ból született a HyTM nyelv, amely a tématérképek leírására szolgál,
és amely hosszú időn keresztül része volt az ISO/IEC 13250 szabványnak.
5.5.2 LTM
A képzés szempontjából van jelentősége az LTM szintaxisnak (The Linear Topic Map
Notation). Az LTM az Ontopia által kifejlesztett nyelv, amely rendkívül egyszerű, az XTM-mel
szemben sokkal „szűkszavúbb” és hatékonyabb. Ennek oka, hogy az LTM elsősorban oktatási
célokra készült, segítségével viszonylag rövid idő alatt el lehet készíteni egy kisebb
tématérképet, és a gyakorlati alkalmazás során megérthetők az alapvető fogalmak.
Az LTM nem része semmilyen nemzetközi szabványnak. A fejlesztés motivációja az volt, hogy
bár kiváló tématérkép-szerkesztő programok vannak, szükség mutatkozott egy olyan szöveg-
alapú leíró nyelvre, amely tömör és szűkszavú, így alkalmas tématérképek manuális
szerkesztésére, a tématérkép modell reprezentálására akár emailben, vagy hasonló
szövegekben.
Az LTM-et jelenleg mindössze az Ontopia által készített technikai dokumentáció írja le.
(Garshol 2006) Ebben a jelentésben még nem tartották kizártnak, hogy a nyelv szabvánnyá
növi ki magát, azonban mára bizonyossá vált, hogy erre nem kerül sor. Ugyanilyen céllal
kezdődött el a CTM fejlesztése az ISO/IEC keretein belül.
5.5.3 CTM
A CTM (Compact Topic Maps) szöveg alapú tématérkép-leíró szintaxis. Az XTM szabvány
kiegészítésére fejlesztik. A nyelv egyaránt alkalmas arra, hogy manuálisan hozzunk létre
tématérképeket, hogy dokumentumokban érthető példákat nyújtsunk általuk, és hogy
szintaktikai bázisául szolgáljon a TMCL-nek és a TMQL-nek. Fő szempont a fejlesztés során az
egyszerűség, a könnyű írhatóság és olvashatóság. Funkcióját tekintve ugyanarra a szerepre
szánják, mint az LTM-et: oktatásra, tématérképek szöveges reprezentálására, manuális
tématérkép-szerkesztésre.
5.5.4 GTM
Szintén a tématérképek humán interpretációját segíti a GTM (Graphical Notation for Topic
Maps) szintaxis, amely azonban nem szöveg, hanem vizuális alapon reprezentálja az
alkalmazásban leírt viszonyrendszereket. Egy grafikus leíró szabvány segítségével lehet
megkönnyíteni a humán interpretációt, ami a fejlesztések során az egyik kulcsfontosságú
tényező. A fejlesztés a következőket tűzte ki célul:
Minden reprezentálható legyen grafikusan, ami LTM-ben vagy XTM-ben is leírható.
Rajzolással is lehessen készíteni tématérképeket anélkül, hogy bármilyen külső
erőforrásra, utalásra lenne szükség.
Kifejleszthető legyen egy olyan tématérkép-szerkesztő szoftver, amely képes egy
GTM fájlt exportálni LTM-be, vagy XTM-be. (Lehessen az LTM vagy az XTM ismerete
nélkül is tématérképeket készíteni.) Szoftverrel egy XTM, vagy LTM fájlból létre
lehessen hozni egy GTM alapú vizuális modellt.
A rajzok a haszálók által is könnyedén olvashatók legyenek. (Henriksen 2006)
A következő ábra egy norvég nyelven született GTM példa, amelyen jól látható, hogy a
szabványos jelölések alapján egyértelmű, hogy az egyes fogalmak milyen tématérkép
szerkezeteket reprezentálnak.
Bár a GTM fejlesztése meglehetősen előrehaladott állapotban van, a tématérképek fejlesztői
mind a mai napig csak szűk körben használják ezt a grafikus szintaxist. (Hendrik, Redmann,
Pressler, Markscheffel 2008) A tématérképekkel kapcsolatos ISO szabványok fejlesztésével
foglalkozó oldalon is csak igen szűkszavú tájékoztatás van a GTM fejlesztéséről.
(www.isotopicmaps.org/gtm/)
6 Ontológiaépítés a gyakorlatban
Ebben a fejezetben az ontológiaépítés gyakorlatába nyújtunk betekintést egyrészt az
eszközök, másrészt pedig a fejlesztés lépéseibe avatva be az olvasót. Az eszközök
vonatkozásában néhány szóban ismertetünk egy RDF/OWL ontológiák építésére szolgáló
eszközt, majd pedig egy ontológiavezérelt tématérkép szerkesztésre szolgáló programot. A
későbbiekben ez utóbbival gyakorlatban is megismerkedünk, amikor egy ontológia
építésének a lépéseit követjük nyomon.
6.1 Az ontológiaépítés eszközei
Ontológiák építésére számos fejlesztő eszköz áll a rendelkezésünkre. Az eszköz
kiválasztásánál figyelembe kell vennünk, hogy milyen célból fogják az általunk elkészített
ontológiát használni. Amennyiben az a célunk, hogy a kifejlesztett tudásszervezési
rendszerben lévő adatokat más webes alkalmazások számára tegyük „fogyaszthatóvá”, akkor
célszerű az RDF/OWL paradigmán alapuló szemantikus web ontológiák fejlesztésére szolgáló
eszközök közül választani. Amennyiben a közvetlen humán interpretáció elősegítése a
célunk, úgy tématérkép fejlesztő eszközök közül kell választani egy igényeinknek megfelelőt.
6.1.1 Szemantikus web ontológiák fejlesztésére szolgáló eszközök
A szemantikus web ontológiák fejlesztésére szolgáló eszközök közül a legszélesebb körben
ismert eszköz a Protégé, ingyenes, nyílt forráskódú szoftver és tudásbázis keretrendszer. A
Protégé platform segítségével létrehozott tudásszervezési rendszerek több nyelvre is
konvertálhatók (RDF, RDFS, OWL és XML Schema). A program JAVA alapú, ami egyszerű
tudásmodellezést és alkalmazásfejlesztést tesz lehetővé.
A program fejlesztését a Stanford és a Manchesteri egyetemek kezdték el közösen, majd ők
tették nyílt forráskódúvá. A professzionalizmust azonban elsősorban a program használóinak
a közössége jelenti. A fejlesztők között egyaránt megvannak az egyetei, kutatói, a
kormányzati, az üzleti és magán szereplők.
A program jellemzője, hogy számos segédlet áll rendelkezésre a használatához, amelyek
eligazítanak a nagy ablakos webes felületeken való eligazodásban.
A program letölthető a http://protege.stanford.edu/download/download.html oldalról
egyszerű regisztrációt követően.
Szintén szemantikus web ontológiák létrehozását szolgálják a következő programok:
- NeOn Toolkit , http://neon-toolkit.org/
- SWOOP, http://www.mindswap.org/2004/SWOOP/
- Neologism, http://neologism.deri.ie/
- TopBraid Composer, http://www.topquadrant.com/products/TB_Composer.html
- Knoodl, http://www.knoodl.com/,
- Anzo for Excel, http://www.cambridgesemantics.com/products/anzo_for_excel
6.1.2 Tématérképek fejlesztésére szolgáló eszközök
Az OKS (Ontopia Knowledge Suite) az oslói székhelyű Ontopia AS terméke, amelynek
ingyenes verziója tartalmaz egy tématérkép-szerkesztő (Ontopoly) és egy vizualizáló
(Omnigator) szoftvert. Az Ontopoly lehetőséget teremt arra, hogy először a tématérképben
előforduló téma-, asszociáció-, előfordulás-, szerep-, és névtípusokat definiáljuk, majd
feltöltsük, „benépesítsük” azok konkrét eseteivel. Az Omnigatort a tématérképek
működésének demonstrálására, oktatására fejlesztették ki. A szoftver tématérképeket
illetően „mindenevő”. Mind XTM, LTM, HyTM és RDF tématérképek megjeleníthetők a
segítségével. Létezik egy online demo változata is, amelyen megtekinthető a működése.
(http://www.ontopia.net/omnigator/models/index.jsp) Az OKS-t Norvégiában az Oslói
Főiskola Újságírás Könyvtár- és Információtudományi Karán és Magyarországon a Pécsi
Tudományegyetem Felnőttképzési és Emberi Erőforrás Fejlesztési Karán is sikerrel
alkalmazzák a könyvtárosképzésben. (Tóth 2008)
A TM4L (Topic Maps for e-Learning) ontológiavezérelt tématérkép-szerkesztő program
jelenleg az egyetlen magyar nyelven is ingyenesen elérhető szoftver. (Kovács, Tóth 2008) A
programot a Winston-Salem State University kutatói fejlesztették ki a tématérképek legfőbb
alkalmazási területén, az e-learningben felmerült igények figyelembe vételével. Az a
gondolat vezérelte a fejlesztőket, hogy a tananyagok fogalmak alapján való megközelítése
segíti a tanulót az ismeretek hatékony befogadásában. E mögött pedig az húzódik, hogy a
tématérképek a fogalmakat környezetükkel együtt, azok valós kontextusában és nem egy
kényszerű struktúra hálójában képesek mutatni. (Dicheva, Dichev 2006)
A TM4L felületét a következő ábra szemlélteti.
További eszközök – a teljesség igénye nélkül:
- Wandora (http://www.wandora.org/wandora/wiki/index.php?title=Download)
- TinyTiM (http://tinytim.sourceforge.net)
- QuaaxTM (http://quaaxtm.sourceforge.net),
- mappa (http://code.google.com/p/mappa/),
- Perl TM (http://search.cpan.org/dist/TM/)
- K-Discovery (http://gtm.upb.de).
6.2 Ontológiaépítés az OKS segítségével
Az ontológiaépítés gyakorlatát most egy tématérkép szerkesztő szoftverrel mutatjuk be.
Ennek oka, hogy így egy közvetlen humán interpretációra is alkalmas, látványos alkalmazást
kapunk eredményül, amely minden szemantikus technológiák iránt érdeklődő tanuló
számára motiváló lehet. Szintén fontosnak tartjuk, hogy míg a szemantikus web
technológiákkal kapcsolatosan jelentős mennyiségű technikai dokumentáció, útmutatás
érhető el, addig a tématérképek vonatkozásában a következő leírás teljes mértékben
nóvumnak lesz tekinthető a hazai szakirodalomban.
6.2.1 Az OKS letöltése és használata
Az OKS (Ontopia Knowledge Suite) programcsomagot a http://www.ontopia.net
oldalról lehet letölteni. Célszerű a letöltésnél a C meghajtót kiválasztani és a csomagot a
programfájlok közé menteni. (A továbbiakban az elérési útvonalakat azt feltételezve adom
meg, hogy a programcsomag a C meghajtón van.)
Az indításhoz ki kell választani a startup windows kötegfájlt, amelyet a C:\Program
Files\oks-samplers\apache-tomcat\bin mappában találhatunk meg. Ekkor
megjelenik egy fekete ablak Tomcat felirattal, amit le lehet tenni tálcára, de nem szabad
bezárni. Ekkor a böngészőbe beírva a http://localhost:8080/ címet csatlakozhatunk
a távoli szerverhez és elkezdhetjük a program használatát.
A csatlakozást követően a következő ablaknak kell megjelennie a böngészőben:
Tipikus probléma, hogy a fekete ablak felugrik, majd a következő pillanatba el is tűnik úgy,
hogy a benne kiírt hibaüzenetet sem hagyja elolvasni. Ennek az oka az szokott lenni, hogy
vagy nincs a gépen Java, vagy a JAVA_HOME környezeti változó nincs megfelelően definiálva.
Ekkor célszerű ellenőrizni, hogy van-e a gépen a Program Files között Java. Ha nincs, akkor
ingyenesen telepíthető a http://www.java.com/en/download/index.jsp
oldalról. Ha van, vagy ha már telepítettük, akkor a Vezérlőpult Rendszer Speciális
Környezeti változók útvonalon megnyithatjuk a rendszerváltozók definiálásához szükséges
panelt. Az Új gombra kattintva két szövegdoboz jelenik meg, ahol a változó neve
JAVA_HOME, a változó értéke pedig a Java program aktuális gépen lévő elérési útja. (Pl.
C:\Program Files\Java\jre7).
Windows 7 operációs rendszerrel a következő ablakban állítható be ez a bizonyos környezeti
változó:
6.2.2 Az ontológiák építésének első lépései
Valamennyi tématérkép ontológia építését papíron érdemes kezdeni, amikor is összeírjuk,
hogy melyek azok a téma-, asszociáció-, előfordulás-, szerep- és névtípusok, amelyek
segítségével formálisan leírható a kiválasztott tudástartalom.
A papíron szintén érdemes összeírni, hogy mely típus mely esetekkel népesíthető be. AZ
alábbiakban erre láthatunk egy példát.
A következő alkalmazásunk tárgyát hazai nagyvárosok jelentik, amelyekhez egy-egy
nevezetes helyet,illetve a települések egy-egy híres szülöttjét kapcsolhatjuk. A szülöttekről, a
nevezetes helyszínekről és a városokról magukról szeretnénk látni képet, egy-egy Wikipédia
oldalt, és – amennyiben létezik – hivatalos honlapot. Egyértelmű azonosítóként a
www.dbpedia.org URL-jeit használjuk.
Az így elkészített minialkalmazással a célunk az volt, hogy elejétől a végéig – minden lépést
bemutatva – felépítsünk egy ontológiát és azt be is népesítsük „esetekkel”. Az alkalmazás
természetesen kicsi, és ebből kifolyólag nem is tartalmazhat minden apró trükköt, viszont
lehetőséget teremt arra, hogy ez alapján egy sokkal nagyobb volumenű projektet is fel
lehessen építeni.
Papíron az alkalmazásunk vázlata a következőképpen írható le:
1. Tématípusok (Itt azokat a fogalmakat írjuk le, amelyekhez konkrét eseteket tudunk
rendelni, és amelyek így alkalmasak lehetnek a választott tartalom leírására. Ezek egy
alkalmazás felső szintű fogalmai.
o város
o személy
o nevezetesség
2. Asszociációtípusok
o szülötte (város – személy)
o nevezetessége (város – nevezetesség)
3. Előfordulástípusok
o kép (városról, nevezetességről, személyről)
o hivatalos honlap (város, nevezetesség)
o Wikipédia oldal (város, nevezetesség, személy)
o születési év (személy)
4. Szereptípusok
o szülőhely (város)
o szülött (személy)
o nevezetesség (ez a szereptípus megegyezik a tématípussal)
o város (ez a szereptípus megegyezik a tématípussal)
5. Névtípusok
o Angol név (város, nevezetesség)
o Német név (város, nevezetesség)
A tématípusok definiálása nem csak technikai jellegű tevékenység, hiszen kellően
hatékonynak kell lennünk az adott ismeretterület formális modellezése vonatkozásában is. A
következő szabályok szem előtt tartása szükséges.
- A tématípus legyen kellően általános (az ország jobb tématípus, mint például az
európai ország, mert általánosabb fogalomra utal. Igaz ez akkor is, ha ebből az
következik, hogy valamennyi európai ország esetében definiálnunk kell egy újabb
asszociációt, miszerint Európában található.)
- Ne legyen nagyon általános sem, mert zavarhatja a megértést. (Az ország tehát jobb,
mint a hely, amely képes lenne összemosni a városokat, kontinenseket és az
országokat).
- A tématípus neve legyen rövid a könnyű kezelhetőség, megjeleníthetőség kedvéért.
- Minden tématípus legyen egyes számban (a tématípus tehát ország és nem országok)
A következőkben célszerű legalább néhány példa erejéig összegyűjteni azokat a fogalmakat,
amelyekkel az ontológia benépesíthető. Ezek esetünkben például a következők lehetnek.
1. Városok: Debrecen, Miskolc, Pécs
2. Személyek: Csokonai Vitéz Mihály, Szabó Lőrinc, Victor Vasarely
3. Nevezetesség: Nagytemplom, Diósgyőri vár, Barbakán
A fenti információk birtokában már el tudjuk kezdeni a tématérképünk szerkesztését,
amelyet a következő fejezetben fogunk megtenni az LTM szintaxis segítségével.
6.2.3 Tartalmak formalizálása LTM szintaxis segítségével
Ebben a részben egy tématérképet fogunk létrehozni LTM szintaxis segítségével. A nyelv
sajátosságairól fentebb már szóltunk, most a gyakorlati tudnivalókat mutatom be egy
konkrét példa megalkotásával.
Első teendőnk, hogy nyitunk egy üres jegyzettömb fájlt, amelyet letöltünk a következő
helyre: C:\Program Files\oks-samplers\apache-
tomcat\webapps\omnigator\WEB-INF\topicmaps. Fontos tovább, hogy a fájl
kódolása UTF-8, a kiterjesztése pedig .ltm legyen.
Amennyiben ez megtörtént, az Omnigatort megnyitva a bal oldali oszlopban meg kell
jelennie a tématérképünk elnevezésének, illetve arra kattintva meg tudjuk nézni, hogy eddig
mi az eredménye a munkánknak.
Először a tématípusokat definiáljuk, amelyhez a [ ] karakterek használata szükséges. Az
első pozícióba írt szavak fogják a tartalomleírás során a továbbiakban azonosítani az egyes
fogalmakat a program számára, az egyenlőségjel után idézőjelbe írt szavak pedig a humán
interpretációra szolgáló megjelenítés során használatosak.
Itt a következőkre kell odafigyelnünk.
- A leírás során csak az angol ABC karakterkészletéből válogathatunk.
- Az azonosító kizárólag egyetlen szó lehet (Amennyiben többre van szükségünk. Pl.
hires-ember, akkor kötőjellel írjuk ezeket egybe!)
- Lehetőleg olyan szavakat használjunk, amelyek a későbbiekben is megjegyezhetők és
egyértelműen utalnak az adott téma jelentésére. Így például a hn-19 azonosító, bár
teljesen alkalmas bármely fogalom azonosítására, nem szerencsés, mert emberi
olvasásra alkalmatlan.
A fentebb leírt tématípusokkal kezdjük. Tekintve, hogy a tématérkép technológiában minden
típus téma. Azaz az asszociáció, a szerep, a név és az előfordulástípusok, ugyanezen metódus
szerint kell ezeket is definiálni a következőképpen:
/*--------TÉMATÍPUSOK--------*/
[varos = "Város"]
[szemely = "Személy"]
[nevezetesseg = "Nevezetesség"]
/*------ASSZOCIÁCIÓTÍPUSOK----*/
[szulotte = "szülötte"
= "szülötte a következőnek" /szulott]
[nevezetessege = "nevezetessége"
= "nevezetessége a következőnek" /nevezetesseg]
/*-------SZEREPTÍPUSOK-------*/
[szulott = "Szülött"]
[szulohely = "Szülőhely"]
/*--------ELŐFORDULÁSTÍPUSOK------*/
[kep = "Kép"]
[wikipedia = "Wikipédia oldala"]
[szulev = "Születési éve"]
[honlap = "Hivatalos honlapja"]
/*---------NÉVTÍPUSOK-------*/
[angol = "angol nyelven"]
[nemet = "német nyelven"]
Az eddig összeállított típusok összessége maga az ontológia. Ha ezt megjelenítjük az
Omnigatorban, akkor azonban azt láthatjuk, hogy valamennyi általunk megadott kifejezést
témaként regisztrált a rendszer.
Az Omnigatorba a Master Indexre kattintva a következőket láthatjuk.
Az LTM esetében (amikor is nem ontológiavezérelt tématérkép-szerkesztésről beszélünk) a
benépesítés fogja kijelölni az egyes tématérkép szerkezetek tényleges szerepeit. Ennek
érdekében a következőkben a benépesítést is elvégezzük a fentebb már felsorolt elemekkel.
A benépesítést a témákkal kezdjük, amikor is a fentiekhez hasonlóan [ ] zárójelben
azonosítóval látjuk el az egyes elemeket.
[debrecen = "Debrecen"
@"http://dbpedia.org/page/Debrecen"]
[miskolc = "Miskolc"
@"http://dbpedia.org/page/Miskolc"]
[pecs ="Pécs"
@"http://dbpedia.org/page/P%C3%A9cs"]
[vasarely = "Victor Vasarely"]
[csokonai = "Csokonai Vitéz Mihály"]
[szabo = "Szabó Lőrinc"]
[diosgyori-var = "Diósgyőri Vár"]
[nagytemplom = "Nagytemplom"]
[barbakan = "Barbakán"]
Hogy a rendszerben egyértelmű legyen, hozzá kell rendelnünk az egyes eseteket a
tématípusokhoz. Ezzel válik egyértelművé, hogy mi van tématípus és mi annak esete
szerepben.
[vasarely : szemely]
[csokonai : szemely]
[szabo : szemely]
[diosgyori-var : nevezetesseg]
[nagytemplom : nevezetesseg]
[barbakan : nevezetesseg]
[miskolc : varos]
[pecs : varos]
[debrecen : varos]
A következőkben az egyes témákat asszociációkkal rendeljük egymáshoz a következőképpen:
/*------ASSZOCIÁCIÓK----*/
szulotte(csokonai : szulott, debrecen : szulohely)
szulotte(szabo : szulott, miskolc : szulohely)
szulotte(vasarely : szulott, pecs : szulohely)
nevezetessege(diosgyori-var : nevezetesseg, miskolc : varos)
nevezetessege(nagytemplom : nevezetesseg, debrecen : varos)
nevezetessege(barbakan : nevezetesseg, pecs : varos)
Itt meg kell jegyeznem, hogy az egyes elemek mellett fel kell tüntetnünk a szerepet is,
amelynek mentén kapcsolódik az adott téma a másikhoz. Jelen esetben ezek a nevezetesség,
a város, a szülött és a szülőhely. A város és a nevezetesség véletlenül egybeesik a
tématípussal is, ami azonban nem jelent problémát a későbbiekben.
Az előfordulások definiálása során lényegében az egyes témákat rendeljük az információs
egyes pontjaihoz. Megkülönböztetünk külső előfordulások, amelyek a tématérképen kívül
létező erőforrásra mutatnak. Ezt a következőképpen írjuk le.
/*-----ELŐFORDULÁSOK------*/
{barbakan, wikipedia,
"http://hu.wikipedia.org/wiki/Barbak%C3%A1n"}
{diosgyori-var, wikipedia,
"http://hu.wikipedia.org/wiki/Di%C3%B3sgy%C5%91ri_v%C3%A1r"}
{nagytemplom, wikipedia,
"http://hu.wikipedia.org/wiki/Reform%C3%A1tus_nagytemplom_(Deb
recen)"}
{diosgyori-var, kep,
"http://upload.wikimedia.org/wikipedia/hu/e/e2/Di%C3%B3sgy%C5%
91ri_v%C3%A1r1.jpg"}
{nagytemplom, kep,
"http://upload.wikimedia.org/wikipedia/commons/f/f7/Debrecen-
hungary-greatprotestantchurch.JPG"}
{barbakan, kep,
"http://upload.wikimedia.org/wikipedia/commons/6/61/0045_Barbi
can.jpg"}
{szabo, wikipedia,
"http://hu.wikipedia.org/wiki/Szab%C3%B3_L%C5%91rinc"}
{vasarely, wikipedia,
"http://hu.wikipedia.org/wiki/Victor_Vasarely"}
{csokonai, wikipedia,
"http://hu.wikipedia.org/wiki/Csokonai_Vit%C3%A9z_Mih%C3%A1ly"
}
{miskolc, kep,
"http://upload.wikimedia.org/wikipedia/commons/1/15/Miskolc_mo
ntage.JPG"}
{debrecen, kep,
"http://upload.wikimedia.org/wikipedia/commons/7/70/Debrecen_m
ontage.JPG"}
{pecs, kep,
"http://upload.wikimedia.org/wikipedia/commons/b/b2/Pecs_-
_Hungary_-_EU.JPG"}
A belső előfordulások leírása némileg eltér a fentiektől. Az egyes híres személyek születési
évét a következőképpen rendelhetjük hozzájuk.
{szabo, szulev, [[1900]]}
{csokonai, szulev, [[1773]]}
{vasarely, szulev, [[1906]]}
A kész tématérképünk ontológiáját mutatja be a következő kép, amely szerint összesen
három tématípust, kettő asszociációtípust, négy szereptípust és három előfordulástípust
definiáltunk.
6.2.4 Ontológiaépítés az Ontopolyval
Az Ontopoly egy ontológiavezérelt tématérkép szerkesztésre szolgáló eszköz.
Ontológiaépítés Ontopolyval – ez egy képernyőképekkel ellátott útmutató, amivel a
legelejétől kezdve bemutatunk egy ontológia elkészítését. A program külön kezeli az
ontológia elemeit (téma-, asszociáció-, előfordulás-, szerep- és névtípusok), és külön az ezek
esetekkel történő feltöltéséhez szükséges funkciókat.
Az Ontopoly szintén az Ontopia Knowledge Suite kezdőoldaláról érhető el. A nyitólapon a
következő szövegre kell kattintanunk: Create and edit Topic Maps with Ontopoly. Ekkor a
meglévő tématérképeinket felsoroló felülethez érkezünk, amelyek mellett a jobb oldali
oszlopban van lehetőség Create New Topic Map alatti mező kitöltésével egy új tématérképet
létrehozni.
Ide a címet begépelve majd a Create gombra kattintva elkezdhetjük a munkát.
Az Ontopoly egy ontológiavezérelt tématérkép szerkesztésre szolgáló program, ami a
gyakorlatban azt jelenti, hogy lehetőség van az ontológiát és annak esetekkel feltöltését
külön végezni. Az ontológia önállóan is megállja a helyét, nem függ attól, hogy vannak-e
esetek rendelve az egyes típusokhoz.
Az Ontopoly nyitó oldalán összesen négy fül van, amelyek közül a Description alatt lehet a
dokumentumra vonatkozó metaadatokat megadni a következőképpen. Ez az Omnigator
vizualizáló programban a tématérkép főoldalán fog megjelenni.
A metadaatok megadását követően következhet magának az ontológiának a kialakítása,
amelyet az előzetesen összeállított vázlatunk alapján az Ontology fül alatt tudunk megtenni.
Erre kattintva megjelennek az alapvető tématérkép-szerkezeteket reprezentáló aloldalakra
vezető pontok.
A Topic types-ra kattintva megjelenik a jobb oldalon egy szövegdoboz, amelybe az új
tématípus nevét írhatjuk. A Create gombra kattintva létre is jön egy tématípus, amelynek a
jellemzőit a következő felületen állíthatjuk be.
Az egyes eszközök értelmezésre szorulnak.
- Name: a tématípus definiálására szolgáló mező. Az ide beírt névváltozat lesz ún.
untyped name, azaz nem tipizált név.
- Alatta helyezkedik az azonosító megadásához szükséges mező (Subject identifier).
Ennek – mint már fentebb említettük – több tématérkép összeolvasztása esetén van
nagy szükség, hiszen ez alapján „látja” a két alkalmazás, hogy adott esetben
ugyanarról a témáról tesznek állításokat.
- A Description mezőben leírást készíthetünk a tématípusról.
- Az Abstract dobozba akkor kell pipát helyezni, ha az adott tématípus elvont, azaz
nincsenek közvetlen esetei. Ez a tudás modellezésétől függ. Pl. Amennyiben
készítenénk egy Település tématípust, amelynek az alosztálya lenne a főváros,
megyei jogú város, város, nagyközség, község, akkor a konkrét településneveket nem
a Település, hanem a főváros, megyei jogú város, város, nagyközség, község altípusok
eseteiként regisztrálnánk.
- A Subclass és a Superclass mezőkben legördülő mezőkből választhatunk a már
létrehozott tématípusokból, ezzel a tématípusok közötti hierarchiát állíthatjuk fel.
Jelen esetben definiáltuk a három tématípusunkat, amelyet követően elkészíthetjük az
asszociációs viszonyokat, vagyis a fogalmakat egymáshoz való viszonyuk szerint is
rendezhetjük.
Ehhez először a szereptípusokat kell definiálni, amennyiben a szerepek nem esnek egybe a
tématípusokkal. A szereptípusok megadásához lényegében ugyanaz a felület áll
rendelkezésre mint a tématípusokhoz, így ezt nem mutatom be képernyőképen. A Role
types-ra kattintva a jobb oldali szövegdobozban megadhatjuk a szereptípus nevét, majd az
azonosítóját és a hozzá tartozó leírást. Most a szülőhely és a szülött szereptípusokra van
szükségünk a továbbiakhoz.
Az asszociációtípusok jellemzőinek definiálásához a következő felület használatos. Fentebb
az eddigiekhez hasonlóan megadtuk az asszociáció elnevezését, azonosítóját és leírását.
Az egyes mezők kitöltésére vonatkozóan az alábbiakat kell szem előtt tartanunk:
- Egy asszociáció akkor szimmetrikus, ha ugyanazon szerepek között értelmeződik.
Például ilyen a barátja reláció, amelyben feltételezzük, hogy ha valaki barátja
valakinek, akkor az fordítva is igaz.
- Az asszociációk két oldalról is „olvashatók”. Pl. Miskolc (város) szülőhelye a
következőnek: Szabó Lőrinc (személy); illetve Szabó Lőrinc (személy) szülőhelye
Miskolc (város). Ezért kell kétféle elnevezést is megadnunk annak függvényében,
hogy milyen szerepek szempontjából írjuk le a relációt.
- A role type mellett legördülő menüből választhatjuk ki azt a szerepet, amelyben egy
bizonyos téma részt vesz a relációban.
- A used by azokra a tématípusokra utal, amelyek használhatják a fentebb
meghatározott szereptípust. Tetszőleges számú témát hozzáadhatunk a jobb oldalon
található plusz jel segítségével.
- A Cardinality mezőben a számossági tulajdonságokat lehet megadni. Itt négy
lehetőség közül választhatunk a legördülő menüből. Az exactly one jelenti, hogy
pontosan egy szereplője van ennek a viszonynak ebből a szempontból. Ilyen például a
szülőváros, amelyből mindenkinek csak egyetlen van. További lehetőségek a zero or
one (nulla vagy egy), a one or more (egy vagy több), illetve a zero or more (nulla vagy
több). A példánkban ezt választottuk a városok esetében, amelyek elvileg és
gyakorlatilag is nulla vagy több embernek lehetnek a szülőhelyei.
- Az interface controll alatt a megjelenítési sajátosságokat állíthatjuk be.
Az előfordulástípusok jelentik a következő olyan tématérkép szerkezetet, amelyet
mindenképpen le kell írnunk a készülő tématérképünkben. Ezek az elemek lényegében a
témák szempontjából releváns tartalmak helyeit jelentik az információs térben.
Léteznek külső és belső előfordulások. Előbbiek a tématérképen kívüli pontokra mutatnak,
utóbbiakat mi magunk írhatjuk be a megfelelő helyre. Az Ontopolyban ugyanazon a felületen
lehet ezeket szerkeszteni.
Az előfordulástípusok leírásához szükséges mezőket az Occurence types fülön keresztül
érhetjük el. Az Ontopolyban a Creator, Description és Version előfordulástípusok
alapértelmezetten benn vannak, de amennyiben nem szükségesek el lehet őket távolítani.
(Ennek módja, hogy rákattintunk az eltávolítandó elemre, majd a jobb oldali oszlopban
megjelenő oszlopban kiválasztjuk a Delete this topic lehetőséget. Megerősítést követően
törlésre kerül az adott előfordulástípus.)
Jelen példánkban képeket, Wikipédia oldalakat és születési évszámot fogunk rendelni azon
elemekhez, amelyek esetében azok relevánsak lehetnek. Az előfordulástípusokat a
következő felületen tudjuk szerkeszteni.
A fenti példában a kép előfordulástípus tulajdonságait szerkeszthetjük.
- A Name mezőben az Omnigatorban megjelenő nevet lehet megadni.
- Az adattípusok vonatkozásában több opció is rendelkezésre áll. Jelen esetben a képet
stringként, azaz egy URL-t reprezentáló karaktersorozatként fogjuk megadni, ezért
célszerű ezt az adattípust kiválasztani. Ezen kívül a programban a következő
adattípusok állíthatók be: Dátum, dátum és idő, HTML, kép, szám, karakterlánc, URI.
- A Used by mezőbe – hasonlóan az asszociációtípusokkhoz – azokat a tématípusokat
lehet felvenni, amelyek vonatkozásában releváns az adott előfordulástípus.
- A Cardinality mezőben a számossági tulajdonságokat lehet beállítani. Jelen esetben a
Zero or more opciót választottuk, hiszen nem lehetünk biztosak abban, hogy minden
nevezetességhez, személyhez, illetve városhoz tudunk találni képet, ugyanakkor meg
szeretnénk magunknak engedni, hogy akár több képet is szerepeltessünk a
tématérképünkben.
- A Height és a Width mezőkben azt adtuk meg, hogy a képernyőn hány sor magasságú
és hány karakter hosszú lehet egy-egy konkrét előfordulás.
- Szinte minden mezőt követően találunk egy csillagot. Ezzel azokat a hiányzó elemeket
hozhatjuk létre, amelyeket esetlegesen korábban nem hoztunk létre. Például
amennyiben egy olyan tématípusnak is meg szeretnénk engedni az adott
előfordulástípus használatát, amelyet még létre sem hoztunk, úgy a csillagra kattintva
az alábbi mező kitöltésével közvetlenül erről a felületről pótolhatjuk a hiányt.
Amennyiben bizonyos információkat más nyelven is be akarunk mutatni, vagy bizonyos
kontextusoktól függően más neveken is meg akarunk határozni, akkor névtípusokat kell
definiálnunk. Ezeket a Name types fül alatt tudjuk kiválasztani. Az ezek definiálására szolgáló
felületen csupán a következő elemeket találjuk:
A fenti példában az angol nyelvű alakok definiálásának az első lépéseit tettük meg.
Valamennyi elem használatának alapelvei megegyeznek a fentebb már bemutatottakkal.
Tudnunk kell, hogy minden tématípusnak van egy alapértelmezett neve. Ezen hivatkozunk
tulajdonképpen az adott fogalomra. A névtípusokat csak akkor kell megadnunk, ha több
névváltozatot is szeretnénk a tématérképünkben.
Amikor valamennyi téma-, előfordulás-, asszociáció-, szerep- és névtípust definiáltunk,
lehetőségünk van az egyes tématípusok esetében áttekinteni azt az asszociációs mezőt,
amely körülveszi a fogalmat. Amikor az egyes típusokat esetekkel fogjuk feltölteni, akkor
ezen kitöltendő mezők fognak megjelenni.
Ezen a felületen bármely tématérkép-szerkezet vonatkozásában végezhetünk
változtatásokat az alábbiak szerint.
- A vízszintes tengely mentén elhelyezkedő mezők (Names, Occurences, Associations,
Identities és Queries) esetében a csillagra kattintva neveket, előfordulásokat, és
asszociációkat rendelhetünk az adott tématípushoz. Szintén hozzáadhatunk
elemeket, amelyek az adott elemek identitását meghatározzák. (praktikusan ide
jönnek a fentebb tárgyalt PSI-k). A Queries a lekérdezések menedzselésére szolgáló
gomb.
- A számossági tulajdonságok legördülő menüből való választással változtathatók
minden egyes elem mellett.
- A mínusz gombbal az adott elem eltávolítható, ha még sincs rá szükség az adott
tématípus vonatkozásában.
- A sorrend a bal szélen lévő gombokkal változtatható igény szerint.
Ha ezen a felületen véglegesítettük az adott típusok tulajdonságait, akkor lényegében
elmondhatjuk, hogy kész vagyunk az ontológiával, amelynek már csak az esetekkel való
feltöltése van hátra.
Ezt az Instances fülre kattintva tehetjük meg, amikor is az előzetesen definiált tulajdonságok
minden egyes tématípus vonatkozásában megjelennek egy olyan felületen, mint amely a
következő képen látható.
Ezen a felületen lényegében konkrétumokkal, adatokkal kell feltöltenünk az előzetesen
elkészített ontológiánkat. Ehhez szövegdobozok és legördülő menük állnak rendelkezésünkre
annak megfelelően, ahogyan az előzőekben az ontológia elemeit definiáltuk.
- A legördülő menükben azok az elemek kerülnek felsorolásra, amelyeket létrehoztunk.
Ha olyanra van szükségünk, amelyet nem találunk ezen elemek között, akkor a jobb
oldalon lévő csillag segítségével tudunk eseteket létrehozni.
- A mínusz és plusz jelekkel az ontológiában leírt kardinalitási feltételek szerint tudunk
hozzáadni vagy elvenni elemeket. Ha valamihez azt írtuk, hogy több eset is tartozhat
hozzá egy adott relációban, akkor értelemszerűen megjelenik a plusz jel, így
tetszőleges számú újabb elemet hozzáadhatunk. Ha valamiből pontosan egy van,
akkor sem plusz, sem mínusz jelet nem találunk mellette, viszont ha a szövegdobozt
üresen hagyjuk, akkor „Missing required value” (hiányzó kötelező érték) hibaüzenetet
kapunk.
A tématérképek szerkesztése és az ontológiák létrehozása általában iteratív folyamat.
Valószínűleg nem tudjuk a világ létezői közötti viszonyokat azonnal a leghatékonyabban és
leghelyesebben modellezni, így szükség lehet arra, hogy visszatérjünk az esetektől az
ontológiához és ott – a gyakorlati tapasztalatok tükrében – változtassunk a feltételeken.
A szerkesztés közbeni aktuális állapotokat mindig a jobb oldali menüsorban található
Omnigate gombbal tudjuk megtekinteni. Az általunk szerkesztett és esetekkel feltöltött
tématérképen például a fentebb megszerkesztett Pécs téma a következőképpen
vizualizálható.
Amennyiben egy adott téma asszociációs mezejét grafikusan is meg szeretnénk tekinteni,
akkor a lap tetején lévő menüsorban lévő Vizigator segítségével tehetjük ezt meg. A fenti
szöveges oldal esetében ez a következőképpen jelenik meg.
Az ontológiaszerkesztés során fontos lehet, hogy egy-egy tartalmat más formátumokba is át
tudjunk konvertálni, hogy biztosítsuk más-más alkalmazásokkal való kompatibilitását. Az
Omnigatorban erre az Export menüpontban van lehetőség. Itt a következő képen látható
szintaxisokba menthető el az elkészített tématérképünk.
A fentiek közül a legérdekesebb és legtöbb lehetőséget magában foglaló az RDF/XML
szintaxisba való automatikus konverzió, hiszen ezzel más szemantikus web alkalmazásokkal
is biztosítható a kompatibilitás.
Az ontológiánk és az ezen alapuló tématérképünk elkészültét követően további lehetőségek
állnak a rendelkezésünkre, amelyekkel növelhetjük a használó lehetőségeit.
- A Merge fül alatti lehetőségekkel lehetőségünk van több tématérkép
összeolvasztására. Az egyes témák a PSI-k mentén olvadhatnak egybe. A
tevékenységhez ki kell jelölnünk két vagy több tématérképet, amelyeket egybe
kívánunk tenni.
- A Statistics menüpontban van lehetőségünk megtekinteni, hogy egyes tématérkép-
szerkezetekből mennyi van jelen az alkalmazásunkban.
- A DB2TM segítségével szinkronizálhatjuk a tématérképünket egy relációs adatázissal.
Ennek használatához készíteni kell egy konfiguráló fájlt és elhelyezni a
C:\ontopia-5.1.3\apache-
tomcat\webapps\omnigator\plugins\db2tm\db2tm.xml mappában.
- A Customize fül alatt a megjelenítésre vonatkozó beállításokat állíthatjuk be. A
Nontopoly modelben csak azokat az értékeket jeleníti meg az Omnigator, amelyeket
mi adtunk meg, a Complete model a rendszer által automatikusan generált
jellemzőket és relációkat is.
- A Support fül egyenesen az OKS-t használó nemzetközi közösség levelezőlistájára
vezet minket, ahol választ kaphatunk esetlegesen felmerülő kérdéseinkre,
bizonytalanságokra.
7 Az ontológiák használata
Az ontológiák hasznáról a kutatók is eltérően vélekednek. A szkepticizmus alapja jellemzően
az, hogy nagyon sok szakterületen erősen kétséges a formalizálás lehetősége. A nyelvi
jelekkel történő emberi kommunikáció is erősen támaszkodik a kontextusra, a gesztusokra, a
kommunikáló felek közötti közös előismeretekre és osztott nézetekre, és a megértés még így
is kérdéses. Az ontológiákban formalizált tudásra teljes mértékben érvényes az ún. „zártvilág
effektus”, azaz a számítógép a következtetések levonása során kizárólag a saját
tudásbázisában tárolt ismeretekre képes támaszkodni. Mindezek ellenére az ontológiákat
több területen is sikerrel alkalmazzák. Ezek közül jelenleg három ismertebbet, a
döntéstámogatást, a tudásmenedzsmentet és a szemantikus web alkalmazásokat emeljük ki.
7.1 döntéstámogatás
A tudás hatékony modellezése nyomán képesek lehetünk automatizált döntéstámogatásra is
az ontológiák segítségével. Ennek eszközei lehetnek a szakértői rendszerek, amelyek
döntéshozáshoz szükséges szakértői tudás formalizálásával képesek automatizált
döntéstámogatásra.
Futó Iván (2003) definíciója szerint a „szakértői rendszerek a tudásalapú rendszerek közül
azok, amelyek szakértői ismeretek felhasználásával magas szintű teljesítményt nyújtanak egy
szűk problémakör kezelésében.” A szakértői rendszerek a mesterséges-intelligenciakutatások
egyik – legsikeresebb – területét jelentik, amelyek szakvéleménnyel, tanáccsal, konkrét
értékeléssel segítik a döntéshozatalt.
A problémakör mérete jelenti ezen eszközök legfőbb korlátját. Hasonlóan a tudásalapú
rendszerek többségéhez minél kisebb szakterület formalizálását tűzzük ki célul, annál
nagyobb esélyünk van rá, hogy a valóság bonyolult struktúráit megközelítsük és képesek
legyünk automatizálni a gondolkodási, döntéshozatali folyamatokat.
A szakértői rendszereknek 3 fő összetevője van, a tudásbázis, a következtető gép és a
felhasználói interfész. Az ontológiák és a logikai formalizmusok a tudásbázisok építésében
bírnak jelentőséggel. A három legfontosabb elem önálló komponenseket alkot, így önállóan
fejleszthető. Ez azért előnyös, mert a következtetőgép változatlansága mellett bővíthetjük,
aktualizálhatjuk a tudásbázisban tárolt szakértői tudást. A rendszerek teljesítménye
elsősorban a tudásbázis méretétől és a benne tárolt ismeretektől függ. A következtető gép a
rendszer válaszadó része, amely hozzáfér a tudásbázishoz, onnan állítja elő a szükséges
kapcsolatokat, összefüggéseket, következtetéseket. A szabályok típusa és száma nem
befolyásolja a következtető gép működését.
A szakértői rendszerek sikere részben annak köszönhető, hogy számos szakértői shell
(keretrendszer) áll rendelkezésre, amelyekkel viszonylag egyszerűen képesek lehetünk a
szakértői tudás formalizálásával kész rendszereket készíteni. „A szekértői shellek azon
fejlesztőeszközök, amelyek tudásbázisból, következtető gépből és felhasználói interfészből
épülnek fel, támogatják a tudásalapú rendszerek fejlesztését és tudásbázisuk üres.” (Futó,
1998) Lényegében a shell tudásbázisának feltöltése működőképes szakértői rendszert
eredményez.
Vannak, amelyek rendelkeznek különböző környezeti eszközökkel, amelyek barátságosabb
használatot tesznek lehetővé. Vannak, amelyek mint fejlesztői környezetek együttműködnek
más programokkal, adatbázisokkal.
A szakértői rendszerek legfőbb problémáját az ún. zártvilág effektus jelenti. Ez arra a tényre
utal, hogy a következtetés és döntés csak az adott pillanatban explicit formában
rendelkezésre álló tudásbázis-tartalom alapján történhet. Míg egy humán szakértő
folyamatos kölcsönhatásban van a valósággal, egy gép kénytelen azokra az ismeretekre
hagyatkozni, amelyeket rendelkezésére bocsátottak és így formális leírások formában
rendelkezésére áll.
7.2 tudásmenedzsment
Az ontológiák használata a tudásmenedzsment világában szintén egyre növekvő
jelentőséggel bír, hiszen az ismeretek formalizálása, explicitté tétele a szervezetek
tudásvagyonának megragadását segíti elő. A tudásmenedzsment az információs társadalom
kialakulásának kezdetétől kezdve fokozódó mértékben része a vállalatok, szervezetek
életének. Ahogy a materiális tőke felől a figyelem mind nagyobb mértékben az immateriális
felé fordul, úgy van egyre nagyobb szükség a tudásvagyon megragadására szolgáló eszközök,
technikák fejlesztésére.
A tudásmenedzsmentnek több megközelítése is létezik. Géró Katalin (2000) a definíciók
alapján háromféle megközelítést azonosított.
„A használatban lévő KM-definíciók száma több tucatra rúg, aszerint, hogy az adott forrás
milyen megközelítésben tárgyalja a témát. A klasszikus értelmezés szerint tudásgazdálkodás
és hasznosítás alatt értünk minden olyan tevékenységet, amelynek célja egy szervezeten
belül felhalmozott mindennemű dokumentált (explicit), illetve láthatatlan (tacit) tudás,
ismeret, szakértelem, tapasztalat feltérképezése, összegyűjtése, rendszerezése, hatékonyan
történő szolgáltatása és hasznosítása. Röviden, a minél eredményesebb döntéshozatali
munkát elősegítendő, a megfelelő információ eljuttatása a megfelelő embereknek a
megfelelő formában és időben. Eszerint a KM célja, hogy keretet szolgáltasson egy közösség
(vállalat, intézmény, szervezet) szellemi javainak minél gazdaságosabban történő
kiaknázásához és felhasználásához. Az elmélet gyakorlatban való megvalósítását sokan
sokféleképpen értelmezik, s bár a tudásgazdálkodás végleges rendszerezése még várat
magára, már jelenleg is megfigyelhető két, egymástól eltérő felosztási rendszer.
Az első szerint a tudásmenedzsment két nagy iránya – talán inkább feladata – az
információkkal, valamint a humán erőforrásokkal történő gazdálkodás. Az előbbi szerint
tudás alatt az információs rendszerekben nyomon érhető és kezelhető objektumokat, míg
utóbbi szerint az állandóan változó, formálódó folyamatokat, a képességek és szakértelem
komplex rendszerét értjük.
A másik értelmezés szerint a tudásmenedzsment három nagy tárgyalási módja a
mechanisztikus, a kulturális/magatartási, valamint a rendszerező szemlélet szerinti
megközelítés. Az első mód inkább a technológiai eszközökkel történő információkeresés
tökéletesítését vizsgálja, a másodikban a tudást és annak kezelését mint vezetés, illetve
szervezéselméleti problémát értelmezik, míg a harmadik tárgyalásmód a tudás–problémakör
szisztematikus elemzésére, modellezésére helyezi a hangsúlyt.” (Géró 2000)
Az ontológiák jelentősége a technológiai alapú megközelítésekben nagy. Ebben a
vonatkozásban él az az elképzelés, miszerint a tudás megragadható, modellezhető és
áramoltatható tudásszervezési rendszerek segítségével. Ugyanakkor az is egyértelművé vált,
hogy egy hatékony tudáskezelő rendszer elősegítheti ugyan a tudás áramoltatását és
megragadását, de nem egyedüli záloga a tudásmenedzsment tevékenység hatékonyságának.
A tudásmenedzsment vállalati környezetben az ún. tudásmenedzsment ciklussal írható le,
amely a következő lépéseket foglalja magában. (Nuridsányi 2006 alapján)
Az ábrán látható fogalmakhoz némi magyarázat szükséges. Kezdjük a stratégiai
alappillérekkel.
- Stratégiai alapok. A tudásmenedzsment a szervezet létező üzletstratégiájára, annak
céljaira épül, azok megvalósítását szolgálja.
- Folyamatok. A tudásmenedzsment tevékenységek szervesen beépülnek a szervezet
üzleti folyamataiba.
- Technológia. Épít a hatékony, részben már meglévő, a szervezet által már használt,
részben pedig speciálisan a tudásmenedzsmentet kiszolgáló, korszerű technológiákra.
Ebben a vonatkozásban különösen nagy jelentősége van az ontológiáknak.
- Kultúra. A tudásmenedzsment gondolkodásmódot, megközelítésmódot, viselkedést is
jelent, amely beépül a szervezeti kultúrába. (Nuridsány 2006)
Az egyes lépések a következők.
- Szükségletek. Ebben a fázisban történik azon tudáselemek azonosítása,
meghatározása, amelyekre szert kell tennie a szervezetnek. Formái lehetnek:
felmérés, audit; az igények folyamatos gyűjtése; kutatás, piacelemzés, szakmai
kutatás.
- Létrehozás. EZ a lépés az új tudás létrehozása a szervezet számára, amely
többféleképpen valósítható meg: tanulással, vásárlással, kitalálással (innovációval),
fejlesztéssel. A létrehozás forrásai lehetnek a meglévő tudáselemek kombinációja,
külső források megismerése (könyvek, folyóiratok, konferenciák, ülések, jelentések,
szabványok stb.), külső személyek.
- Megragadás, azaz a tudás újrafelhasználható formába öntése; általában
externalizáció (tacit tudásból explicit tudás létrehozása). Kétféle alapvető formája a
„Hard copy” (papíron vagy elektronikus formában való dokumentálás; meglévő
rendszerbe történő rögzítés; hangfelvétel; képfelvétel); „Soft” (pl. működésbe,
folyamatba való beépítése; új tudáselem azonosítása, másokkal való megosztással
együtt.) A szakirodalom felhívja rá a figyelmet, hogy a puha megragadást mindig hard
lépésnek kell követnie.
- Hozzáférhetővé tétel a felhasználók számára, akiknek a tudásra a szervezeti
feladataik végzéséhez szükségük van. (pl. kereshetőség biztosítása, direkt módon való
eljuttatása a használóhoz, a tudással rendelkező informális kommunikáció
biztosításával. Ez történhet elektronikusan (pl. tudásmenedzsment rendszerbe való
bevitel; egyéb információs rendszerbe való bevitel; egyszerű elektronikus tárolás)
vagy papírhordozón (pl. irattár, könyvtár)
- Megosztás, vagyis a tudáselemek megosztása azok potenciális használóival, amelynek
szintén háromféleféle formája van:
1. Passzív hozzáférhetővé tétel (explicit-explicit), pl. Papír formában (könyv, cikk,
belső dokumentáció); internet vagy intraneten.
2. Aktív hozzáférhetővé tétel (explicit-tacit). Pl. direkt küldés, előadás,
konferencia, képzés, oktatás
3. „Közösségi” (tacit-tacit). Pl. közösségi fórumokon való megbeszélés, elemzés,
munka közbeni kommunikáció.
- Konszolidálás. A tudáselemek osztályozása, rendszerbe sorolása, a megtalálás,
hozzáférés, felhasználás hatékonyabbá tétele érdekében. Ennek formái lehetnek a
tudástérkép készítés, indexelés, kulcsszavazás, klasszifikáció, beillesztés adott
rendszerbe (irattár, elektronikus könyvtári rendszer, stb.), információs rendszerben
való rögzítés.
- Használat. A megszerzett illetve meglévő tudás felhasználása, hasznosítása a
szervezeti feladatok elvégzésekor. Ennek során további tudásigények merülhetnek
fel. Formái lehetnek: közvetlen eladás, tanácsadás, szakértés, információ eladás,
termékbe való beépítés, termékfejlesztés, szolgáltatás, követés, támogatás;
Stratégiai, taktikai döntések támogatása, piacelemzés.
- Értékelés. A szervezetben lévő tudás értékelése az üzleti értékhez való hozzájárulás
szempontjából. Pl. Balanced Scorecard, megtérülés elemzés, szervezeti egységek
értékelése, munkatársak értékelése, rendszer értékelése. (Nuridsány 2006)
A fenti ciklus lépéseit végiggondolva világos, hogy az ontológiák és közvetve a szemantikus
technológiák tudásmenedzsmentben való hasznosításával kapcsolatosan az elképzelhető
alkalmazások nagyon sokfélék lehetnek. Most csak egyet, a tudástérképet mutatjuk be.
Tudástérképek készítésére a tématérkép technológia különösen alkalmas. Géró Katalin
(2000) a következőképpen foglalja össze a tudástérképek vállalati hasznosítását.
„Egy szervezet információs és tudásvagyona dokumentálásának, megjelenítésének alapvető
feltétele, hogy a szervezet rendelkezzék olyan közösen kialakított, előre definiált fogalmi
rendszerrel, illetve taxonómiával, amely alapján az ismeretek hatékonyan visszakereshetővé
válnak. Olyan eszközrendszert kell a használók kezébe adni, amelynek segítségével a tárolt
ismereteket a megközelítési módtól függetlenül, hatékonyan tudják használni. Ha úgy
tetszik, létre kell hozni a szervezet profilját alapul vevő osztályozási rendszert, amely által
lehetővé válik a tudásvagyon ésszerű katalogizálása és a tudásrendszerben való
megjelenítése. A tudáskatalógus a vállalat szellemi értékeinek olyan rendszerezett
forrásgyűjteménye, amely teljességre törekedve feltárja az önálló fájlok weboldalak,
dokumentumkezelő rendszerek, adatbázisok, adattárak és adattárházak stb. tartalmát. A
katalógus egyes elemeit az ún. metaadatok írják le, amelyek rögzítik az egyes
információforrások jellemzőit (lelőhely, szerző, keletkezés időpontja).
A vállalati tudáskatalógus hatékonysága növelhető az ún. tudástérképek alkalmazásával,
lehetőséget adva a katalogizált tudástartalom vizuális megjelenítésére. A tudástérképek
készítésekor az ismereteket grafikusan ábrázoljuk, azaz megkíséreljük leképezni egy adott
fogalmi hálózatot az azt felépítő egyes fogalmak, illetve a köztük fennálló kapcsolatok
rögzítésével. Az így kapott ábrák – a tartalmat megszabadítva a szövegkörnyezet adta
korlátoktól – lehetővé teszik egy tudáskör általános, környezettől független feltérképezését
és megértését. Ezáltal pedig könnyebbé válhat új ismeretek és összefüggések felfedezése és
az ismeretek egymással történő megosztása is. Ehhez azonban szükség van a szervezet
tudáskezelő rendszerének megtervezésére és kialakítására is.” (Géró 2000)
Összefoglalva tehát a vállalatok életében egyre nagyobb jelentősége van a tudásnak,
amelynek megragadására, konszolidálására, termelővé tételére hatékony eszközöket
kínálnak az ontológiák. A tématérkép technológia különösen alkalmas vállalati tudástérképek
készítésére a humán interpretációra való optimalizáltsága miatt.
7.3 Oktatás
Az ontológiák és az oktatás kapcsolata egyértelműnek tűnhet, hiszen előbbinek a célja az
ismeretek formalizálása, ezzel „fogyaszthatóvá” tétele, amely az oktatás és a tananyagok
készítésének is az egyik alapvető folyamata. Néhány alkalmazás bemutatásával azonban
példákat is szeretnénk mutatni a használat lehetőségeire.
A tématérképek e-learningben való használhatóságát szemlélteti a Magyar Elektronikus
Könyvtárban a klasszikus magyar irodalom tématérképe (http://mek.oszk.hu/itm). Ezt a
kísérleti jelleggel elkészített alkalmazást az Empolis Magyarország Kft. készítette. Céljuk a
hazai piacon való sikeres szereplés előfeltétele, egy látványos referenciamunka elkészítése
volt. Tartalmilag a középiskolás tananyag tényeit ragadja meg az alkalmazás és jeleníti meg
szemantikus kapcsolatok hálójában. Az alkalmazás erénye, hogy magyar nyelven
reprodukálta a tématérképek alapfogalmait, sikeresen alkalmazta a nyelvet a konkrét esetek
feltöltésénél.
A Wellingtoni egyetemen működő Új-Zélandi Elektronikus Szövegközpontban egy
szöveggyűjteményt reprezentáltak egy ontológiában. (NZETC New-Zealand Electronic Text
Centre http://www.nzetc.org/). Témák (összesen körülbelül 110.000 téma) reprezentálják a
szerzőket, kiadókat, képeket és szövegeket, a közöttük lévő kapcsolatokat asszociációk írják
le, előfordulásként pedig külső erőforrásokat rendeltek a tartalmakhoz. (Stevenson, Tuohy,
Norrish 2008) Az NZETC projektje lényegében a teljes digitális könyvtárat tématérkép
alapokra helyezte, és ezzel egy rendkívül felhasználóbarát felületet alkotott.
A tématérképek lehetőséget adnak tematikus portálok készítésére. Könyvtári tematikus
portál kialakítását célozta a zaragozai egyetemen indult Potnia projekt, amely tématérkép,
RDF és Dublin Core metaadat szabványokon alapul. Az alkalmazás a keresések további
finomítását tette lehetővé azzal, hogy relációkat definiált a kulcsszavak között. A Potnia
projekt fejlesztései felhasználói igényvizsgálaton alapulnak, az eredményként megjelenő
szoftvereket (két verzió is megjelent) pedig valódi környezetben próbálták ki. (Tramullas,
Garrido 2006)
7.4 szemantikus web ontológiák
Az ontológiák fejlesztésének az egyik legfontosabb motivációját az elmúlt években egy
globális hálózati metaadat-infrastruktúra létrehozása jelentette. Ebben a részben röviden
áttekintést adunk a szemantikus web felépítéséről, és arról, hogy ebbe a struktúrába miként
illeszkednek az ontológiák.
A világhálón a tudás tárolására korlátlan lehetőségek állnak rendelkezésre. A tartalom
szerinti visszakeresésnek azonban két nagyon jelentős gátja van. Egyrészt az emberi
erőforrások mértéke, másrészt a szintaxison alapuló heurisztikák korlátozottsága szabnak
határt a szemantika alapján való keresés lehetőségeinek. Ezen problémákra adott válaszként
jelent meg a szemantikus web vízió.
Tim Berners-Lee 1998 szeptemberében tette közzé a Semantic Web Road Map (Szemantikus
web autóstérkép) c. cikktervezetét, amely – alcíme szerint – nem több mint tapasztalatok
továbbgondolása, egy kipróbálatlan architektúra terve, illetve egy autóstérkép a jövőhöz. A
cikk, amely az RDF logika mentén vázolja fel a szemantikus web struktúráját, egy 20 000 láb
magasságból kirajzolódó kép, amelynek a részletei még kidolgozásra várnak. (Berners-Lee
1998)
A szemantikus web alapvetése 2001 májusában látott napvilágot a Scientific American
hasábjain. Ebben Berners-Lee és szerzőtársai leírják a szemantikus web lépcsős modelljét,
amelynek a legalsó szintjén az egyedi adatok megragadására, következő szintjén a közös
szintaxisra, harmadik szintjén a szemantikus tartalomra, majd a logikára vonatkozó
metaadat-szabványok foglalnak helyet. A szerzők egy példával illusztrálják a szemantikus
web fejlesztések várható eredményét. E szerint Pete és Lucy testvérek, akik együtt keresnek
édesanyjuknak fizikoterápiás kezelést kétheti rendszerességgel. Az intelligens kereső kikeresi
az édesanyjuknak előírt kezelést nyújtó szolgáltatók közül azokat, amelyeknél érvényes a
mama biztosítása. Kiválogatja azokat, amelyek a lakhelyének 20 mérföldes körzetében
vannak, és az értékelésük kiváló, vagy nagyon jó a minősítések szerint. Ezt követően
összeegyezteti az időpontot Lucy és Pete naptárával, hogy nekik is megfelelő időben legyen a
kezelés. Az intelligens kereső vázolja a tervet. Pete-nek nem tetszik, mert éppen
csúcsforgalom idején kellene autóznia, ezért megismétli a keresést szigorúbb kritériumokkal.
Szinte azonnal jön a válasz a módosított tervvel, amelyhez azonban a gép figyelmezteti Pete-
et, hogy néhány kevésbé fontos találkozót át kell tennie más időpontra. (Berners-Lee,
Handler, Lassila 2001)
Az elképzelt történet és az utána felvázolt technológiai megoldások recepciója a tudományos
irodalomban nagyon gazdag. Passin (2004) nyolc fő csapásirányt vázol fel a szemantikus web
vízió első interpretációiból. Ezek a fenti történetből kiragadott elemekre alapulnak.
- Az információ indexelése és visszakeresése. Az információ-visszakeresésben a
szemantikus web túlmegy a tárgyszók és az alfabetikus indexek mélységén, így a
használók képesek fogalmak és kategóriák mentén keresni.
- Metaadatok. A szemantikus web metadatok tömege, amelyek a weben lévő adatok
közötti hatékonyabb keresést tesz lehetővé.
- Magyarázó jegyzetek, kommentárok. A szemantikus web legfőbb újítása a felhasználó
által generált tartalom: a kommentárok, bejegyzések.
- Egy nagy együttműködő adatbázis. Az adatok legnagyobb részét adatbázisokon kívül
tárolják a weben. A tárolt adatok leírásának és visszakeresési lehetőségeinek
egységesítése nyomán a szemantikus web egy nagy virtuális adatbázisként is
értelmezhető.
- Az adatok gépi visszakeresése. Ez a megközelítés az adatok visszakeresésének az
automatizálására koncentrál. E szerint nem kell az oldalakat egyenként betölteni és
azokról az adatokat kinyerni, hiszen az adatok formátuma és hozzáférési lehetőségei
lehetővé teszik, hogy azokat a számítógép emberi közreműködés nélkül kezelje.
- Szolgáltatások. A szolgáltatások géppel olvasható adatokat tesznek közzé, így a
számítógép az ember helyett végzi az egyeztetéseket.
- Szolgáltatások felderítése. Azon szolgáltatások felderítése, amelyek lehetővé teszik a
szabványok szerinti hozzáférést.
- Intelligens „titkár”. Egy olyan intelligens számítógépes alkalmazás, amely az ember
helyett cselekszik gyakorlati ügyek intézése során, például repülőjegyet, vagy
szállodai szobát rendel. A szemantikus weben ebben a megközelítésben emberek
intelligens „titkárainak” interakciója zajlik. (Passin 2004)
Minden megközelítés hordoz igazságot. Összefoglalva azonban a szemantikus web célja egy
olyan globális hálózati metaadat-infrastruktúra létrehozása, amely lehetővé teszi a
világhálón lévő adatok integrálását, a közöttük lévő kapcsolatok definiálását és jellemzését,
illetve az adatok értelmezését.
A szemantikus web három különböző rétegből áll:
1. metaadatok: az erőforrások és tulajdonságok leírása;
2. sémák: a fogalmak hierarchikus leírása;
3. logikák: leíró logikák. (Lu, Dong, Fotouhi 2002)
A fenti három rétegben nyelvek találhatók, amelyeknek a következő feladatokat kell
ellátniuk. Ezeket tekinthetjük a szemantikus web építőelemeinek is. (Zárójelben az egyes
építőelemekhez kapcsolódó szintaxisok vannak):
1. Az adatokat egyértelműen meg kell címezni a weben, vagyis el kell őket nevezni.
(URI=URL+URN) Lényegében a weben lévő dokumentumoknak önleíróknak kell
lenniük, hogy egyértelműen azonosíthatók legyenek az információk.
2. Az önleíró dokumentumnak egységes szintaktikájúnak is kell lenni. (XML)
3. Szükség van egy precíz adatmodellre, amely formális keretet ad az adatok
egymáshoz való kapcsolatainak definiálására, és a kapcsolatok leírására (RDF).
4. Az adatok közti kapcsolatokat, illetve a kapcsolt adatok referenciáit el kell tudni
érni, le kell tudni kérdezni (SPARQL).
5. A kapcsolatok leírására szolgáló terminológiát definiálni kell tudni (RDFS, OWL,
SKOS).
6. A kapcsolatokon, illetve azok leírásán, logikai következtetéseket kell tudni levonni
(OWL, RIF).
Az URI és az XML nem specifikus a szemantikus webre. Kifejezetten erre lett viszont
kifejlesztve az RDF, az OWL, a SPARQL és a SKOS amelyek már ajánlások, vagy a RIF.
A fent megnevezett specifikációk határozzák meg a szemantikus web lépcsős modelljét
(Berners-Lee, Handler, Lassila 2001; Fülöp, Kovács, Micsik 2005; Passin 2004), amely alapján
az intelligens háló az önleíró dokumentumra épülve a metaadatok segítségével, a formális
logikai szabályok szerinti következtetések levonására lesz képes.
A szemantikus web lépcsős modellje (Forrás:
http://mmt.me.uk/slides/barcamp09/images/semantic-web-layer-cake.png)
Minden egyes réteg az alatta elhelyezkedőkre épít. A nyelvek alapja az XML. Minden szint
bonyolultabb, mint az alatta elhelyezkedő. Az alsóbb rétegek függetlenek a fölöttük
elhelyezkedőktől. Az egyes rétegek egymástól függetlenül is fejleszthetők és alkalmazhatók.
(Passin 2004) A szemantikus web lépcsős modelljét már különböző változatokban
felvázolták. Minden változatban szükség van radikális egyszerűsítésekre, mert a rendszer
működése a valóságban sokkal több együttműködő szabvány függvénye.
A szemantikus web megvalósulásának előfeltétele, hogy a tartalmak létrehozói általánosan
elfogadott szabványokhoz, illetve ajánlásokhoz tartsák magukat a fejlesztések során. A World
Wide Web konzorciumot (W3C) 1994-ben hozta létre Tim Berners-Lee azzal a céllal, hogy
elősegítse a webtechnológiák összhangját, előmozdítsa a világháló fejlődését és garantálja a
széleskörű felhasználhatóságát. A jelenleg több mint 400 tagot számláló szervezet három
„anyaintézmény” égisze alatt indult. Ezek az amerikai MIT, a franciaországi székhelyű ERCIM
és a japán Keio Egyetem. A szervezet által kidolgozott szabványok a széles nyilvánosság előtt
kerülnek kifejlesztésre, valamennyi szabvány elfogadásához széleskörű egyetértés szükséges.
A konzorcium tagjai olyan szereplők, amelyek elkötelezettek a web egységesítése iránt
(kutatólaboratóriumok, termékforgalmazók, tartalomszolgáltatók, fejlesztők).
Az ontológiák szerepe a szemantikus web elképzelésben elsősorban a valóság leírásában
ragadható meg. Az ontológiákban írhatók le azok az igazságok, amelyek mentén automatikus
következtetéseket lehet levonni a szemantikai kapcsolatok leírása alapján. Az ontológiák
szerepét a következőkben néhány konkrét alkalmazás példáján keresztül mutatjuk be. A
példák a metaadatok kezelése tekintetében élenjáró intézményrendszer, a könyvtárak
területéről valók.
Az Amerikai Egyesült Államokban a Cornell Egyetem kutatói 1997-ben indították útjára a
FEDORA (Flexible Extensible Digital Object Repository Architecture) projektet
(http://www.fedora.info). A FEDORA digitális objektumok formális leírását tűzte ki célul: egy
olyan architektúra létrehozását, amely egyaránt alkalmas digitális tartalmak tárolására,
menedzselésére és hozzáférhetővé tételére. A szemantikus web ajánlások megjelenését
követően implementálták a projektbe az RDF-et. A FEDORA RDF tripleteket tartalmaz, amely
átjárhatóságot biztosít más szemantikus web alapú rendszerekkel.
A FEDORA körül, hasonlóan más platformokhoz, egy közösség van, amely amellett, hogy
használja a rendszert, újabb alkalmazásokat, további eszközöket fejleszt hozzá. A közösségre
utal a Fedora Commons név. Tekintve, hogy a FEDORA egy általános digitális tartalmak
kezelésére alkalmas szoftver, a használók között a könyvtárak mellett innovatív szakmai
szervezetek, kutatóintézetek, múzeumok, kulturális intézmények, kormányzati szervek,
vállalatok is találhatók. Fedorán alapul többek között a PloS (Public Library of Science), a
University of Virginia Library, a National Science Digital Library, az Irish Virtual Research
Library and Archive Project digitális tartalomkezelő rendszere.
A svéd nemzeti könyvtár (Kungliga Biblioteket) az eddigi példáktól eltérően nem egy teljesen
új rendszert fejlesztett, hanem arra tett kísérletet, hogy az ország közös katalógusát, a
LIBRIS-t, amely nagy mennyiségű strukturált és ellenőrzött adatot tartalmaz átkonvertálják a
szemantikus webhez kompatibilis módon. A hangsúlyt az erőforrásokra mutató és az
erőforrások közötti kapcsolatokra helyezték és nem az egyes tételek minél részletesebb
megjelenítésére. A különböző alkalmazásokkal való együttműködés és a MARC rekordok
szemantikai tartalmának biztosítása érdekében Dublin Core, SKOS és FOAF elemeket
egészítettek ki egy saját maguk által generált ontológiában. Az adatokhoz való hozzáférést a
SPARQL biztosítja. (Malmsten 2008) A következő ábra egy rekordhoz kapcsolódó elemeket
mutatja be irányított gráfok segítségével. (Forrás: http://ki.oszk.hu/kf/wp-
content/uploads/2010/10/1003tothm4.jpg)
Az Országos Széchényi Könyvtár szintén a katalógusában tárolt metaadatokat tette közzé a
létező a szemantikus web szabványokhoz és ellenőrzött szótárakhoz illeszkedve.
A legújabb szemantikus web alapú fejlesztések célja a tartalmak kreatív újrahasznosítása,
amelyet az Europeana oldalain és a hozzá kapcsolódó nemzeti szolgáltatásokban is tetten
érhetünk. Az alábbi képen a svéd Kringla digitális gyűjtemény egy régi budapesti fényképét
láthatjuk a hozzá tartozó – a tartalom újrahasznosításához szükséges – metaadatokkal
együtt.
A kulturális célú tartalmak szemantikus web szabványok szerint történő közzétételében
jelentős előrelépések történtek az elmúlt egy évtizedben. A közgyűjtemények elkötelezettek
az iránt, hogy a tartalmaikat korlátozásoktól mentesen, ingyenesen közzétegyék. Ennek a
következményeként számos projekt született, amelyben gazdag metaadatállományok váltak
közkinccsé, elősegítve azok – akár újszerű kontextusban történő – újrahasznosítását.
8 Összefoglalás
Jelen írással azt a célt tűztük ki, hogy egy gyakorlatorientált összefoglalást adjunk
ontológiaszerkesztésről. Elsősorban az oktatás céljait tartottuk szem előtt, de röviden
tettünk némi kitekintést más területekre is (tudásmenedzsment, szemantikus web
fejlesztések, döntéstámogatás, szakértői rendszerek.) Az összefoglalás végén nem
tekinthetünk el attól, hogy röviden felvázoljuk a szemantikus technológiák számára
felrajzolható jövőképet, ami nagymértékben az ontológiafejlesztések kontextusát is jelentik.
A szemantikus web erősségét a metaadatok és a tudást reprezentáló ontológiák jelentik. A
koncepció értelmében ez utóbbiak biztosítják a következtetések lehetőségét, amely nyomán
valóban „intelligens webről” lehetne beszélni.
Már az OWL fejlesztésekor világossá vált, hogy egy OWL Full alkalmazásban képtelenség
lenne a világról való ismereteinket olyan módon formalizálni, hogy abban ne legyenek
ellentmondások, amelyek lehetetlenné teszik a szoftverekkel végzett következtetéseket. A
világ dolgainak leírhatatlanságára elég a természetes nyelveket példának hozni. A
természetes nyelvek az ontológiákhoz hasonlóan megosztott konceptualizálással
formalizálják a világ létezőit. (Vickery 1997) A világ létezői azonban bonyolultságuknál fogva
olyannyira sokféleképpen képezhetők le, hogy elkerülhetetlenek az ellentmondások. (A
nyelvi relativizmus elmélete szerint a természetes nyelvek determinálják a gondolkodást is,
így a más anyanyelvűek másképpen szemlélik a világot, Robins 1999.)
A magyar csúcsontológia projekt bebizonyította, hogy egyetlen nyelv legáltalánosabb
fogalmait sem lehetséges hatékonyan megragadni. Elsősorban ennek eredményeként az
ontológiák fejlesztése a szemantikus webről szóló diskurzus kezdete óta eltelt tíz évet
követően még mindig gyerekcipőben jár, és nem is várható áttörés ebben a tekintetben.
(Krause 2008) Nem jelent igazi megoldást a létező tudásreprezentációs eszközökhöz való
fordulás sem (pl. SKOS), mert ezekkel éppen a szemantikus web legfőbb ígéretéről, a
formális logikákon alapuló, szoftverekkel elvégeztethető következtetésekről kellene
lemondani, tehát a Berners-Lee, Handler és Lassila (2001) által felvázolt lehetőségek csak
nagyon szerény mértékben válnának valóra.
Egyre inkább világossá válik, hogy globális metaadat-infrastruktúra építése elképzelhetetlen
tömegek munkája nélkül. A világháló szintaktikai paradigmájának sikere nagyban köszönhető
az egyszerűségnek. A szabványokat felhasználói szintű számítógép-kezelői ismeretekkel
rendelkező személyek is képesek alkalmazni a HTML-szerkesztő programok segítségével. A
szemantikus web bonyolult szerkezete megnehezíti az alkalmazást, így ezek a szabványok
nem is tudtak elterjedni. A szemantikus web technológiák olyan szakismeretet igényelnek,
amely lehetetlenné teszi a tömeges alkalmazást. Ennek némileg ellentmond, hogy az RDF
alapú tudásreprezentáció egyre elterjedtebbé válik.
Minden létezőt magában foglaló ontológia alkalmazás hiányában a szemantikus web nem
válhat globális metadat-infrastruktúrává, hanem megmarad a webes tartalmak hatékonyabb
együttműködését elősegítő technológiák gyűjtőfogalmának. Szakterületi ontológiák
építésében történt ugyan némi előrelépés, ezek azonban nem feltétlenül biztosítják a
megfelelő szintű átjárhatóságot, így a következtetések érvénye is szükségszerűen
korlátozott.
Az áttekintésünk végkövetkeztetéseként csatlakozunk Szakadát István 2007-ben
megfogalmazott véleményéhez. „A szemantikus web (…) ma még sokkal inkább csak ígéret,
mint valóság, és egyelőre nem is nagyon látszik, mikorra és hogyan leszünk képesek a
szemantikus web program céljait megvalósítani.” (Szakadát 2007)
9 Irodalomjegyzék
Barátné Hajdú Á. (1998)
Bevezetés a könyvtári osztályozás elméletébe és gyakorlatába. Budapest.
Berners-Lee, T. – Handler, J. – Lassila, O. (2001)
The Semantic Web = Scientific American, May 17
http://www.scientificamerican.com/article.cfm?id=the-semantic-web [letöltve: 2013.
március 20.]
Brickley, D. – Guha, R. V. (2004)
RDF Vocabulary Description Language 1.0: RDF Schema W3C Recommendation 10 February
2004 http://www.w3.org/TR/rdf-schema/ [letöltve: 2013. március 21.]
Conolly, D. et al. (2001)
DAML+OIL (March 2001) Reference Description W3C Note 18 December 2001
http://www.w3.org/TR/daml+oil-reference [letöltve: 2013 április 2.]
DC (2004)
Finomított DC-elemkészlet, Rövid változat (2004-05-11) NDA Tartalom infrastruktúra
munkacsoport [Kézirat]
DC HTML (2003)
Expressing Dublin Core in HTML/XHTML meta and link elements. DCMI Recommendation
(November 11, 2003), http://dublincore.org/documents/dcq-html/ [letöltve: 2013. március
21.]
DCMES (2006)
Dublin Core Metadata Element Set, Version 1.1. DCMI Recommendation (December 18,
2006), http://www.dublincore.org/documents/dces/ [letöltve: 2013. március 10.]
DCMI (2001)
Dublin Core Metadata Initiative „DC1: OCLC/NSCA metadata workshop”,
http://dublincore.org/workshops/dc1/ [letöltve: 2013. március 10.]
DCMT (2006)
DCMI Metadata Terms. DCMI Recommendation (December 18, 2006),
http://www.dublincore.org/documents/dcmi-terms/ [letöltve: 2013. március 5.]
DC RDF (2002)
Expressing Simple Dublin Core in RDF/XML. DCMI Recommendation (July 31, 2002),
http://dublincore.org/documents/dcmes-xml/ [letöltve: 2013. április 5.]
DC XTM (2003)
Guidelines for implementing Dublin Core in XML. DCMI Recommendation (April 2, 2003),
http://dublincore.org/documents/dc-xml-guidelines/ [letöltve: 2013. április 3.]
Dicheva, D. – Dichev, C. (2006)
TM4L Creating and Browsing Educational Topic Maps = British Journal of Educational
Technology 2006. (37. köt.) 3. sz. 391–404. p.
van Dijck, P. (2003)
Introduction to XFML, XML.com, January 22, 2003,
http://www.xml.com/pub/a/2003/01/22/xfml.html [letöltve: 2013. március 31.]
Futó Iván (2003)
Mesterséges Intelligencia, Budapest, Aula kiadó.
Garshol, L. M. (2004)
Metadata? Thesauri? Taxonomies? Topic Maps! Making sense of it all
http://www.ontopia.net/topicmaps/materials/tm-vs-thesauri.html [letöltve: 2013. március
2.]
Garshol, L. M. (2006)
The Linear Topic Map Notation, Definition and introduction, version 1.3 2006/06/17,
Ontopia AS http://www.ontopia.net/download/ltm.html [letöltve: 2013. március 22.]
Garshol, L. M. (2007)
Towards a Methodology for Developing Topic Maps Ontologies = Leveraging the Semantics
of Topic Maps. Berlin – Heidelberg, Springer, 20-31. p.
Géró Katalin (2000)
Knowledge management – múló hóbort avagy a jövőnk? = Könyvtári Figyelő, 2000. 1-2. sz.
104-112. p. http://ki.oszk.hu/kf/kfarchiv/2000/1_2/gero.html [letöltve: 2013. április 14.]
Gruber, T. R. (1993a)
Towards principles for the design of ontologies used for knowledge sharing. In N. Guarino –
R. Poli (szerk.): Formal Ontology in Conceptual Analysis and Knowledge. Representation
(konferenciaanyag). Deventer, The Netherlands. Kluwer Academic Publishers.
Gruber, T. R (1993b)
A translation approach to portable ontology specification. 5. évf., Knowledge Acquisition,
199–220. p.
Han, Y. (2005)
A RDF-based digital library system = Library Hi Tech (24. köt.) 2. sz. 234-240. p.
Hecht, R. – Haslhofer, B. (2005)
Joining the BRICKS Network – A Piece of Cake = The International Conference EVA 2005.
Moscow http://cs.univie.ac.at/research/publications/publikation/infpub/742/ [letöltve:
2013. április 20.]
Hendrik, T. – Redmann, T. – Pressler, M. – Markscheffel, B. (2008)
GTM – Towards a Graphical Notation for Topic Maps = Subject-centric Computing. Forth
International Conference on Topic Maps Research and Applications. TMRA 2008. ed.
Maicher, L., Garshol, L. M Leipzig Germany, 16–17 October, 2008
http://tmra.de/2008/talks/pdf/137-152.pdf [letöltve: 2013. március 15.]
Henriksen, I. (2006)
Graphical Notation for Topic Maps, Draft. 2006-10-15
http://cafe.teria.no/ingeh/files/6/13/GTM.pdf [letöltve: 2013. március 25.]
Herman I. (2006)
Szemantikus Web: egy rövid bevezetés, elhangzott az I. Magyar Webkonferencián 2006.
március 18-án http://www.w3.org/2006/Talks/0318-Budapest-IH/cikk.html [letöltve: 2013.
március 16.]
Horváth T. – Sütheő P. (2001)
A tartalmi feltárás = Könyvtárosok kézikönyve 2. Feltárás és visszakeresés. szerk. Horváth T. –
Papp I. Budapest, Osiris kiadó, 35-186. p.
Horváth Z. (2006)
Taxonómia – az egyezményes nyelvek szerepe és rokonságai – útközben a szemantikus
webhez = Tudományos és Műszaki Tájékoztatás, (53.) 5. sz.
http://tmt.omikk.bme.hu/show_news.html?id=4410&issue_id=472 [letöltve: 2013. március
7.]
Hunting, S. (2003)
How to Start Topic Mapping Right Away with the XTM Specification (Chapter 6.) = XML Topic
Maps: Creating and Using Topic Maps for the Web. (szerk.) Park, J. – Hunting, S., Boston,
Addison-Wesley, 81–102. p.
ISO 13250 (2007)
Information technology – Topic Maps Part 3: XML Syntax, International Standard, ISO/IEC
13250 First edition 2007-03-15 ISO/IEC 13250:2007(E)
Klyne, G. – Carroll, J. J. (2004)
Resource Description Framework (RDF) concepts and abstract syntax, W3C
recommendation, Febr. 10, 2004. http://www.w3.org/TR/rdf-concepts/ [letöltve: 2013.
április 19. ]
Kormos J. – Kovács Z. Cs. – Tóth M. (2008)
Topic map and ontological support for knowledge management in the enterprise =
Proceedings of ECKM 2008, The 9th European Conference on Knowledge Management,
Southampton Solent University, Southampton, UK, 4-5 September 2008, 377–388. p.
http://www.ve-
forum.com/projects/408/ICE%202008/Knowledge%20Engineering%20&%20Management/0
72%20-%2019.pdf [letöltve: 2013. március 22.]
Kovács Z. Cs. – Tóth M. (2008)
A tématérkép technológia bemutatása, a TM4L szerkesztő magyarosításának folyamatán
keresztül = MicroCAD 2008 International Scientific Conference, Miskolc, 20-21 March 2008
Miskolci Egyetem, Konferencia kiadvány Section O: Applied Information Engineering, 75-82.
p.
http://webadmin.kripto.hu/webadmin/portals/kovex/attachments/TopicMaps_2_2008.pdf
[letöltve: 2013. március 28.]
Krause, J. (2008)
Semantic heterogenity: comparing new semantic web approaches with those of digital
libraries = Library Review (57. köt.) 3. sz. 235-248. p.
Manola, F. – Miller, E. (2004)
RDF Primer, W3C Recommendation, 10 February 2004 http://www.w3.org/TR/rdf-primer/
[letöltve: 2013. április 2.]
McGuiness, D. L. – Van Harmelen, F. (2004)
OWL Web Ontology Language – Overview, W3C Recommendation, 10 February 2004
http://cies.hhu.edu.cn/pweb/~zhuoming/teachings/MOD/N4/Readings/5.3-B1.pdf [letöltve:
2013. április 22.]
Newcomb, S. R. (2003)
A Perspective on the Quest for Global Knowledge Interchange (Chapter 3.) = XML Topic
Maps: Creating and Using Topic Maps for the Web. (szerk.) Park, J. – Hunting, S. Boston:
Addison-Wesley, 31-50. p.
http://ptgmedia.pearsoncmg.com/images/0201749602/samplechapter/parkch03.pdf
[letöltve: 2013. április 10.]
Nuridsány Judit (2006)
Az információbróker a tudásmenedzsment birodalmában = Információból üzleti érték. Az
információbróker környezete és munkája. Budapest, Magyar Információbrókerek Egyesülete,
123-130.
Pálvölgyi Mihály (2011)
Információkereső nyelvek I.
http://www.tankonyvtar.hu/hu/tartalom/tamop425/0005_11_infkereso_nyelvek_i_pdf/ada
tok.html [letöltve: 2013. április 14.]
Passin, T. B. (2004)
Explorer’s Guide to the Semantic Web, Greenwich, Manning, 281 p.
Pataki E. ford. (2004a)
Az RDF Erőforrás Leíró Keretrendszer alapfogalmai és absztrakt szintaxisa, W3C ajánlás,
2004-02-10 http://www.w3c.hu/forditasok/RDF/REC-rdf-concepts-20040210.html [letöltve:
2013. március 23.]
Pataki E. ford. (2004b)
OWL Web Ontológia Nyelv – Áttekintés, 2004-09-19
http://www.w3c.hu/forditasok/OWL/REC-owl-features-20040210.html [letöltve: 2013.
március 24.]
Pataki M. (2005)
W3C ajánlások magyarul = Tudományos és Műszaki Tájékoztatás (52. köt.) 9. sz. 430. p.
http://tmt.omikk.bme.hu/show_news.html?id=4051&issue_id=465 [letöltve: 2013. április
10.]
Pepper, S. (2003)
Published Subjects: Introduction and Basic Requirements. OASIS Published Subject Technical
Committee Recommendation, 2003-06-24
http://xml.coverpages.org/PublishedSubjectsIntroAndRequirements20030624.pdf [letöltve:
2013. március 29.]
Pepper, S. (2006)
Towards the Semantic Superhighway: A Manifesto for Published Subjects, 2006.
http://www.ibiblio.org/hhalpin/irw2006/spepper.html [letöltve: 2013. március 30.]
Pepper, S. (2007)
Understanding Topic Maps Grasping the Fine Points, Oslo University College, 2007-09-27
http://www.ontopedia.net/pepper/slides/UnderstandingTopicMaps.ppt [letöltve: 2010.
január 23.]
Pepper, S. (2008a)
Expressing Dublin Core in Topic Maps = TMRA 2007. Maicher L and Garshol L. M (eds.) LNAI
4999. pp. 186–197. http://www.ontopedia.net/pepper/papers/DCinTopicMaps.pdf [letöltve:
2010. október 5.]
Pepper, S. (2008b)
Topic Maps and the Semantic Web = Topic Maps and All That, 2008-05-11
http://topicmaps.wordpress.com/2008/05/11/topic-maps-and-the-semantic-web/ [letöltve:
2013. március 23.]
Pepper, S (2009)
Introduction to Topic Maps and Subject-centric Computing = Topic Maps Workshop,
Neumann János Számítástudományi Társaság Mesterséges Intelligencia Szakosztály.
Budapest, 2009. július 21.
Pepper, S. – Schwab, S. (2003)
Curing the Web’s Identity Crisis. Subject Indicators for RDF. Ontopia AS. May.
http://www.ontopia.net/topicmaps/materials/identitycrisis.html [letöltve: 2013. március
13.]
Ranganathan (2002)
Ranganathan for IAs; Steckel, Mike, Boxes and Arrows, October 7, 2002,
http://www.boxesandarrows.com/view/ranganathan_for_ias [letöltve: 2013. február 1.]
Sándor J. (2002)
Információkereső nyelvek, Eszterházy Károly Főiskola, Eger, 2002 http://eznembla-
bla.uw.hu/tananyagok/ekf/kvt/infkernyszig.pdf [letöltve: 2013. április 9.]
Stevenson, A. – Tuohy, C. – Norrish, J. (2008)
Ambient Findability and Structured Serendipity: Enhanced Resource Discovery for Full Text
Collections, New-Zealand Electronic Text Centre Papers, 2008. 10 p. http://hdl.handle.net/10063/267
[letöltve: 2013. január 23.]
Svenonius, E. (2000)
The Intellectual Foundation of Information Organization MIT Press, 2000
Szakadát I. – Szőts M – Szaszkó S (2006)
MEO Magyar Egységes Ontológia szakmai zárójelentés. Budapest, 2006-12-18. 13 p.
http://www.ontologia.hu/MEO_final.pdf [letöltve: 2013. április 3.]
Szakadát I. (2007)
Egyben az egész egytől egyig. Budapest, Typotex, 142. p.
Szeredi P. – Lukácsy G. – Benkő T. (2005)
A szemantikus világháló elmélete és gyakorlata, Budapest Typotex, 501 p.
Theodoridou, M. – Doerr, M. (1998)
Classifying historical documents Paper Proposal for “Applications of IT to Biblical Studies”,
Summer School, Sofia 25 July - 8 August 1998
http://www.ics.forth.gr/isl/publications/paperlink/CHD/html/chd.w6.html [letöltve: 2013.
február 21.]
Tóth M. (2008)
Tématérképek a könyvtárosképzésben = Tudományos és műszaki tájékoztatás (55. köt.) 6. sz.
251-269. p. http://tmt.omikk.bme.hu/show_news.html?id=4916&issue_id=494 [letöltve:
2013. március 20.]
Tramullas, J. – Garrido, P. (2006)
Constructing Web subject gateways using Dublin Core, The Resource Description Framework
and Topic Maps = Information Research, 2006. (11. köt.) 2. sz. http://informationr.net/ir/11-
2/paper248.html [letöltve: 2013. február 23.]
Ungváry R. (2004)
Tezaurusz és ontológia, avagy a fogalmi ismertetőjegyek generikus öröklődésének
formalizálása = Tudományos és Műszaki Tájékoztatás (51. köt.) 5. sz. 175-191. p.
http://tmt.omikk.bme.hu/show_news.html?id=3615&issue_id=450 [letöltve: 2013. március
25.]
Ungváry Rudolf – Vajda Erik (s.a.)
Könyvtári Információkeresés. Budapest, Typotex
http://www.tankonyvtar.hu/hu/bongeszes/konyvek/altalanos/konyvtartudomany [letöltve:
2013. április 14.]
Varga K. (2012)
Osztályozási rendszerek és információkereső nyelvek. Pécs, PTE-FEEK [kézirat]
Vickery, B. C. (1997)
Ontologies = Journal of Information Science (23. köt.) 4. sz. 277–286. p.
Völkel, M. – Krötzsch, M. – Vrandecic, D. – Haller, H. – Studer, R. (2006)
Semantic Wikipedia = www2006 Proceedings,The 15th International World Wide Web
Conference, Edinburgh, Scotland http://www2006.org/programme/files/pdf/4039.pdf
[letöltve: 2013. április 11.]
top related