báze anl full v systému topic inforum praha, 22. května 2002
DESCRIPTION
Báze ANL FULL v systému TOPIC Inforum Praha, 22. května 2002. Ivana Anděrová, NKČR Ivo Mattern, Anopress Josef Kučera, Anopress Oddělení analytického zpracování NKČR Anopress. závažnost významnost důležitost adekvátnost. závažný významný důležitý adekvátní, odpovídající. - PowerPoint PPT PresentationTRANSCRIPT
Báze ANL FULL v systému TOPIC
Inforum
Praha, 22. května 2002
Ivana Anděrová, NKČRIvo Mattern, AnopressJosef Kučera, Anopress
Oddělení analytického zpracování NKČR
Anopress
Relevance - relevantní
• závažnost• významnost• důležitost• adekvátnost
• závažný• významný• důležitý• adekvátní,
odpovídající
Pertinence - pertinentní
• příslušnost• potřebnost• využitelnost
• příslušný• potřebný• využitelný
Relevance, pertinence?
• relevance je určitý stupeň shody mezi entitami, oblastmi, prvky, jevy
• může být formální a obsahová• má relativní charakter v závislosti na
čase a místě• relevance odpovídající konkrétní potřebě
koncového uživatele se nazývá pertinence
Komunikační proces - komplexní pohled na
relevanci• relevance systému tvorby a potřeby
informací
• relevance informačního systému vzhledem k jeho funkci a postavení v komunikačním procesu
• relevance z hlediska funkcí a procesů probíhajících v informačním systému
Relevance a vyhledávání
• relevance vyhledávání je závislá na poměru mezi úplností a přesností vyhledávání
• úplnost výsledku vyhledávání (recall) - poměr mezi nalezenými dokumenty a všemi relevantními dokumenty v databázi
• přesnost výsledku vyhledávání (precision) - poměr mezi nalezenými relevantními dokumenty a mezi všemi nalezenými dokumenty
• úplnost a přesnost vyhledávání se měří koeficientem úplnosti a přesnosti
• optimálně: hodnota koeficientu přesnosti a úplnosti se rovná jedné
Selekční jazyk, zpracování a vyhledávání
• selekční jazyk je nástroj určený k formulaci identifikačních a obsahových údajů o dokumentu (selekčního obrazu) a k formulaci dotazu uživatele (selekčního předpisu)
• kvalita vyhledávání závisí na tom, do jaké míry selekční jazyk odráží a vystihuje obsah a strukturu dokumentu a dotazu
• kvalita výsledku vyhledávání je určena mírou shody selekčního obrazu a selekčního předpisu a do jaké míry vyhovuje uživatelově informační potřebě
Sémiotika – tři úrovně sdělování a jazyka
• syntaktická úroveň (formální přenos zpráv, elementy jazyka a jejich vzájemné vazby, formální uspořádání)
• sémantická úroveň (přenos zpráv z hlediska obsahu, vztah elementů k mimojazykovým entitám, vztah mezi znaky a objekty)
• pragmatická úroveň (soustavy, mezi nimiž dochází ke komunikaci - účinky komunikace na vysílajícího a příjemce)
Richardsonův trojúhelník reference – znázornění
znakové situace
Richardsonův trojúhelník reference – znázornění
znakové situace
symbol
symbolizuje
reference (myšlenka)
vztahuje se k
referent (denotát, věc)
vložený vztah prostřednictvím myšlení
Richardsonův trojúhelník - aplikace na selekční jazyk
syntaktická úroveň -pravidla psaní
a řazení deskriptorů
sémantická úroveň - věcný obsah deskriptorů
pragmatická úroveň - užití deskriptorů ve sdělení
Tři úrovně analýzy relevance z hlediska poskytnuté
informace• formální relevance (formální vztah poskytnuté
informace k obsahu dotazu) - vztah syntaxe• věcná relevance ( vztah obsahu poskytnuté
informace k obsahu dotazu) - sémantický vztah • pertinence (vztah poskytnuté informace k
informační potřebě) - pragmatický charakter
Trojúhelník reference a tři úrovně analýzy relevance
formální relevance
věcná relevance
pertinence
Vztah relevance (formální, věcné) a pertinence
pertinence
relevancerelevance=pertinence
Vztah množin formálně, věcně relevantních a pertinentních
dokumentů a informačního fondu
informační fond
formálně relevantní nalezené dokumenty
dotaz
věcně relevantní dokumenty
pertinentní dokumenty
nalezené pertinentní dokumenty
Efektivnost informačního systému - kritéria
• ekonomická efektivnost (zisk, náklady, rentabilita)
• selekční efektivnost (vyhledání a poskytnutí relevantních, resp. pertinentních informací)
• flexibilita (kritéria časová a schopnost přizpůsobit se změnám)
Zpřístupnění českých plných textů a některé projekty
• Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (VaV, MKČR, 1999-2003)
• Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat (VaV, MKČR, 2000-2004)
Rámec zpřístupnění plných textů a ANL FULL
• zdroje plných textů• získávání plných textů• zpracování záznamů a plných textů• identifikace plných textů• propojení záznamů s plnými texty• uložení plných textů• vyhledání a zpřístupnění plných textů• výstupy • uživatelé• služby a platby
Zpracování článků v ČR. KOSABI. Báze ANL. Báze
ANL FULL• zpracování článků v ČR - rozsáhlé co do zdrojů i
typů institucí• Kooperační systém článkové bibliografie - „užší“ a
„širší“• kooperace po linii regionální a oborové • souborná bibliografická databáze KOSABI - ANL
a lokální databáze spolupracujících institucí, plnotextová báze ANL FULL s metadaty
ANL souborná
bibliografická
lokální
lokální
lokální
ANL FULLplnotextová,
metadata
lokální
lokální
KOSABI
Obsah báze ANL, ANL FULL (duben 2002)
• počet : ANL 710 000 bibliografických záznamů, ANL FULL 92 000 plných textů s metadaty
• počet zpracovávaných titulů: ANL 210 v NKČR, 469 ve spolupracujících institucích; ANL FULL 30 titulů, běžně zpracovávaných zatím 14
• časové pokrytí: ANL 1990/91 -, ANL FULL 1997-
Charakteristika obou bází• výběrové článkové databáze• obory: všechny (lékařství a sport okrajově, technika
posílila)• typy seriálů (časopisy, sborníky, ročenky vydávané
AVČR, vysokými školami aj. institucemi, noviny a kulturně politické časopisy, populárně-naučné časopisy omezeně)
• úplnost excerpce (výběr článků vzhledem k typům seriálů)
• typy článků (faktograficky přínosné, odborné, s dokumentární a uměleckou hodnotou, recenze, biografické články, akce, rozhovory, komentáře..)
• popis (UNIMARC, AACR2, MDT-MRF, předmětové kategorie, hesla, klíčová slova)
Srovnání bází ANL a ANL FULL• ANL zpracovávána v sytému ALEPH+lince
zpracování TTDE a zpřístupněna v ALEPHu, ANL FULL vzniká v lince zpracování TTDE a zpřístupněna v systému TOPIC
• ANL obsahuje bibliografické záznamy, ANL FULL plné texty s metadaty
• ANL obsahuje všechny typy stanovených seriálů • ANL FULL obsahuje zatím deníky a některé časopisy• záznamy ANL jsou propojeny s plnými texty ANL
FULL, ANL FULL doplňuje ANL • ANL FULL je doplněna portálem volně přístupných
textů na internetu a samostatnou aplikací pro zpřístupnění periodika Národní knihovna
• ANL propojena na vybrané volně přístupné www tituly
Zpracování v ALEPHu a v rámci linky zpracování TTDE v NKČR,
zpracování v KOSABI
• báze ANL - přírůstek NKČR - 3266 záznamů / měsíc / 11 úvazků / jmenný a věcný popis, z toho:
• zpracování v ALEPHu - 1689 záznamů / měsíc / 7,5 úvazku - jmenný a věcný popis ručně, linka zpracování TTDE - 1577 záznamů / měsíc / 3,5 úvazku - jmenný popis extrahován a generován automaticky, věcný popis ručně
• zpracování v ALEPHu - 11 záznamů / úvazek /den, zpracování v TTDE - 21 záznamů / úvazek /den
• báze ANL - přírůstek z kooperujících institucí:1000 záznamů / měsíc
Báze ANL FULL. Architektura systému
zpracování a zpřístupnění plných textů
• v současné době ANL FULL vzniká on-line v rámci linky zpracování TTDE bibliografických záznamů, resp. metadat z plných textů, které jsou získávány z databáze Tam Tam (Anopress)
• plné texty získány též v rámci konzorcia Anopress, retrospektiva - nákup
• báze je provozována v systému TOPIC
TamTamTTSNK
Lokální pracovní
stanice - TTDE
server – TOPIC,
DELL, Win NT
Aplikační,datový
Internet Information
Server
OPACWeb serverALEPH
Linka zpracování, lokální stanice
Tam Tam Data Extractor
F orm u lá ř U N IM A R C -A U N IM A R C D u b lin C ore Z ob razovac íh lavičk a
In d exovac íh lavičk a
V ý s tu pH TM L +
U N IM A R Cp ro A L E P H
T T DEextrak c e d a t
g en erová n í d a ted itová n í d a t
TamTamdokumenty
TTSNK
Linka zpracování. Výstupy pro ANL/ALEPH a ANL
FULL/TOPIC v praxi
Systém TOPIC - principy Produkt americké firmy Verity, v současné verzi Portal One.V ČR TOPIC a další produkty založené na stejné technologii dodává firma TOVEK, s.r.o.
• fulltextový pojmově orientovaný vyhledávací systém, pojmové vyhledávání (concept retrieval) pomocí strukturovaných dotazů (topiců)
• hodnocení důležitosti vyhledaných dokumentů vzhledem k dotazu (relevance ranking)
• kvantifikace obsahu dokumentů
• shlukování dokumentů podle společného kontextu (clustering) a vytváření automatické anotace - sumarizace (summarization)
• interaktivní vyhledávací systém – hledání dokumentů s podobným obsahem - volný dotaz (Free Text Query), dotaz příkladem (Query By Example)
TOPIC a relevance
• relevance je důležitost vyhledaného dokumentu vzhledem k dotazu, vyjadřujeme ji pomocí skóre dokumentu
• skóre je číslo mezi 0-100 (%), = relevance dokumentu, výpočet provádí TOPIC
Topic=dotaz• dotaz - výraz složený ze slov a frází, který hledáme v dané
databázi• topic - je předem definovaný uložený strukturovaný
dotaz, resp. téma, které je tvořeno slovy, frázemi, operátory a modifikátory; obsahuje informace o předmětu hledání
• topic má podobu pojmového stromu, na jeho nižších úrovních (větvích) jsou množiny dalších pojmů, resp. témat, která jsou tvořena dále nedělitelnými klíčovými slovy (listy)
• pojmový strom tvoří vyhledávací podmínku pro dokumenty týkající se určitého tématu
• topic je konceptuální popis znalosti o dané problematice ve formě znalostního stromu
• definice topiců tvoří tzv. znalostní bázi
Konstrukce topicu
• jednotlivé větvě topicu, resp. témata, resp. slova jsou připojena k vyšší úrovni operátory
• důležitost pojmů resp. témat, resp. slov je určena váhami
• topic se vytváří speciálním editorem • předpoklad: dobrá znalost operátorů a orientace v
dané oblasti
Topic - některé operátory, modifikátory
• listové operátory: WORD, STEM, SOUNDEX, WILDCARD, THESAURUS, SUGGEST a TYPO
• proximitní operátory: PHRASE, SENTENCE, PARAGRAPH, NEAR
• koncepční operátory: AND, OR a ACCRUE
• logické operátory: ANY a ALL
• relační operátory: rovnost `=', větší než `>', větší nebo rovno `>=', menší než `<', menší nebo rovno `<=', MATCHES, SUBSTRING, CONTAINS, STARTS, ENDS
• modifikátory (specifikují chování operátorů): MANY, CASE, NOT, ORDER
Topic - váhy• váha je číslo mezi 0-100 (%) vyjadřující důležitost
hledaného výrazu ve vztahu k dotazu
• váhy lze použít pouze u “výrazů“ připojených pomocí koncepčních operátorů (AND, OR a ACCRUE); pokud váhu neuvedeme, použije se standardní váha - pro AND a OR 1.00, pro ACCRUE 0.50
• přiřazením váhy k “výrazu“ určujeme, jak (od 0.01 do 1.00) se „výraz“ podílí na celkovém skóre daného dokumentu při výběru; změnou vah je možno změnit pořadí dokumentů v seznamu dokumentů dle skóre relevance
Fuzzy operátor ACCRUE
• ACCRUE sbližuje operátor AND a OR: “čím více různých klíčových slov nalezeno, tím je dokument důležitější“
• ACCRUE řeší dilema mezi přesností a úplností
Dotaz (X Y Z) Chci najít Najdu
(X and Y and Z) Accrue (X,Z,Y) (X or Y or Z)
Ztráta úplnosti Optimální výsledek Ztráta přesnosti
Topic - znaková situace
topic
ochránci životního prostředí,
ochrana životního prostředí,
krajina, příroda,voda, řeka,
….
Ekologie
ekologie,životní prostředí
použitá znalost,strukturovaný dotaz
obsah dotazu
popis dotazu
Konkrétní dotaz – stromová struktura
Báze ANL FULL v systému TOPIC, jak se zaregistrovat
• v současné době obsahuje výběr článků z celostátních deníků, některé kulturně politické, ekonomické tituly, periodikum Národní knihovna, okrajově některé regionální tituly, doplněna portálem volně přístupných textů na internetu (strukturovaný oborově a regionálně)
• vzniká v lince zpracování bibliografických záznamů z plných textů TTDE
• přístup: interní uživatelé NK - metadata a plné texty, externí uživatele - metadata, plné texty zkušebně na 7 dnů
Jak vyhledávat. Druhy dotazů. Třídění a zobrazení
výsledků vyhledávání• čtyři způsoby hledání: pole
dotaz, pomocí formulářů, pomocí topiců, resp. témat (předem strukturovaných dotazů), pomocí rejstříků
• tři druhy dotazů: prostý dotaz, formulářový dotaz, tematický dotaz
• tři druhy formulářů: základní, rozšířený, rozšířený s tématy
• seznam výsledků: jednoduchý, se souhrnem, seskupený
• třídění seznamu: skóre, výsl./str., vlastní třídění
• zobrazení metadat: uživatelské formáty, pracovní formáty
• rejstříky - nadefinováno 17 rejstříků
Další možný vývoj prezentovaného systému ?
• Marc 21• zvážení možnosti a
efektivnosti spojení automatické sklizně dat a linky zpracování
• automatická indexace věcná - do jaké míry je možná
• předpoklad automatické indexace věcné - existence homogenního nástroje
• napojení na autority• budování digitální knihovny
na základě propojování citací u odborných článků
• řešení legislativně právních otázek a otázek plateb (jasné oddělení textů poskytovaných zdarma a za úplatu)
• rozšíření linky zpracování na další instituce a aplikace moderních metod zpracování a zpřístupnění na KOSABI
• orientace na další typy seriálových publikací
• pro externí uživatele zpřístupnění báze v rámci konzorcia Anopress, resp. celostátní licence
Spolupráce s nakladateli a vydavateli
• začlenění linky zpracování do předpokládaného možného vývoje
• předpoklad: strukturované údaje, resp. údaje Dublin Core v textových formátech, resp. HTML formátu
Dublin Core (výběr)
Název (Title)
Tvůrce (Creator)
Zdroj / Vztah (Source/Relation) - tj. název zdroje,
roč., číslo, datum, strany
Nakladatel (Publisher)
Předmět (Subject) - klíčová slova nebo hesla nebo výrazy tezauru
Popis (Description) ve formě abstraktu
Práva (Rights)
Identifikátor (Identifier)
Strukturovaný text#NAZ#Název článku#/NAZ#
#ATR#Hlavní autor#/ATR#
#AT2#Další autor#/AT2#
#ZDR#Název zdroje#/ZDR#
#ROC#Ročník#/ROC#
#CIS#Číslo#/CIS#
#DAT#Datum vydání zdroje#/DAT#
#STR#Počáteční strana#/STR#
#VYD#Vydavatel#/VYD#
#KEY#klíčové slovo, klíčové slovo#/KEY#
#SUM#Abstrakt#/SUM#
#COP#Práva#/COP#
#ISN#ISSN#/ISN#
#IDE#Identifikační číslo#/IDE#
Konverze do Dublin Core v HTML
<META name="DC.Title" content="Název">
<META name="DC.Creator.personalName" content="Hlavní autor">
<META name="DC.Contributor.personalName" content="Další autor">
<META name="DC.Source" content="Název zdroje, roč. X , č. X (datum), s. X">
<META name="DC.Publisher" content="Vydavatel">
<META name="DC.Date.issued" scheme="W3C-DTF" content="Datum vydání">
<META name="DC.Subject" content="klíčové slovo">
<META name="DC.Subject" content="klíčové slovo">
<META name="DC.Description.abstract" content="Abstrakt">
<META name="DC.Rights" content="Práva">
<META name="DC.Source" scheme="ISSN" content="ISSN">
<META name="DC.Identifier"content="Identifikátor">
Linka automatické indexace zabudovaná do
předpokládaného možného vývoje
Stažení plných textů - TTSNK
Soubor bibliografických
záznamů pro ANL ALEPH s propojením na
plný text a báze ANL
Zpracování plných textů - TTDE
Soubor metadat a plných textů pro ANLFULL v NK na serveru FULL.NKP.CZ
Vyhledávání a zobrazení záznamů s
propojením na plný text v
ALEPHu - báze ANL
Vyhledávání, zobrazení
metadat a plných textů - báze ANL
FULL v NK na serveru
FULL.NKP.CZ
Export metadat,
plných textů
Soubor metadat (plných textů) pro prostor mezi NK aj.
inst. (nakladatelství, vydavatelství, inf.
agentury aj.)
Majitel plného
textu/vlastník autorských
práv (nakladatel, vydavatel,
inf. agentura aj.)
Závěr – předpoklady poskytování relevantních,
resp. pertinentních informací• strukturovat nestrukturované informace a
užívat takových vyhledávacích systémů, které mají kvalitní nástroje k uchopení nestrukturovaných plných textů, protože tyto ve velké míře převažují
• propojovat věcný selekční jazyk se systematickou notací, zapojovat autority, aplikace pojmového vyhledávání
• interakce mezi uživatelem, informačním pracovníkem a informačním systémem
Použitá literatura
1. ANDĚROVÁ, I. Kooperační sytém článkové bibliografie a propojení analytických záznamů s plnými texty - východiska a současný stav. Národní knihovna : knihovnická revue. 2001, roč. 12, č. 1, s. 26-37. Též dostupný z: <http://full.nkp.cz/nkdb/index.html>.
2. CÍGLER, I., Königová, M., Lukavec, P., Vacek, V. Hodnocení efektivnosti informačních systémů. Systémová analýza v informatice. ČVTS, 1974. S. 98-115.
3. HOUDEK, Aleš. Způsoby hodnocení relevance vyhledaných dokuemntů ve vyhledávacích strojích. Ikaros [online]. 2000, č. 1 [ cit. 2000-01-05]. Dostupný z: < http://ikaros.ff.cuni.cz/ikaros/2000/c01/isko/a_houdek.htm>.
4. JONÁK, Z.. Inteligence systémů zpracování textů. Ikaros [online]. 2000, č. 1 [cit. 2000-01-05]. Dostupný z: <http://ikaros.ff.cuni.cz/ikaros/2000/c01/isko/z_jonak.htm>.
5. JONÁK, Z. Reflektuje teorie informace a komunikace dostatečně na zvýšený zájem společenských věd o semiotické a komunikační aspekty života? Ikaros [online]. 1999, č. 3 [cit. 1999-03-01]. Dostupný z: <http://ikaros.ff.cuni.cz/ikaros/1999/c03/veda2.htm>.
6. KOSEK, J.-ŠIMŮNEK, M. Systém TOPIC verze 4.0. Příručka uživatele. Praha :VŠE, 1996. 63 s.
7. PAPÍK, R. Trendy v rozvoji informačních služeb. Ikaros [online]. 1999, č. 8 [cit. 1999-09-01]. Dostupný z: <http://ikaros.ff.cuni.cz/ikaros/1999/c08/usti/usti_papil.htm>.
8. SARACEVIC, T. The concept of relevance in information science : a historical review. Introduction to Information Science. New York : Academic Press, 1976. S. 79-137.
9. ŠKRNA, Jindřich. Interaktivní vyhledávání informací. Národní knihovna : knihovnická revue. 2002, roč. 13, č. 1, s.7-19.
10. Topic : systém pro inteligentní vyhledávání dokumentů. Praha : Tovek, 19?.
11. VEJLUPEK, T. SPEIS - koncept jednotného využívání a jednotné nabídky informačních zdrojů a informačních služeb od různých poskytovatelů. Praha , 2001. 18 s.
12. ZEMANOVÁ, I. Problematika relevance a pertinence. Vývoj a současný stav. Diplomová práce.Praha : FFUK, 1977. 164 s.
Informace prezentované v článku jsou přístupné na adrese http://full.nkp.cz
Ivana Anděrová, NKČR, oddělení analytického zpracování
Ivo Mattern, Anopress