alternatív információkezelés a nava-ban
Post on 18-Mar-2016
60 Views
Preview:
DESCRIPTION
TRANSCRIPT
1TV2007, 2007 május 2-3.
1
Alternatív információkezelés Alternatív információkezelés a NAVA-bana NAVA-ban
Knapp Gábor, NAVA
(Strukturált dokumentumok rendszerén alapuló információkezelés, mint (Strukturált dokumentumok rendszerén alapuló információkezelés, mint alternatíva, a Nemzeti Audiovizuális Archívumban)alternatíva, a Nemzeti Audiovizuális Archívumban)
2TV2007, 2007 május 2-3.
2
A NAVA „másik” feladata
• Egyik: Kötelespéldány archívum (sugárzott rádió és tv)– Egységes, állandó séma– Folyamatos tervezett gyarapodás, realtime (meta/media)– Tervezett munkafolyamat (realtime, de pufferelt)– Nagy mennyiség (kb. 100.000 rekord/év)– Törvény által szabályozott hozzáférés
• Másik: Önkéntes archívum– Sokféle, változatos, időben is változékony séma– Eseti feladatok (ritkán, de persze azonnal kell minden…)– Egyedi bevételezési megoldások– Egyedi metaadat források: papír/doc/xml/xls/html/txt– Egyedi média források: dvd/svhs/betasp/digitbeta/mpeg4/mpeg2– Kevés rekord (gyűjteményenként <1000)
3TV2007, 2007 május 2-3.
3
Jelenlegi különgyűjtemények
+ MTV archívum (Híradók, Öveges stb.)
4TV2007, 2007 május 2-3.
4
Demo
• http://nava.hu/test/kulon.htm• http://mnfa.nava.hu
5TV2007, 2007 május 2-3.
5
Közös követelmények
(Ha már bent vannak a gyűjtemények…)• A kötelespéldánynál már megvalósult funkciók:
– Böngészhetőség (idő szerint: RTV részletes…)– Kereshetőség (mezők szerint, olykor szabadszavasan)– OAI-PMH protokoll szerinti lekérdezhetőség (DC, NDA)– Szabályozott hozzáférés (kijátszás, metaadat bevitel)
• További funkciók:– Más böngészési elvek (pl. tag-felhő)– Más kijátszási formátumok (pl. mpeg4/avc, flash)– Kiterjesztés a többnyelvűség felé (VideoActive)– Felhasználói közreműködés (upload, annotálás, P2P-Fusion)– Egyedi szabályok szerinti hozzáférés
6TV2007, 2007 május 2-3.
6
Fejlesztési cél, 2007 október
• Tájékoztató kidolgozása különgyűjteményekhez– Mit tudunk ajánlani, milyen erőforrások árán– Mennyi idő, mennyi tárhely, mekkora sávszélesség, hány/milyen
ember, -> azaz: mennyi pénz…
• Szabályozott, dokumentált munkafolyamat kidolgozása különgyűjteményekhez– Bevételezési technológia összeállítása (meta/média)– Konvertálási lehetőségek/technikák, tárhely biztosítása– Időzítés, erőforrás becslés
• Új alkalmazás (csoport) készítése, amely megvalósítja a Új alkalmazás (csoport) készítése, amely megvalósítja a közös követelményeketközös követelményeket – A kötelespéldánynál működő funkciók megvalósítása– Az új funkciók kísérleti megvalósítása, majd tesztelése
7TV2007, 2007 május 2-3.
7
Miért nem a jelenlegi alkalmazás?
• Feladat– Mind a munkafolyamat, mind az adatok, mind a célközönség
szempontjából új feladatok
• Biztonság– A „gyár”-nak működnie kell, egy ilyen fejlesztés gyerekbetegségei
megengedhetetlen kockázatot jelentenének– A NAVA-ba minden művelet nagyon leterheli a szervereket, es
nagyon sokáig tart…
• Technológia– A fejlesztés egyben kísérlet arra, hogy a web 2.0 technológia által
kínált lehetőségek hogy alkalmazhatók– A tapasztalatok alapján beláthatatlanul hosszú fejlesztési idő– A felvázolt többlet funkciók annyira eltérnek, hogy célszerű újat
kezdeni
8TV2007, 2007 május 2-3.
8
Fejlesztés 1: Bejátszás, Transzkódolás, Kijátszás
• Bejátszás– a bevételi lehetőségek, a szoftverek paramétereinek,
vezetékezés, eszközök dokumentálása, – lehetőség szerint állandóan rendelkezésre álló, összeállított
eszközpark létesítése– felhasználói és/vagy automata upload (P2P-Fusion)
• Transzkódolás, kulcskép generálás– Jelenleg: MPEG2 TS, RealVideo/Audio– Terv: MPEG4/AVC (pl. P2P-Fusion követelmény)
• Kijátszás (szabályozott)– Jelenleg: real stream – Terv: download, mélylink/beágyazhatóság (vízjelezés?)– Terv: Flash + MPEG-4
9TV2007, 2007 május 2-3.
9
Fejlesztés 2: Meta séma kialakítása
• Séma minimális követelmények– DC elvek, az azonosításhoz szükséges DC mezők– XML/XSD formátum, XSLT
• Séma felderítése, definiálása (gyűjteményenként)– Kapott metaadatok alapján– Kapott dokumentumok alapján– Belső struktúra, dokumentumok közötti kapcsolatok– Formális sémadefiníció (XSD)
• Séma megjelenítésének tervezése (CSS, XSLT-k)– Rövid lista tartalma, részletes lista tartalma– Védett (nem megjeleníthető) mezők– OAI-PMH exportok, RSS
10TV2007, 2007 május 2-3.
10
Fejlesztés 3: Meta sémák összehangolása
(Talán a legnehezebb feladat…)
• Mezők összekapcsolása (több-> egy, egy-> több)– Pl. nevek különböző reprezentációja
• Szótárak összekapcsolása– Pl. különböző műfaji kategorizálás– Felsőbb szintű tezaurusz/ontológia? (VideoActive)
• Megfeleltetés adatcsere formátumoknak– Pl. DC, DC.Culture
11TV2007, 2007 május 2-3.
11
Fejlesztés 4: Hozzáférés vezérlés
• Kötelespéldány archívum: – Archivátori alkalmazás: Tábla/Csoport szinten szabályozott– Kereső alkalmazás:
• kereshet (internet)• kereshet, és elmentheti a találatokat (regisztrált)• Kereshet, lejátszhat (navapont)• Kereshet, elmenthet, lejátszhat (regisztrált + nava pont)
• Tervezett különgyűjteményeknél:– Mező/Felhasználó szintű, ACL alapú szabályozás
• Felhasználói annotáció, rangsorolás
– Az audio/videó állománynál• Idő/tér korlátozott hozzáférés• Megtekintés/letöltés (ingyen/pénzért)• Csak demo részletek• Authentikáció jobb megoldása
12TV2007, 2007 május 2-3.
12
Fejlesztés 5: Keresés/Böngészés
• Keresés– Szabadszavas keresés a tartalomban– A találati lista rendezése mezők/gyűjtemények/relevancia szerint– Rendezés felsőbb szemantikai szint szerint (pl. ember)– Finomított keresés találati listában– Keresés kiterjesztése túl kevés találat esetén (ontológia)– Találatok csoportosítása túl sok találat esetén (ontológia)
• Böngészés– Gyűjteményenként valószínűleg specifikus– Tag- felhő alapján (automata klaszterezés)
• OAI-PMH export– A rendszer nyitott, mindenki csinálhat saját keresőt is…
13TV2007, 2007 május 2-3.
13
Távlati cél, 2008…
• Hipotézis 1:– Az alkalmazandó, web-re kidolgozott „szabad szavas indexelő”,
illetve félstrukturált dokumentum alapú megoldások nagyszámú dokumentum esetén is legalább olyan hatékonyak, mint a relációs adatbázis alapúak
– Tehát, mivel az új alkalmazás szempontjából a kötelespéldány archívum „csak egy eset”, így érdemes kipróbálni az új alkalmazás hatékonyságát több százezer rekordra, és ha beválik…
• Hipotézis 2:– Az új technológia felhasználói interfészében is új, népszerűbb
lehet a felhasználók körében (lásd YouTube), könnyebb hozzá oktatatási stb célú speciális API-kat illeszteni
– A felhasználói interakció gazdagíthatja a nehezen annotálható tartalmat (pl. 1988-as TV híradók)
14TV2007, 2007 május 2-3.
14
Köszönöm a figyelmet!Köszönöm a figyelmet!(Jó étvágyat!)(Jó étvágyat!)
Knapp Gábor, knapp@nava.hu
www.nava.huwww.nava.hukereso.nava.hukereso.nava.humnfa.nava.humnfa.nava.hu
top related