magyar internet archívum pilot és elemzés

Post on 01-Jan-2016

31 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Magyar Internet Archívum pilot és elemzés. Gulyás László ELTE 2014. április 14. Munkacsapat. Bálint Balázs, MSc, Pálmai Attila, BSc Jurányi Zsolt, BSc, PetaByte Nonprofit Kft. Keszthelyi Gabriella, ELTE PhD hallg. Kampis György, ELTE egy.tan. Gulyás László, ELTE adj. MIA – Mi ez?. - PowerPoint PPT Presentation

TRANSCRIPT

Magyar Internet Archívum pilot és elemzés

Gulyás LászlóELTE

2014. április 14.

Munkacsapat

•Bálint Balázs, MSc, Pálmai Attila, BSc•Jurányi Zsolt, BSc, PetaByte Nonprofit Kft.•Keszthelyi Gabriella, ELTE PhD hallg.•Kampis György, ELTE egy.tan.•Gulyás László, ELTE adj.

MIA – Mi ez?•Az Internet Archívum (Internet Archive) egy internetkönyvtár, célja, hogy hozzáférést adjon a kutatóknak egy digitális formában létező történelmi gyűjteményhez.•Magyar Internet Archívum (MIA):magyar akadémiai site-ok archiválása

– a NIIF tagintézmények (http://www.niif.hu/tagok/...),

– az MTA intézetei (http://mta.hu/mta_kutatointezetei),

– valamint a magyarországi egyetemek és főiskolák (Hungarian Science intézmények)

•Jelenleg mintegy 400 kulcsonfontosságú website van folyamatosan letöltve, archiválva.

Pilot•Feladat: az Internet Archívum az egész internetet bejárva egy indexelt és archivált másolatot hivatott létrehozni. A Magyar Internet Archivum a .hu domain tartalmaira összpontosít•Nehézségek: tartalomkezelő rendszerek mögötti adatok, belső linkek inkonzisztens kezelése sokhelyütt, illetve egyéb, közvetlen odafigyelést és adattisztítást igénylő tényezők.•Megoldás: ezek kezelésére különböző nemzeti archívumok jöttek létre, a magyar változat (egyik?) pilotja a mi műhelyünkben készül, számos innovatív (illetve kényszer szülte) saját hozzájárulással.

Eszközök és módszerek•Más nemzeti archívumok által használt módszerek átvétele/módosítása (köztük a British Library internet archiváló programja és segédprogramjai).•Szoftver: Heritrix crawler (módosított, speciálisan céljainkra továbbfejlesztett).•Hardver: Dell T710 server (2x4 core Xeon E5520, 48GB RAM, 2TB HDD)•Longitudinális archiválás mirror-formátumban, két hetes letöltési periódussal.

Adatok

•Az MTA kutatóintézetei anyagának teljes másolata 33GB, ebből a különböző szöveges formátumok (html, doc, docx, rtf, pdf, ps) 6,5GB. Az egyetemek és főiskolák anyaga 53GB, ebből szöveg: 36GB.•Átlagos méret: 974 MB per oldal (medián: 137 MB)•Átlagos szövegméret: 474 MB per oldal (medián: 47 MB)•Az adatok eloszlása „nagyjából” a hatványtörvényt követi (de legalábbis erősen ferde eloszlású)

Összes adat rang-eloszlása

Szöveges adatok rang-eloszlása

Példányszámok alakulása

Példányszámok alakulása

Tárigény alakulása

Tárigény alakulása

Tartalmi elemzések

• A rendelkezésünkre álló adatokból automatikus elemzéseket is végzünk– A „közbeszéd” megragadása– Mit kommunikálnak magukról az egyetemek és a

kutató intézetek?

Tartalmi elemzések: Szófelhők

Tartalmi elemzések: Trendek

Tartalmi elemzések: Trendek

Tartalmi elemzések: Trendek

Tartalmi elemzések: Trendek

Tartalmi elemzések: Trendek

Tartalmi elemzések: Site-ok

Köszönöm a figyelmet!

Példányszámok és tárigények részletesebben

Példányszámok alakulása

Példányszámok alakulása

Példányszámok alakulása

Példányszámok alakulása

Tárigény alakulása

Tárigény alakulása

Tárigény alakulása

Tárigény alakulása

top related