Transcript
Page 1: Magyar Internet Archívum pilot és elemzés

Magyar Internet Archívum pilot és elemzés

Gulyás LászlóELTE

2014. április 14.

Page 2: Magyar Internet Archívum pilot és elemzés
Page 3: Magyar Internet Archívum pilot és elemzés

Munkacsapat

•Bálint Balázs, MSc, Pálmai Attila, BSc•Jurányi Zsolt, BSc, PetaByte Nonprofit Kft.•Keszthelyi Gabriella, ELTE PhD hallg.•Kampis György, ELTE egy.tan.•Gulyás László, ELTE adj.

Page 4: Magyar Internet Archívum pilot és elemzés

MIA – Mi ez?•Az Internet Archívum (Internet Archive) egy internetkönyvtár, célja, hogy hozzáférést adjon a kutatóknak egy digitális formában létező történelmi gyűjteményhez.•Magyar Internet Archívum (MIA):magyar akadémiai site-ok archiválása

– a NIIF tagintézmények (http://www.niif.hu/tagok/...),

– az MTA intézetei (http://mta.hu/mta_kutatointezetei),

– valamint a magyarországi egyetemek és főiskolák (Hungarian Science intézmények)

•Jelenleg mintegy 400 kulcsonfontosságú website van folyamatosan letöltve, archiválva.

Page 5: Magyar Internet Archívum pilot és elemzés

Pilot•Feladat: az Internet Archívum az egész internetet bejárva egy indexelt és archivált másolatot hivatott létrehozni. A Magyar Internet Archivum a .hu domain tartalmaira összpontosít•Nehézségek: tartalomkezelő rendszerek mögötti adatok, belső linkek inkonzisztens kezelése sokhelyütt, illetve egyéb, közvetlen odafigyelést és adattisztítást igénylő tényezők.•Megoldás: ezek kezelésére különböző nemzeti archívumok jöttek létre, a magyar változat (egyik?) pilotja a mi műhelyünkben készül, számos innovatív (illetve kényszer szülte) saját hozzájárulással.

Page 6: Magyar Internet Archívum pilot és elemzés

Eszközök és módszerek•Más nemzeti archívumok által használt módszerek átvétele/módosítása (köztük a British Library internet archiváló programja és segédprogramjai).•Szoftver: Heritrix crawler (módosított, speciálisan céljainkra továbbfejlesztett).•Hardver: Dell T710 server (2x4 core Xeon E5520, 48GB RAM, 2TB HDD)•Longitudinális archiválás mirror-formátumban, két hetes letöltési periódussal.

Page 7: Magyar Internet Archívum pilot és elemzés

Adatok

•Az MTA kutatóintézetei anyagának teljes másolata 33GB, ebből a különböző szöveges formátumok (html, doc, docx, rtf, pdf, ps) 6,5GB. Az egyetemek és főiskolák anyaga 53GB, ebből szöveg: 36GB.•Átlagos méret: 974 MB per oldal (medián: 137 MB)•Átlagos szövegméret: 474 MB per oldal (medián: 47 MB)•Az adatok eloszlása „nagyjából” a hatványtörvényt követi (de legalábbis erősen ferde eloszlású)

Page 8: Magyar Internet Archívum pilot és elemzés

Összes adat rang-eloszlása

Page 9: Magyar Internet Archívum pilot és elemzés

Szöveges adatok rang-eloszlása

Page 10: Magyar Internet Archívum pilot és elemzés

Példányszámok alakulása

Page 11: Magyar Internet Archívum pilot és elemzés

Példányszámok alakulása

Page 12: Magyar Internet Archívum pilot és elemzés

Tárigény alakulása

Page 13: Magyar Internet Archívum pilot és elemzés

Tárigény alakulása

Page 14: Magyar Internet Archívum pilot és elemzés

Tartalmi elemzések

• A rendelkezésünkre álló adatokból automatikus elemzéseket is végzünk– A „közbeszéd” megragadása– Mit kommunikálnak magukról az egyetemek és a

kutató intézetek?

Page 15: Magyar Internet Archívum pilot és elemzés

Tartalmi elemzések: Szófelhők

Page 16: Magyar Internet Archívum pilot és elemzés

Tartalmi elemzések: Trendek

Page 17: Magyar Internet Archívum pilot és elemzés

Tartalmi elemzések: Trendek

Page 18: Magyar Internet Archívum pilot és elemzés

Tartalmi elemzések: Trendek

Page 19: Magyar Internet Archívum pilot és elemzés

Tartalmi elemzések: Trendek

Page 20: Magyar Internet Archívum pilot és elemzés

Tartalmi elemzések: Trendek

Page 21: Magyar Internet Archívum pilot és elemzés

Tartalmi elemzések: Site-ok

Page 22: Magyar Internet Archívum pilot és elemzés

Köszönöm a figyelmet!

Page 23: Magyar Internet Archívum pilot és elemzés

Példányszámok és tárigények részletesebben

Page 24: Magyar Internet Archívum pilot és elemzés

Példányszámok alakulása

Page 25: Magyar Internet Archívum pilot és elemzés

Példányszámok alakulása

Page 26: Magyar Internet Archívum pilot és elemzés

Példányszámok alakulása

Page 27: Magyar Internet Archívum pilot és elemzés

Példányszámok alakulása

Page 28: Magyar Internet Archívum pilot és elemzés

Tárigény alakulása

Page 29: Magyar Internet Archívum pilot és elemzés

Tárigény alakulása

Page 30: Magyar Internet Archívum pilot és elemzés

Tárigény alakulása

Page 31: Magyar Internet Archívum pilot és elemzés

Tárigény alakulása


Top Related