a magyar nemzeti szövegtár
DESCRIPTION
A Magyar Nemzeti Szövegtár. Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály [email protected]. Tartalom. Rövid jellemzés Kiknek készült? Nemzetközi előzmények Összetétele Mitől „nemzeti”? Hogyan készült? Hogy néz ki belülről? Hogyan használható? Intelligens keresés - PowerPoint PPT PresentationTRANSCRIPT
Magyar Nemzeti Szövegtár
A Magyar Nemzeti Szövegtár
Váradi TamásMTA Nyelvtudományi Intézet
Korpusznyelvészeti Osztá[email protected]
Magyar Nemzeti Szövegtár
Rövid jellemzésKiknek készült?Nemzetközi előzményekÖsszetételeMitől „nemzeti”?Hogyan készült?Hogy néz ki belülről?Hogyan használható?Intelligens keresésHogyan tovább?
Tartalom
Magyar Nemzeti Szövegtár
Rövid jellemzésAz írott nyelvhasználat hiteles tükre150 millió szavas reprezentatív mintaVálogatott szövegek, egységesen kódolva
nyelvhasználatunk keresztmetszeteválogatás nem ‘érdem’ alapján
Intelligens korpusznyelvtanilag elemzett és egyértelműsítettlekérdezés nyelvtani jellemző szerint is
Magyar Nemzeti Szövegtár
Kiknek készült?Nyelvészeknek, szótárszerkesztőknekpontos, számszerűsíthető kép napjaink írott
magyar nyelvhasználatárólSzámítógépes nyelvészeknekértékes forrás számítógépes alkalmazások
számáraTársadalomtudósoknak, a magyar kultúra kutatóinaka nyelvhasználatban kódolt finom „üzenetek”
Magyar Nemzeti Szövegtár
Nemzetközi előzmények60-as évek: BROWN, LOB korpusz1 millió szavas gondos összeállítás80-as évek: COBUILD szótár20 m 450 m szó Bank of English90-es évek: British National Corpus100m szó, 10 m szó beszélt nyelvből90-évektől: nemzeti korpuszokCseh, szlovén, német, francia, USA, ausztrál stb.
Magyar Nemzeti Szövegtár
Az MNSZ összetételeNyelvi változat m. szó Forrás
Sajtó 75 online kiadás
Szépirodalom 15 Digitális Irod. Akadémia
Tudományos próza 20Magyar
Elektronikus Könyvtár
Hivatali nyelv 20Minisztérium, önkormányza
t
Személyes közlés 20 Index.hu Törzsasztal
Összesen: 150
Magyar Nemzeti Szövegtár
Mitől „nemzeti”?Mérete szerint
egyedülálló vállalkozásTartalma szerint
nem csak az „írástudó elit” nyelvezetenem csak budapesti nyelvhasználathatáron túli nyelvhasználat is
Kárpát-medencei Magyar Korpuszelőkészületben az MNSZ alapján
Magyar Nemzeti Szövegtár
Hogyan készült?Elektronikus forrásokElőfeldolgozásNyelvtani elemzésEgyértelműsítésÖsszefűzés, indexálásLekérdező szoftver1998 – 2000 között OTKA támogatás2002-2003 SZT-IS-7 pályázat
Magyar Nemzeti Szövegtár
<!-- HVG ./0116/0116009.htm --><div type="article" column="unspec"><opener><dateline><w lemma="HVG" msd="N.NOM" ctag="NS3NN">HVG</w><w lemma="2001/16" msd="DIG" ctag="Q">2001/16</w><c lemma="." msd="SPUNCT" ctag="SPUNCT">.</c><w lemma="szám" msd="N.NOM" ctag="NS3NN">szám</w><date iso8601="04-21-2001"><w lemma="2001._április_21." msd="DATUM" ctag="DATUM">2001._április_21.</w> </date></dateline></opener><head rend="IT" type="unspec"><s><w lemma="egészségügyi" msd="A.NOM" ctag="AS_A">Egészségügyi</w><w lemma="szigorítás" msd="N.PL.NOM" ctag="NP3NN">szigorítások</w> </s></head><head><s><w lemma="sok" msd="Num.NOM" ctag="Q">Sok</w><w lemma="zseb" msd="N.ELA" ctag="NS3NE">zsebből</w><w lemma="vérzik" msd="V.e3" ctag="VS3RI">vérzik</w> </s></head><head rend="BO" type="display"><s>
Annotált korpusz - részlet belülről
Hogy néz ki belülről?
Magyar Nemzeti Szövegtár
Hogyan használható? - Keresés
Magyar Nemzeti Szövegtár
Hogyan használható? - Találatok
Magyar Nemzeti Szövegtár
Intelligens keresésKeresés szófaj és nyelvtani alak alapján
pl. „az”: 656272 előfordulásnévelő és mutatószó egyaránt15542 esetben mutatószó
Két szó együttes előfordulásaállandósult szókapcsolatokigei vonzatok
Magyar Nemzeti Szövegtár
Hogyan tovább?állapotfelvétel a 90-es évek második felérőla nyelvhasználat dokumentálása
újabb és újabb állapotfelvételélő nyelvtörténet
minden eddiginél pontosabb adatokkal
Magyar Nemzeti Szövegtár
Magyar Nemzeti Szövegtár
http://corpus.nytud.hu/mnsz