szófelhő és ontológia generálás...
TRANSCRIPT
Szófelhő és ontológia generálás szövegbányászathoz
Gáspár László Ervin
Programok, korpuszok
• Programok 1. Szófelhő 2. Adatgráf 3. Fogalmi háló – (Javascript, PHP, MySql / MIT és GNU-liszensz)
• Korpuszok 1. Politikai választási beszéd (Trump) 2. Leegyszerűsített szövegmodell (élettani
taxonómia) 3. Értekezés (Wittgenstein)
• Modellezett problémák – Jelentés – Fogalmi hierarchia
Problémafelvetés
• Négy attribútum:
1. Tartalom (elemek, szavak, címkék)
2. Címkék mérete („szógyakoriság”)
3. Elhelyezkedése
4. Színe
• A szófelhők merevsége
– Pozíciógeneráló algoritmus: csak helykitöltő
– Szín: random (látványelem)
– Címkék / Tartalom: a felhő esszenciális elemei, de
• Csak szűrt (címszó) elemekre korlátozódnak
• Nem fejeznek ki viszonyokat
Problémafelvetés
Technikailag szükségszerű: Általános és töltelékszavak, számok eltávolítása, stemmelés…
Szöveg (determinál): előzetesen strukturált szöveg, sablon, szabvány (Pl.: szócikk, életrajz)
• A „merevség” miatt a felhő nem tükrözi a korpusz „releváns képét”, nem mindig „reprezentatív”
„Hagyományos” szövegfelhő
• Korpusz: Donald Trump floridai beszéde
• Program: hagyományos online szófelhő szerkesztő
• „Make America great again”, Florida, people…
Nem standard beállítás
• Standard beállítás
– A megosztó (populista) beszédmód, az éles határ a „mi” és az „ők” között eltűnik
– Nem érzékelhető „érzelmi töltés”
– Ad hominem „személyeskedő beszédmód” +- irányban szintén eltűnik
– Az egyes szám első személy („I said”, „I know”) hangsúlyos jellege elvész
• A felhő generálás „dilemmája” :
– Vagy objektív tárgyszavazás és kevésbé reprezentatív, vagy sokkal terjengősebb, de kifejezőbb címkefelhő
– A tárgyszavak (címkék) önmagukban nem fejeznek ki viszonyokat
• Áthidaló megoldás:
– Szófajelemzés (POS), kivonatolás
– bizonyos szófajok vagy szóösszetételek megengedése / kizárása
• Megengedett: JJ, NN, NNS, NNP, NNPS
• Megengedett: JJ, RB
• Megengedett: RB, RBR, RBS, JJ, JJR, JJS
• Keresés opcionális finomítása
– Szabad szavas kizárás és elfogadás
– Stemmer algoritmus
– Szófajok megengedése és kizárása
• Szófaji csoportok szerinti elkülönítés (szín vagy elhelyezés szerint)
• http://nagyalma.hu/nlp/
A gyakoriság problémája egy leegyszerűsített élettani taxonómia felhőjén
Tiger is mammal.
Mammal is animal.
Flower is plant.
Animal is living-being.
Plant is living-being.
animal (2)
flower (1)
living-being (2)
mammal (2)
plant (2)
tiger
(1)
living-being
plant
flower
animal
mammal
tiger
Korpusz: értekezés, Program: keresőmotor és adat-gráf
• Ludwig Wittgenstein: Tractatus Logico-Philosophicus, Logikai-filozófiai értekezés (1914/16-tól, első megjelenés: 1922-23) – Logikai és holisztikus/egzisztenciális olvasat hipotézise – http://nagyalma.hu/nlp/
Korpusz: értekezés, Program: keresőmotor és adat-gráf
• A program a felsorolt fogalmak alapján kialakít egy hálózati struktúrát.
• A megrajzolt struktúra alapján elemezhetőek az érintkezési pontok…
Leben{color:
#19FFA0}
Tod{color: #820BB8}
Leben -> 5.621
{color: #19FFA0,
weight: 1}
…
Korpusz: értekezés, Program: keresőmotor és adat-gráf
élet – halál Leben – Tod
ember – isten Mensch – Gott
idő – tér Zeit – Raum
lényeg – szubsztancia Wesen – Substanz
filozófia – pszichológia Psychologie – Philosophie
meghalni – lélek sterben – Seele
rejtvény – megoldás Rätsel – Lösung
örök – jelen ewig – Gegenwart
végtelen – vég nélküli unendlich – endlos
látómező – Gesichtsfeld –
valóság – önkényes Wirklichkeit – willkührlich
lehetőség – valószínűség Möglichkeit – Wahrscheinlichkeit
sors – véletlen Schicksal – zufällig
oksági – szükségszerű(ség) Kausalnexus, Kausalität – notwendig, Notwendigkeit
természeti törvény – nem logikai Naturgesetz – unlogisch
metafizika(i) – gondolat metaph(ysisch) – Gedank
köznyelv – a nyelv „logikája” Umgangssprache – Sprachlogik
nyelv – határ Sprache – Grenze
• A megrajzolt gráfokat, az általuk megadott fogalmakat és a hozzájuk rendelt színeket, egyetlen címkefelhő elemnek tekinthetjük -> már nem szófelhő
• A gráfok adják meg a címkék pozícióját, de nem random jelleggel, hanem az egyes elemek (kulcsfogalmak) összefüggése alapján
Fejlesztés:
• A gráfok, a súlyozott élek értékét hozzá lehet rendelni az egyes fogalmakhoz
• A színekkel lehetséges az élek súlyát és két fogalom összefüggésének mértékét érzékeltetni
• A csomópontok, élek és színek számszerűsítése további mérési módszereket tesz lehetővé
• Hiányosság
– Önmagukban a gráfok sem mondanak sokat a jelentéséről. Ezt az elemzést a gráfot elemző személynek kell „kihámoznia” a struktúra alapján
– Nem tartalmaznak (ontológiai) hierarchiát, csak fogalmi viszonyokat
A jelentés problémája
• Willard van Orman Quine: Ontológiai relativitás
– A jelentés ún. „múzeumi használatá”-nak kritikája
– Címke: jelentésreprezentáló (referenciális) funkció
– Anti-referencializmus (T. Dobler) = naturalizmus (Quine)
Gráf és felhő összehasonlítása
• http://nagyalma.hu/nlp/
1. A fenti programok finomítása, fejlesztése
2. Ezek összehangolása egyetlen programban: szófelhők + hálózatok
3. Magyar nyelvű verzió készítése
4. Open Access hozzáférhetővé tétel
Köszönöm a figyelmüket!