diplomamunkasarizoltan.hu/sites/default/files/docs/sarizoltan_bsp.pdfhallgatói nyilatkozat...

65
NEUMANN JÁNOS INFORMATIKAI KAR DIPLOMAMUNKA OE-NIK Hallgató neve: Sári Zoltán Tamás 2016 Hallgató törzskönyvi száma: T/003978/FI12904/N

Upload: others

Post on 03-Oct-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

NEUMANN JÁNOSINFORMATIKAI KAR

DIPLOMAMUNKA

OE-NIK Hallgató neve: Sári Zoltán Tamás2016 Hallgató törzskönyvi száma: T/003978/FI12904/N

Page 2: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

Hallgatói Nyilatkozat

Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasználtszakirodalmat és eszközöket azonosíthatóan közöltem. Az elkészült diplomamunkámbantalálható eredményeket az egyetem és a feladatot kiíró intézmény saját céljára térítés nélkülfelhasználhatja.

Budapest, 2016 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .hallgató aláírása

Page 3: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

Kivonat

Az elmúlt években a KSH adatfelvételi eloírásai és a GPS koordináták rögzítésének kö-szönhetoen jelentos mértékben gyarapodott a hazai közúti baleseteket nyilvántartó adatbázis.Az értékes szakterületi adatvagyonra építve kulcsfontosságú szerepet játszik a korszeru in-formációs technológiák bevonása a balesetmegelozésbe.

A dolgozat célja, hogy a magyarországi baleseti adatbázis felhasználási lehetoségeihezigazodó módszer implementálásával gyarapítsa a hazai balesetmegelozés informatikai esz-köztárát.

A dolgozat eloször áttekinti az elmúlt évek hazai gyakorlatát, majd számba veszi a nem-zetközi szakirodalomban megjelent, releváns baleset-veszélyességet elorejelzo statisztikai ésadatbányászati technikákat. Az irodalmi áttekintést az elemzési munkafolyamat tervezése ésa modellezést támogató rendszer implementálásának koncepcióterve követi.

Az elemzés elokészítéséhez kapcsolódóan bemutatásra kerül a modellezésbe bevonhatóhazai baleseti adatok köre, majd a baleseti adatok tisztításával, kiegészítésével járó munkafolyamata.

A modellezés a prediktív technikák több alternatíváját vizsgálja meg. A prediktív mo-dellezés során a dolgozat a regressziós technikák és neruális hálózatok implementálásáratámaszkodva mutatja be az egyes modellek által a baleseti góchelyek kimenetele (baleset-szám) elorejelzésében elért becslési pontosságot és a szignifikáns prediktor változókat.

A modellek összehasonlító értékelését követoen dolgozat befejezésként javaslatot tesz atovábbfejlesztési lehetoségek irányára.

Page 4: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

Abstract

In the recent years the database of traffic accidents increased remarkably due to standardsof data collection of Hungarian Central Statistical Office and recording GPS coordinates. In-volving information technologies plays an important role in the prevention of traffic accidentsbased on valuable domain specific database.

The goal of the thesis is enriching accident preventing IT tools with the implementationof a method using Hungarian accidents database.

First, the thesis overviews the Hungarian practice in the recent years, then examinesthe relevant statistical and datamining predictive techniques of risk of traffic accidents ininternational literature.

The literature review is followed by the planning of the analytical workflow process andthe designing of implementation of a modeling support system. In the following chapterrelating to the preparation of analysis the relevant Hungarian domain specific dataset anddata cleaning process are presented.

The modeling examines several alternatives of predictive techniques. Through the pre-dictive modeling the thesis presents the significant predictor variables and the accuracy ofestimated casualty of black spots based on implementation of regressive techniques and ar-tificial neural networks.

Finally, the thesis proposes the direction of further development.

Page 5: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

Tartalomjegyzék

1. Bevezetés 1

2. Közúti balesetek megelozésének IT támogatása 32.1. Tradicionális módszerek . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.1. Csúszó-ablak technika . . . . . . . . . . . . . . . . . . . . . . . . 52.1.2. Statisztikai módszerek . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2. Korszeru lehetoségek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.1. GPS alapú góchelyazonosítás . . . . . . . . . . . . . . . . . . . . 92.2.2. Prediktív technikák . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3. Tervezés 27

4. Adatok elofeldolgozása 324.1. Adatforrások . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.2. Baleseti adatok feltárása . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.3. Adatok elokészítése . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5. Modellezés 405.1. Góchelyazonosítás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405.2. Prediktív technikák . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

5.2.1. Góchelyek reprezentációja . . . . . . . . . . . . . . . . . . . . . . 445.2.2. Regressziós elorejelzés . . . . . . . . . . . . . . . . . . . . . . . . 455.2.3. Neurális háló . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.3. Értékelés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

6. Összefoglalás 52

7. Summary 54

Irodalomjegyzék 56

A. Balesetállomány jellemzése 60

i

Page 6: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

1. fejezet

Bevezetés

Az Európai Unió fokozott figyelmet fordít a közlekedés biztonságára. A közúti balesetihalálozás megfelezodött az utóbbi évtizedben, azonban 2013-ban még mindig 26 ezren leltékhalálukat az Európai Unió útjain[1].

A 2011-ben megjelent, az EU közlekedéspolitikájának stratégiáját tartalmazó új „FehérKönyv” [2] céljai sorában az alábbiakat fogalmazza meg:

”A közúti baleseti halálozást 2050-re szinte nullára kell csökkenteni. E céllalösszhangban az Európai Unió arra törekszik, hogy 2020-ra felére csökkenjen aközúti sérülések száma.”

Magyarország szintén eredményeket tud felmutatni a balesetek számának csökkentésé-ben (1.1. ábra). 2013-ban a közúti baleseti mortalitás 591 fore csökkent az egy évtizeddelkorábbi 1 326 forol. A hazai közlekedéspolitika elkötelezett a balesetek további csökkentésétilletoen.

A magyar célkituzés - összhangban az uniós céllal - 2020-ra a közúti balesetek halálosáldozatainak számára vonatkozó 50%-os csökkenés elérése a 2010. évi szinthez képest.

1.1. ábra. Közlekedésbiztonsági helyzet Magyarországon [3]

1

Page 7: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 1. BEVEZETÉS

A közúti balesetek halálos áldozatainak száma folyamatosan csökken, azonban a javulásüteme lelassult. A további elorelépés érdekében új módszereket, megoldásokat kell keresnia balesetmegelozés területén.

A halálos kimenetelu balesetek elkerülése érdekében született stratégiai célok közöttmegjelenik a közlekedésbiztonság információs rendszerekkel való hatékonyabbá tétele: köz-útbiztonsági technológiák bevezetése és a közúti közlekedési balesetek, sérülések és a haláloskimenetelu esetek tekintetében egységes definíciók és osztályozási kategóriák rögzítése.

A személysérüléses közúti közlekedési balesetek statisztikai megfigyelése a balesetekszámának regisztrálásán túlmenon a balesetek okainak és körülményeinek részletes elemzésilehetoségével támogatja a közlekedési szakemberek kutató- és baleset-megelozési tevékeny-ségét.

A KSH ”Személysérüléses közúti közlekedési baleset” elnevezésu statisztikai adatfelvé-teli eloírása[4] az elmúlt években megalapozta egy értékes, szakterületi adatvagyon felhal-mozását. Az adatvagyonra építve a közúti halálesetek további csökkentésében kulcsfontos-ságú szerepet játszik a korszeru információs technológiák bevonása a balesetmegelozésbe.

A dolgozat áttekintést nyújt a korszeru baleset-veszélyességet elorejelzo technikákról.Célja, hogy az áttekintést követoen a magyarországi baleseti adatbázis felhasználási leheto-ségeihez igazodó módszer implementálásával gyarapítsa a hazai balesetmegelozés informa-tikai eszköztárát.

2

Page 8: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

2. fejezet

Közúti balesetek megelozésének ITtámogatása

A Fehér Könyv[2] iránymutatása szerint a balesetmegelozés érdekében a biztonsági szem-pontokat integálni kell a közlekedéspolitika valamennyi részterületén, a tervezéstol a közútiinfrastruktúra üzemeltetéséig. Az ajánlás a szükséges közlekedésbiztonsági folyamatok kö-zött nevesíti a baleseti gócpontok (black spot) menedzselését.

A baleseti góchelyek azonosítása és megszüntetése a magyar gyakorlatban is a bizton-ságnövelo munka egy fontos része[6]. A magyar közlekedésbiztonsági cél elérése soránkulcsszerepe van a baleseti gócpontok hatékony menedzselésének. A balesetmegelozo be-avatkozások foganatosítása a közlekedésbiztonsági szakemberek feladata. A 2.1. táblázatbanösszefoglalt góchelykezeléssel járó tevékenységek informatikai támogatása alapveto elvárása szakértok részérol.

A közúti biztonság megteremtése szempontjából kiemelt feladat a baleseti góchelyekazonosítása. A baleseti góchelyek olyan útszakaszok vagy csomópontok, ahol valamilyenokból kifolyólag az elvárhatónál szignifikánsan magasabb gyakorisággal fordulnak elo köz-úti balesetek, mint más hasonló adottságú (méretu, forgalmú, kiépítésu) útszakaszokon. Jel-lemzo, hogy egy baleseti góchelyen azonos típusú balesetek fordulnak elo. A közlekedés-biztonsági szakértok feladata ezeket a helyeket megtalálni, a fellelheto okokat megszüntetni,vagy kedvezotlen hatásukat mérsékelni.

A költséghatékonyság szem elott tartásával a biztonságnövelo beavatkozásokat elsodle-gesen a legveszélyesebbnek ítélt gócpontokra vonatkozóan szükséges megfogalmazni. Ezekesetében várható a legkedvezobb javulás a biztonság terén, a relatíve legalacsonyabb költ-ség mellett. Fontos szempont a szakértok arra irányuló felelossége, hogy a döntéstámogatórendszer által gyanúsnak ítélt helyszínek közül a valóban legveszélyesebb, nagyobb kocká-zatú helyszíneket válassza ki.

A potenciális góchelyek azonosítását követoen az egyes területek baleseti adatainak rész-letes elemzésével meghatározhatók a balesetmegelozési intézkedések, a beavatkozási sor-rend és az eroforrásigény. A folyamatot optimális esetben olyan szakértoi rendszer támo-

3

Page 9: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

folyamat tevékenységek

1 potenciális góchelyek azonosítása góckeresés céljának meghatározásanumerikus, statisztikai vizsgálatrangsoroláshelyszíni vizsgálatgóchelyek listájának véglegesítése

2 akciók kidolgozása az okok és célterületek megállapításabeavatkozási lehetoségek tervezésea beavatkozások várható hatásainak becsléseköltség-hatékonyság vizsgálatokallokáció, beavatkozás prioritási sorrendje

3 beavatkozások végrehajtása tervezett akciók megvalósításabeavatkozás dokumentálása

4 beavatkozások értékelése felhasznált eroforrások visszamérésebalesetszám alakulásának nyomon követése

2.1. táblázat. A góchelyek kezelésének folyamata [8]

gatja, amely a potenciális góchelyek azonosítása mellett egy tudásbázissal is rendelkezik.A rendszer a tudásbázis alapján adott gócpont esetében intézkedési és eroforrás allokációsjavaslatokat is megfogalmaz, továbbá támogatja a beavatkozások hatékonyságának értékelé-sét.

A hazai gyakorlatban a balesetmegelozés informatikai támogatásának alapja a közútibaleseti adatbázis. A KSH adatfelvételi útmutatója[5] alapján a statisztikai megfigyelés egy-sége a személysérüléses közúti közlekedési baleset. A személysérüléses közúti közlekedésibaleset az olyan váratlan, nem szándékosan eloidézett forgalmi esemény, amely közúton kö-vetkezett be, vagy onnan eredt, amelyben legalább egy mozgó (közúti) jármu közrejátszott,és amelynek következtében egy vagy több személy meghalt, vagy megsérült. A baleset ki-menetele szerint halálos, súlyos vagy könnyu sérüléses lehet.

A magyar szakértok munkáját a WIN-BAL és a webes elérést biztosító WEB-BAL el-nevesu alkalmazás segíti[9]. A rendszer a baleseti adatok mellett az úthálózatot leíró és azútforgalom adatokra is támaszkodva nyújt góchelykeresési funkciót.

A hazai gyakorlatot a góchelykeresés támogatásának folyamatos fejlodése jellemzi. Apotenciális gócpontok keresése során eleinte statisztikai módszerkre, majd az útszelvényekre(útszám/km+m) alapuló úgynevezett csúszó ablakos (sliding window) technikára támaszkod-tak. Az utóbbi idoben a baleseti helyszínelés során a GPS koordináta segítségével sikerültmég pontosabban és megbízhatóan azonosítani a baleseti helyszíneket. A GPS adatokat isfelhasználó technika bevezetése tovább növelte a rendszer funkcionalitását.

A következo fejezetekben áttekintésre kerülnek a tradicionális góchelykeresési módsze-rek és az elemzésbe bevonható korszeru adatbányászati technikák.

4

Page 10: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

2.1. Tradicionális módszerek

A hagyományos góchelykeresési eljárások a nyilvántartott baleseti adatok alapján képzettmutatókra, a szakérto által meghatározott küszöbértékekre és a csúszó-ablak technika együt-tes alkalmazására támaszkodnak. A csúszó-ablak módszer a potenciális gócpontok megke-resése során játszik fontos szerepet. Az eljárás a szakérto által megadott útszakasz-hossznakmegfelelo méretu ablakot tol végig a közútakon. Ha egy ablakban adott idoszak alatt többbaleset figyelheto meg, mint egy meghatározott küszöbérték, az útszakasz potenciális góc-helynek minosül.

A potenciális góchelyek baleseti adatainak további vizsgálata mutatószámokra alapul.A góchely minosítés tipikus adatai: a balesetek száma, az útszakaszok hossza, a vizsgáltperiódus, a balesetek típusai. A minosítés az adatok felhasználásával képzett mutatók meg-határozott küszöbértékekkel történo összehasonlítása alapján dol el.

2.1.1. Csúszó-ablak technika

A balesetek helyszínének nyilvántartása többnyire a hagyományos közúti helyazonosításonalapul. A balesetek helyszíne az út számával, illetve azon belül a szelvény számával (km+m)azonosítható. Az útszelvényre épülo technikák egy útszakasz adatait vizsgálják át és a vizs-gált szakaszra eso balesetszám alapján próbálják meg jelezni a problémás intervallumokat.Az eljárásnak két megközelítése létezik[13].

A legalapvetobb góckeresési eljárás elore rögzített szakaszhosszal és becsült minimálisbalesetszámmal dolgozik. Az ablak szélessége tipikusan 100-300 méter[11], amelyet végig-húzva az útszakaszon kigyujthetoek azok a szakaszok, amelyeken a balesetek száma túllépia tolerált küszöbértéket. Az eljárás egy másik felhasználása azoknak az útszakaszoknak afeltárását célozza, amelyeket kiugró balesetszám jellemez a szomszédos útszakaszokhoz ké-pest.

A csúszó-ablak technika fenti változatában az ablak mindig a rögzített méretének meg-felelo távolságot halad elore, ezzel egyenlo hosszúságú, átfedés nélküli intervallumra bontvaa vizsgált utat (szakaszolás). Az eljárás gyors keresést tesz lehetové, ugyanakkor hátránya,hogy hosszú fix szakaszhossz esetén olyan gócokat is megjelöl, amelyben a balesetek nin-csenek kapcsolatban. Túl rövid szakaszhossz esetén pedig nem ismer fel olyan gócokat, aholaz azonos okra visszavezetheto balesetek nem férnek bele a távolságba.

A csúszó-ablak technika másik változata az elore meghatározott intervallumok helyett abaleseti helyszínek között feszíti ki az ablakot. Az ablak pozíciója nem csak a méretétol,hanem a balesetek helyszínétol is függ.

5

Page 11: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

2.1. ábra. A csúszóablakos technika [7]

A csúszó-ablak módszer utóbbi változata lényegesen több, lényegében a balesetek szá-mával megegyezo szakaszra bontja az utat, ezért a keresés lassabb, mint a fix lépésméretuváltozat. Az azonosítás hatékonyságát tekintve a módszerrel növelheto a valós góchelyekazonosításának aránya (sensitivity), de ezzel együtt no a téves minosítések száma (false po-sitive). A téves minosítések miatt Elvik[14] a csúszóablak módszer kerülését javasolja. En-nek ellenére egyszerusége miatt számos országban elterjedt eljárás a góchelyek azonosításaterén.

Az egyes európai országokban használt góchelyazonosítási eljárásokról és küszöbérté-kekrol Elvik[13] ad áttekintést. A hazai gyakorlatban a szakaszoló módszer terjedt el. Amódszertani ajánlás[7] elore rögzített szakaszhosszal és becsült minimális balesetszámmaldefiniálja a gócgyanús helynek minosítést:

– lakott területen: egy legalább 100 méter hosszú szakasz, ha 3 év alatt legalább 4 sze-mélysérüléses baleset történt

– lakott területen kívül: legalább 1000 méter hosszú szakasz, ha 3 év alatt legalább 4személysérüléses baleset törént.

Lee és Lee[12] az ablak méretet a út és közlekedési viszonyok figyelembe vételét célozva,a megálláshoz szükséges minimum látási távolság becslésébol vezette le, a 2.1 képlet szerint:

D =V

3.6∗ t+

V 2

2g ∗ f ∗ 3.62= 0, 694V +

V 2

254f(2.1)

ahol:D megállási látótávolság (m)V sebességkorlát (km/h)t sebességfüggo reakcióido (recoginition resposse time, RTT)(2,5-3,5 s)g gravitációs gyorsulás (9.8 m/s2)f idojárás és sebességfüggo csúszási tényezo

A szerzopáros különbözo paraméterek mellett vizsgálta a módszert és ért el javulást agóchelyazonosítás terén.

6

Page 12: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

2.1.2. Statisztikai módszerek

A csúszó-ablak módszer a potenciális góchelyek azonosításában hívható segítségül, de nemad képet a potenciális gócok karakterisztikájáról, jellemzoirol. A baleseti góchelyek ponto-sabb meghatározásához és a beavatkozások megtervezéséhez a baleseti adatok és kockázatifaktorok elemzése szükséges.

A klasszikus módszerek a baleseti adatok, alapvetoen a balesetek gyakoriságának és sú-lyosságának vizsgálatán alapulnak. Az empirikus adatokból kinyerheto az a valószínu bal-eset gyakoriság, amely egy adott idoszakban (3-5 év) egyéb jellemzok figyelembe vételemellett (pl. forgalom) egy útvonalon elofordulhat. A kiugró (outlier) baleset számmal jel-lemzheto szakaszok jelentik a potenciális góchelyeket (gócpontokat, gócszakaszokat), azazahol (i) a balesetek száma a várható értéknél nagyobb, (ii) a balesetek súlyosabbak, vagy(iii) a fajlagos (forgalomra vetített) baleseti mutató az átlagosnál magasabb.

A legalapvetobb módszerek egy adott pontban, egy adott ido intervallumban várhatóbalesetgyakoriságot/baleseti relatív mutatók meghatározására épülnek.

A góchelyelemzésben a hazai gyakorlatban elterjedt közlekedésbiztonsági mutatókat a2.2. táblázat tekinti át.

mutató tartalom

1 balesetgyakoriság adott helyen, adott idoszak alatt történt balesetekszáma

2 balesetsuruség egységnyi úthosszra eso balesetszám3 súlyozott balesetszám különbözo kimenetelu (halálos, súlyos, könnyu) bal-

esetek súlyozó tényezokkel figyelembe vett összege4 útszakaszra számított

relatív baleseti mutatóbalesetgyakoriság az átlagos forgalomra vetítve(jármu km)

5 csomópontra vetített re-latív baleseti mutató

balesetgyakoriság a forgalomra vetítve (jármu db)

2.2. táblázat. Az góchelyelemzésnél használt közlekedésbiztonsági mutatók [7]

A góchelynek minosítés küszöbértékeire nincs általánosan elfogadott konvenció. Szakér-toi feladatot igényel annak meghatározása, hogy idoegység alatt, milyen hosszú útszakaszon,hány balesetnek kell elofordulni ahhoz, hogy az adott hely potenciális baleseti góchelynekminosüljön. Az elemzés hatékonysága javítható a különbözo geometriával jellemezheto góc-helyek megkülönböztetésével. A keresztezodésekre és az útszakaszokra számított csoport-mutatók pontosabb referenciaértéket nyújtanak az értékeléshez.

A mutatók összehasonlítására épülo elemzés lehetoséget biztosít a góchelyek néhány jel-lemzo (forgalom, kimenetel) alapján történo összehasonlítására, rangsorolására, de az elem-zés során jelentos korlátot jelent, hogy figyelmen kívül hagyja a balesetek körülményeit leírójellemzoket (pl. út- és látási viszonyok).

7

Page 13: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

A rendelkezésre álló baleseti adatok elemzésbe való szélesebb bevonása érdekében astatisztikai módszerek hívhatók segítségül. A statisztikai modellek segítségével az egyesgóchelyekhez hozzárendelheto a balesetek bekövetkezésének valószínusége.

A statisztikai eljárások annyiban hasonlítanak a relatív mutatók elemzésére épülo mód-szerekre, hogy azokat a helyszíneket minosíti gócnak, amelyek meghaladnak egy referencia-értéket. Különbséget jelent azonban az, hogy a küszöbérték egy feltételezett valószínuségieloszláshoz és egy konfidencia intervallumhoz igazodó szintnek felel meg.

A módszerekrol Geurts és Wets ad áttekintést[10]. A szerzok következtetéseit a 2.3.táblázat foglalja össze.

statisztikai módszer értékelés

1 outlierek: a mutató átlaga és szórásaalapján

nem képes a kockázati tényezok eloszlá-sának figyelembe vételére

2 többváltozós lineáris regressziós mo-dell: a mutató a függo változó, a függet-len változók a forgalom, sebesség, stb.

normális eloszlást feltételez, nem rendel-kezik a balesetek pontosabb leírásáhozszükséges eloszlás tulajdonsággal, így va-lószínuségi állítások sem fogalmazhatókmeg

3 Poisson loglineáris modell: figyelembeveszi a balesetek sztochasztikus termé-szetét, magyarázza a mutatók változatos-ságát, alkalmas a nagyszámú zérus értékkezelésére

pontatlan a balesetszámot illetoen, nemveszi figyelembe az extra-Poisson eltéré-seket (variancia meghaladja az átlagot)

4 negatív binomiális regresszió: megbíz-hatóbb a Poisson regressziós modellnél,ha eros a szórás

nem veszi figyelembe a historikus bal-eseti adatok véletlen ingadozásait

5 általánosított lineáris modell: a legtöbbmodell lineáris, negatív binomiális hibaszerkezettel

a helyszínek karakteriszikájában lévo kü-lönbségek figyelembe vétele a Poisson el-oszlás átlagának a góc karakterisztikájá-hoz igazításával

2.3. táblázat. Az alapveto statisztikai modellek összefoglalása [10]

A statisztikai módszerek különbözosége elsosorban a felhasznált adatokból, a mutatók-ból, illetve a balesetveszélyességi sorrend meghatározásának módszerébol ered. A statisz-tikai modellel operáló módszerre gyakorlati alkalmazási példák találhatók az irodalomban:negatív binomiális modell[23][24] és Poisson regressziós modell[23].

A modellek csak egy adott megfigyelési idoszak adatait használják fel, egy állandó pe-riódust modelleznek. A gyakorlatban ezek a jellemzok (különösen a közlekedési forgalom)gyakran változnak az ido függvényében. Az intertemporális változások figyelembe vétele ér-

8

Page 14: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

dekében egy lehetoség a megfigyelési idoszak felosztása. Mivel azonban a balesetek ugyan-azon a helyen, más-más periódusban is a helyszín specifikus adatoktól függenek, nem füg-getlenek. Ez felveti a becslési modellek olyan nehézségeit, mint hogy a baleseti számok nemfüggetlen eloszlásúak.

2.2. Korszeru lehetoségek

A baleseti adatok idobeli, térbeli és egyéb jellemzoi felhasználásának kiszélesítését az adat-bányászati módszerek teszik lehetové. A GPS alapú azonosítás elterjedésével elotérbe kerülta klaszterezési technikák alkalmazása. A góchelyelemzés esetében pedig a statisztikai mód-szerek fejlesztése és az osztályozó eljárások bizonyulnak hatékony eszköznek.

2.2.1. GPS alapú góchelyazonosítás

A csúszó-ablak módszer, gyorsaságára tekintettel hasznosnak bizonyul egy adott útszakaszvizsgálata esetén. Hátránya azonban, hogy a balesetek legjellemzobb helyszínén, az útke-resztezodésekben nem alkalmazható. Útkeresztezodésben a balesetek gyakran több útszaka-szon rögzítettek. Mivel az eljárás csak egy szakaszt vizsgál, a góchelykeresésnél figyelmenkívül hagyja az azonos okra visszavezetheto, de különbözo utak szelvényszámán rögzítettbaleseteket.

Magyországon a közelmúltban a balesetek adatainak felvétele kiegészült a GPS koordi-náták rögzítésével, amely új góchelyazonosítási eljárások felhasználását tette lehetové. AGPS koordinátákra alapuló eljárások hatékonyan alkalmazhatók az útkeresztezodések, kör-forgalmak illetve egyéb, nem egyetlen úthoz kapcsolódó góchelyek azonosításában.

Han et. al[18] átfogó áttekintést nyújt a térbeli adatok (spatial data) klaszterezési mód-szereirol. Az eljárások önmagukban is alkalmazhatók a potenciális góchelyek azonosítására,de szolgálhatnak olyan további elemzések (pl.: osztályozás) alapjául, amelyek a klaszterekadataival dolgoznak. Számos sztenderd (particionáló, hierarchikus, suruség vagy rács alapú)klaszterezési algoritmus adaptálható a góchelyazonosításra[19], azonban ezek hatékonysá-gát, számítás- és tárigényét illetoen jelentos eltérések mutatkoznak.

Alapveto módszerek

A térbeli adatok felhasználására egy lehetoséget jelentenek a szakaszolás logikájához ha-sonló rács alapú eljárások (Sting, WaveCluster, CLIQUE). A rácsmódszer a geográfiai térmeghatározott méretu cellákra osztására alapul. Minden cellához hozzárendelésre kerül azáltala lefedett terület baleset elofordulásainak száma (2.2. ábra). A góchelyazonosítás acellák balesetgyakoriság szerinti rangsorolásán alapul.

9

Page 15: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

2.2. ábra. A rács-alapú suruség[21]

A módszer gyors (O(n)), de a vizsgált terület fix méretu cellákra osztása miatt ugyan-azokkal a - rácsméret meghatározásából eredo - hátrányokkal rendelkezik, mint a szakaszolócsúszóablak eljárás. További probléma, hogy téglalap alakú góchelyeket ismer fel.

A kernel becslési eljárás[15] egy fix sugarú kör által lefedett területet vizsgál. A köra tér összes lehetséges pozícióját felveszi és az adott középponthoz mérve kiszámítja a bal-esetgyakoriságot.

2.3. ábra. A kernel becslési eljárás[17]

10

Page 16: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

A súlyozott balesetgyakoriság meghatározása a 2.2 függvénnyel történik, amely az ablakáltal lefedett baleseteket a középponttól mért távolság alapján veszi figyelembe.

λτ (s) =n∑i=1

1

τ 2kτ

(s− siτ

)(2.2)

ahol:s ∈ R ⊂ R2 helyvektors1, s2, . . . , sn ∈ R n megfigyelt esemény helyvektoraτ ∈ R+ simítási tényezo, általában sugárλτ (s) : R→ R+

0 s intenzitás értékekτ : R2 → R+

0 kernel súlyozási függvény

A kernel súlyozási függvény általában [0, 1] intervallumban standardizál, ahol 1 a vizs-gált pontban elhelyezkedo súly és 0 a vizsgált környezet határán alkalmazott tényezo. Afüggvény paramétereinek tipikus megválasztása a quartic-kernel(2.3).

λτ (s) =∑di≤τ

3

πτ 2

(1− d2i (s, si)

τ 2

)2

(2.3)

ahol:di : R2 → R+

0 a távolság metrika s és si között

di(s, si) =(∑

j |sij − sj|k) 1k

d(s, si) = 0 ⇐⇒ s = sid(s, si) = d(si, s)

d(s, sj) ≤ d(s, si) + d(si, sj)

Kernel függvényként elterjedt a Gauss függvény használata(2.4), amely a DENCLUE(Density-based Clustering) elnevezésu suruség alapú klaszterezési eljárás[21].

λτ (s) =n∑i=1

e−d2i (s,si)2τ2 (2.4)

A góchelyek a függvény lokális maximumaiban találhatók. A lokális maximumok irá-nyába történo elmozdulás (folytonos és deriválható függvény esetén) a gradiens módszerrelhatározható meg.

A tér bejárása és a nagy számú távolságszámítás miatt a kernel módszer idobonyolultságamagas. Az O(n2) számítási ido a rácsalapú módszerekkel kombinálva javítható, azonbanekkor számolni kell a pontosság romlásával. Az algoritmus elso sorban suru közúti hálózatokesetén bizonyul hasznosnak.

11

Page 17: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

K-means eljárás

A térbeli adatok elemzése szempontjából felmerül a más alkalmazási területeken széles kör-ben használt k-means eljárás vizsgálata. A k-means és k-medoid particionáló eljárások céljaa balesetek k db klaszter valamelyikébe sorolása. A módszerek alapelve a balesethelyszínekés az adott klaszterét reprezentáló helyvektor (centroid, medoid) távolság összegének (2.5)minimalizálása.

SSE =k∑i=1

∑s∈Ci

d(s,mi)2 → min (2.5)

ahol:s ∈ Rn egy balesetet reprezentáló vektorCi egy potenciáis góchely (klaszter)mi ∈ Rn egy potenciáis góchely reprezentáns eleme

Az optimalizálás (klaszter reprezentáns iteratív áthelyezése) megpróbálja az eredményülkapott klasztereket a leheto legtömörebbé és legjobban elkülönülové alakítani. A globá-lis optimum megkeresése azonban NP-teljes feladat, ezért az eljárás implementációi lokálisoptimumot adnak eredményül. Az algoritmus számítási bonyolultsága O(nkt), ahol n azelemek, k a klaszterek, t pedig az iterációk száma[20].

A módszer nagy adathalmazokra, magas dimenziójú, folytonos attribútumokra is kiter-jesztheto. Mindemellett a k-means eljárásnak több alapveto hiányossága mutatkozik. Azeljárás alkalmazási hatékonysága erosen függ a paraméterként várt klaszterszám meghatá-rozásától. A k értéket a szakértonek kell megadnia, a rosszul megválasztott klaszterszámazonban negatívan befolyásolja az eredményt. Az eljárás a zajos adatok kezelésére is érzé-keny. Néhány szélsoséges érték jelentosen eltéríti a klasztert reprezentáló elemet. Továbbihátrány, hogy a módszer a távolság alapú csoportosításból fakadóan csak gömb (kör) alakúklasztereket ismer fel.

A hátrányok miatt a baleseti góchelyazonosítás szempontjából a k-means eljárás alkal-mazása nehézkes. A góchelyazonosítás célja a zajos, egyedülálló pontok kizárása. Ezzelellentétes a k-means muködési elve, hiszen minden balesetet klaszterbe sorol. Az eredmé-nyek interpretációját pedig hátráltatja, hogy a zajos adatok miatt a potenciális góchelyeketreprezentáló elemek távol eshetnek a góchely értelmezheto középpontjától (messze az úttól).

A k-means algoritmus javítását több módszer is célozza (PAM, CLARA, CLARANS)[20],azonban az algoritmus alapproblémáival a góchelyazonosítást célzó felhasználás során ezekesetében is számolni kell.

12

Page 18: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

Suruségalapú módszerek

A klaszterezési technikák közül a térbeli adatok elemzéséhez hatékonynak bizonyulnak a su-ruség alapú (density-based) módszerek[18]. A suruség alapú technikák a klaszter megítélésesorán a távolság helyett egy összefüggo régió suruségét veszik figyelembe. Az eljárások asuru területeket tekintik klaszternek, amelyeket a zajokat jelento (nem kelloen suru) régiókválasztanak el egymástól.

Az eljárások alapelve, hogy egy adott klaszterben található elemek suruségének szignifi-kánsan magasabbnak kell lennie, mint a klaszteren kívüli elemeké. Az algoritmus a klasztertfokozatosan növeli, amíg elemei kelloen suru területet alkotnak. Az eljárás elonye, hogy bár-milyen alakú (akár nem konvex) gócot felismer és megkülönbözteti a zajt, azaz a góchelyheznem tartozó baleseteket.

Alapveto suruség alapú eljárás a DBSCAN (Density-based Spatial Clustering of App-lications with Noise) módszer. A potenciális góchelyek azonosítására való alkalmasság jólérzékelheto a k-means és a DBSCAN összehasonlításával (2.4.táblázat).

jellemzo k-means DBSCAN

alapelv prototípus alapú suruség alapúteljesköruség minden elemet klaszterhez rendel zajokat nem klaszterezklaszter alak gömb alakú klasztereket ismer fel tetszoleges alakú klaszterekérzékenység zajok jelentosen torzítják nem érzékeny a kiugró értékekredeterminisz-tikusság

kezdeti középpontok véletlenszeruinicializálása miatt nem ugyanazo-kat a klasztereket állítja elo

minden futtatásnál ugyanazokat aklasztereket állítja elo (ugyanazonparaméterek mellett)

klaszterszám paraméterként kell megadni automatikusan határozza megidobonyolultság O(n) legrosszabb esetben O(n2), térbeli

indexek használatával O(n log n)

tárbonyolultság O(n) O(n)

2.4. táblázat. A k-means és a DBSCAN összehasonlítása [21]

Az algoritmus a suruség meghatározásához 2 paramétert használ:

– ε sugár jellegu küszöb

– MinPts elemszám küszöb

Az algoritmus muködésének bemutatásához szükséges néhány fogalom[20]:

– q ∈ D belso elem: q elem ε-környezete legalább MinPts darab elemet tartalmaz

– p ∈ D közvetlenül surun elérheto q ∈ D-ból: ha q belso elem és p a q ε-sugarúkörnyezetében van

13

Page 19: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

– p surun elérheto q-ból ε-ra és MinPts-re vonatkozóan: ha létezik p1, . . . , pn sorozat,hogy p1 = q, pn = p és pi+1 közvetlenül surun elérheto pi-bol minden i-re 1 ≤ i <

n, pi ∈ D

– p surun összekötött q-val ε-ra és MinPts-re vonatkozóan: ha létezik olyan r ∈ D,amelybol p és q is surun elérheto

A surun elérhetoség a közvetlenül surun elérhetoség tranzitív lezártja. A reláció nemszimmetrikus, csak a belso elemekre lehet a surun elérhetoség kölcsönös. A surun összekö-töttség ellenben szimmetrikus reláció.

A klaszter a surun összekötött elemek olyan halmaza, amely maximális a surun elérhe-toségre vonatkozóan. Minden klaszteren kívüli elem zajnak tekintheto.

2.4. ábra. Két klaszter azonosítása a DBSCAN eljárással[18]

A DBSCAN úgy keresi meg a klasztereket, hogy megvizsgálja az adatbázis minden pont-jának ε sugarú környezetét. Ha egy p pont belso elem, akkor egy új klasztert hoz létre p belsoponttal. Az algoritmus ezután iteratív módon összegyujti a belso pontokból közvetlenül su-run elérheto elemeket, ami a surun elérheto klaszter összevonásával jár. Az iteráció akkor érvéget, ha már nem tud egyik klaszterhez sem új elemet hozzáadni.

Az algoritmus számítási bonyolultsága alapesetben O(n2), azonban térbeli index (spatialindex) használatával a bonyolultság O(n log n), ahol n az adatelemek száma.

A magyarországi baleseti adatok GPS koordinátáit felhasználva a DBSCAN algoritmussegítségével gyors eljárást implementált Szénási és Jankó[16]. A szerzok két baleseti hely-szín közötti távolságot a koordináták Euklideszi távolságával határozták meg. A klaszter-suruségként a klaszterbe eso balesetszámok kimenetel alapján súlyozott összege és a klasz-terterület arányát tekintették. A klaszterterületet annak a legkisebb konvex poligonnak aterületével definiálták, amely körülhatárolja a klaszterbe tartozó baleseteket. A DBSCANalgoritmus futtatásával kapott potenciális góchelyek a suruség alapján kerültek rangsoro-lásra. A magyaroszági baleseti adatbázis méretére tekintettel az eljárás elfogadható futásiidot igényelt, azonban lényegesen nagyobb méretu adathalmaz feldolgozása esetén az algo-ritmus térbeli indexek alkalmazását igényli.

14

Page 20: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

A DBSCAN a paraméterekre érzékeny eljárás, alapesetben a megfelelo értékek megvá-lasztása a szakérto felelossége.

A probléma kezelésére segítségül hívható az OPTICS (Ordering Points To Identify theClustering Structure) algoritmus[20]. A módszer a DBSCAN eljárás általánosítása. Az al-goritmus nem egy konkrét klaszterezést ad meg, hanem a klaszterezések egy rendezett soro-zatát. Egyenértéku a DBSCAN eljárás sok paraméterbeállítással történo elvégzésével.

Az OPTICS logikája, hogy a MinPts konstans megválasztása mellett az alacsonyabb εértékek (nagyobb suruség) esetén kapott klaszterek részhalmazát képezik a kisebb suruséguklasztereknek. A algoritmus annak érdekében, hogy a különbözo suruségu klasztereket egy-idejuleg létrehozza, az elemeket egy speciális sorrendben dolgozza fel. A sorrend kialakításaaz ε paraméter folyamatos növelését jelenti, ezzel biztosítható, hogy a surubb klaszterek jön-nek elobb létre.

Az alkalmazáshoz minden elemre el kell tárolni a belso (2.6) és az elérheto távolságot(2.7).

dcoreε,MinPts(p) =

{definiálatlan ha|Nε(p)| < MinPts

d(p,qMinPts) egyébként(2.6)

dreachabilityε,MinPts (p,q) =

{definiálatlan ha|Nε(p)| < MinPts

max(dcoreε,MinPts(p), d(p,q)) egyébként(2.7)

ahol:Nε(p) p ∈ D elem ε-sugarú környezetében található elemek halmazaqMinPts a MinPts-dik legközelebbi elem

A belso távolság az a legkisebb ε′ érték, amely mellett p belso elem lesz (ha nem belsoelem, akkor nincs definiálva). A q elem elérhetoségi távolsága a p elemre vonatkozóan a pelem belso távolságának és a p és q közötti euklidészi távolság maximuma (ha p nem belsoelem, akkor nincs definiálva).

Az algoritmus az elemek egy sorrendjét készíti el minden elem belso és elérhetoségitávolságának tárolásával. Az információk elegendoek az összes olyan klaszter eloállításához,ahol ε′ ≤ ε. Az OPTICS felépítését tekintve ekvivalens a DBSCAN algoritmussal, ígybonyolultsága is megegyezik, térbeli indexek használata esetén O(n log n)

A klaszterezési algoritmusok felhasználására támaszkodó góchelyazonosítás eredményea baleseti adatbázis információinak tömörítése. A nem gócgyanús helyszínekhez kapcsol-ható balesetek eltávolításával lehetoség nyílik az adatbázis redukálására. Az elemzési szem-pontból releváns gócgyanús baleseti adatok klaszterekbe szervezése támogatja a korszerugóchelyelemzési és -értékelési technikák alkalmazását.

15

Page 21: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

2.2.2. Prediktív technikák

A korszeru prediktív technikáknak egyrészt a hagyományos statisztikai módszerek fejleszté-sei, másrészt az adatbányászat osztályozási eljárásai tekinthetok.

Regressziós modellek

A továbbfejlesztett statisztikai eljárások elonye, hogy támaszkodhatnak a góchelyazonosítássorán már elterjedt modellekre. Elvik alapján[14] a potenciális góchelyek elemzése támoga-tásának többváltozós modell bázisú, prediktív eljárásokra kell támaszkodnia, szükség eseténaz empirikus Bayes (EB) módszerrel ötvözve. A statisztikai modell bázisú eljárások mellettiérvelés arra hivatkozik, hogy a helyszínek azonosításának megbízhatósága a lokális kocká-zati tényezok (útviszonyok, forgalom, stb.) figyelembe vételére alapul és kiszuri a rendszeresés a véletlen eseményeket.

Elvik[14] a góchelyeket 3 tulajdonság konjunktív kapcsolatával definiálja, amely szerinta góchelyet (i) magasabb várható balesetszám jellemzi (ii) mint más hasonló helyszíneken(iii) a lokális kockázati tényezokre visszavezethetoen. A definícióval összhangban a szerzoa korszeru eljárásokkal szembeni elvárások fo szempontjaiként az alábbiakat említi:

1. rendszeres ingadozások kezelése: a leheto legtöbb olyan tényezo figyelembe vétele,amelyrol ismert a balesetekre gyakorolt befolyása

2. véletlenszeru ingadozás kezelése: a balesetszám véletlenszeru ingadozásainak keze-lése a rögzített balesetszám helyett a várható balesetszám figyelembe vételével

3. lokális kockázati tényezok figyelembe vétele: a góchelyek megítélése a helyi kockázatitényezok segítségével meghatározott várható balesetszám és más hasonló adottságúhelyszínek várható balesetszámának összevetésével

Egy korszeru módszer a felsorolt szempontokat együttesen teljesíti. A predikciós mo-dellnek kiemelt hangsúlyt kell fektetnie a lokális kockázati tényezok figyelembe vételére.Egy prediktív baleseti modell implementálásának lépései:

1. felhasználási terület és cél definiálása

2. függo és független változók meghatározása

3. becslési módszertan kiválasztása

4. regressziós analízis

5. illeszkedési vizsgálat (goodness of fit)

6. empirikus Bayes becslés

7. góchelynek minosítés

16

Page 22: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

A modellbázisú elemzés két szintu. Az elso szint a baleseti adatok részletes vizsgálatátés a kockázati tényezokre vonatkozó hipotézisek megfogalmazását tartalmazza. A másodikszintet a hipotézisek tesztelése jelenti. A javasolt modellezési periódus 3-5 év, így az elemzéslegalább ennek megfelelo idoszakot lefedo adatmennyiséget igényel. A modell teszteléséhezazonban további évek adatai is szükségesek. A függo változókat hagyományosan a baleset-szám (esetleg kimenetel szerint), a sérülések száma (esetleg kimenetel szerint) vagy ezekkombinációja jelenti. A független változók fobb csoportjai: forgalom nagysága, összeté-tele és változása, úttípus, útjellemzok, sebességkorlát, sávok száma, adott úthosszra vetítettkereztezodések száma, az úthasználók viselkedése.

A becslési modell felépítésének kulcskérdése egy alkalmasnak ítélt regressziós technikakiválasztása, majd a változók és a hiba feltételezett valószínuségi eloszlásainak meghatá-rozása (a változók által nem magyarázott maradéktag vonatkozásában is). Számos modelltöbbváltozós lineáris regressziót használ illetve elterjedt a Poisson valószínuség használata abalesetek modellezésére. A Poisson eloszlás (2.8) n elemu mintából, adott ido alatt, ismertp valószínuséggel megtörténo események adottsága mellett az esemény k darab bekövetke-zésének valószínuségét fejezi ki (λ = np).

P (X = k) =λk

k!e−λ (2.8)

ahol:λ > 0 paraméter (λ = np)k ∈ Z kísérletek számaE(X) = λ várható értékD(X) =

√λ szórás

A maradéktag általában negatív binomiális eloszlással írható le. A negatív binomiáliseloszlás (2.9) azt mutatja meg, hogy mi a valószínusége annak, hogy pont k-szor kell megis-mételni a mintavételt ahhoz, hogy r-szer forduljon elo egy meghatározott esemény.

P (X = r + k) =

(k + r − 1

r − 1

)pr(1− p)k (2.9)

ahol:0 < p ≤ 1 paraméterr ∈ Z egy esemény elvárt ismétlodéseinek számak ∈ Z kísérletek számaE(X) = r

pvárható érték

D(X) =

√r(1−p)p

szórás

17

Page 23: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

A negatív binomiális eloszlás a Poisson eloszlás alternatívája a függo változó vonatko-zásában is. Különösen hasznos a felülrol nem korlátos diszkrét adatok esetében, amikor aminta varianciája meghaladja a középértéket (Poisson eloszlás esetén megegyeznek). Mivela negatív binomiális eloszlás eggyel több paramétert tartalmaz, mint a Poisson, a másodikparaméter használható a variancia átlagtól független meghatározásához. Adott minta eseténaz eloszlások paramétereinek becslésére a maximum likelihood módszer (MLE) használható.

A többváltozós regresszióra épülo predikciós modellek alapveto formája (2.10):

E(λ) = αQβ ∗ e∑γixi (2.10)

ahol:E(λ) a becsült balesetszámQ forgalom nagyságaxi kockázati tényezoket jelölo változókα, β, γi regressziós koefficiensek

Az exponenciális eloszláscsaládból (pl.: Poisson, gamma, binomiális) származó eloszlás-sal jellemezheto függo változók esetében a lineáris regresszió általánosításaként alkalmaz-ható az általánosított lineáris modell (generalized linear model). Az általánosítás során ahagyományos lineáris regresszió feltételezéseivel szemben (i) a függo változó normális el-oszlás helyett bármilyen exponenciális eloszlás lehet és (ii) a linearitás feltevése egy transz-formált formára vonatkozik.

A modellben a független változók lineáris kombinációja adja a lineáris prediktort (2.12).

λi = E(λi) + εi (2.11)

ηi =∑j

βjxij (2.12)

E(λi) = g−1(ηi) (2.13)

ahol:E(λi) a becsült balesetszámεi a becslési hibaxij kockázati tényezoket jelölo változókβj regressziós koefficiensekg() a kapcsolati függvény

A model a függo változó várható értékét a 2.13 kapcsolati függvény segítségével kap-csolja a lineáris modellhez, amely monoton és differenciálható, ezért létezik inverze. Akapcsolati függvény Poisson eloszlás esetén a logaritmus függvény.

18

Page 24: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

Többváltozós regressziós analízis esetén a szignifikáns változók megkeresése érdeké-ben a forward vagy a backward eliminációt lehet elvégezni. A forward elimináció eseténa modell a leghangsúlyosabbnak feltételezett változóval kezdi a vizsgálatot és ellenorzi aszignifikanciát. Ha a szignifikanciára irányuló feltételezés helytállónak bizonyul a változóbeépül a modellbe, ellenkezo esetben hátrébb sorolódik. Ezt követoen sorra a vélt következolegmeghatározóbb változó kerül tesztelésre. A módszer segítségével a magas szignifikan-ciájú változók kerülnek be eloször modellbe, míg az alacsonyak kimaradnak. A backwardeljárás ennek fordítottja. A modell tesztelése az összes változót tartalmazva kezdodik, majditeratívan a legkisebb szignifikanciájú változó mindig eltávolításra kerül.

Az illeszkedés vizsgálat (goodness of fit) a predikciós modell ellenorzését szolgálja atekintetben, hogy a modell mennyire képes magyarázni és becsülni a szisztematikus válto-zatosságot a balesetek számában. Megfelelo illeszkedés (F -próba, Welch-próba) esetén amodell jó becslést nyújt a várható balesetszámot illetoen.

A modell implementálását az empirikus Bayes módszer (EB) alkalmazása zárja, amelyminden helyszínre kombinálja a modell eredményét és a megfigyelt balesetszámot.

Az EB a többváltozós predikciós modellek kiigazítását korrekciós tényezokkel kezeli,figyelembe véve a góchelyek lokális eltéréseit. Az EB alkalmazása lehetové teszi az elméletivalószínuségi eloszlások illesztését az empirikus eloszlásokhoz, ezáltal a hibák statisztikaipontosítását (regression-to-the-mean torzítás).

A módszer a várható balesetek számát két forrásból becsli meg: (i) a többváltozós bal-eseti predikciós modell eredménye, amely magyarázza a veszélyeztetettség normális szintjétés a biztonságra ható tényezoket valamint (ii) balesetszám rögzített adatai, amely a predik-ciós modell kiigazítására szolgál.

A balesetek várható száma egy góchelyen az adott góchely historikus balesetszáma ésa hasonló jellemzoju helyszínek esetében a predikciós modell által elorejelzett várható bal-esetszám lineáris kombinációja (2.14)[25].

E(λi) = αi ∗ λi + (1− αi) ∗ ri (2.14)

ahol:E(λi) a góchely korrigált várható balesetszámaλi a predikciós modell által becsült balesetszámri a góchely historikus balesetszámaki túlszórási (overdispersion) paraméter,

(a khí-négyzet és a szabadságfok hányadosával becsülheto)α = 1

1+λiki

súlyozási tényezo

Az empirikus Bayes módszer lehetové teszi a historikus adatok torzításaitól mentes becs-lést a hosszú távon várható balesetszámra vonatkozóan. Nem csupán a rögzített baleseti

19

Page 25: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

adatokra támaszkodik, hanem figyelembe veszi a potenciális góchely egyedi sajátosságait éskizárja a historikus baleseti adatok véletlen ingadozásait.

A Hauer [22] által alkalmazott empirikus Bayes módszer a legjobban illeszkedo modella várható balesetszám becsléséhez. Az empirikus Bayes módszer a hagyományos elemzésieszközökhöz képest csökkenti a hibás minosítés (false positive, negative) számát. A EBalkalmazásával a potenciális góchelyek közül kiválaszthatóak azok a veszélyes helyszínek,ahol szignifikánsan magas a várható balesetek száma.

A góchelynek minosítés kritériuma alapvetoen a várható és tényleges balesetszám relatívvagy az abszolút eltérésére alapulhat. A hányados kritérium esetén a legmagasabb rátájú, azabszolút esetben a várható balesetszámtól legnagyobb mértékben eltéro helyszínek minosül-nek góchelynek.

Számos tanulmány igazolta az eljárás megbízhatóságát a góchelyazonosításban. A ta-nulmányok konklúzióit Elvik [14] foglalja össze. Elvik öt technikát hasonlított össze a góc-helyazonosítás terén. Az összehasonlítása alapján az empirikus Bayes módszer bizonyult alegpontosabbnak (sensitivity: true positive/total positives). A baleseti modell 8 év adatairatámaszkodott. A modellezés során a napi átlagos forgalom, sebességkorlát, sávok száma,útkeresztezodések száma km-enként és egy foútvonalakra vonatkozó dummy változót vettfigyelembe. Az eljárás az idoszak elso négy év adatai alapján az EB módszer segítségévelbecsülte meg a várható balesetszámot az összes potenciális góchelyre. Góchelynek a 2,5%felso percentilisbe eso góchelyeket minosítette. Az osztályozás pontosságát az idoszak má-sodik négy év adatai alapján tesztelte.

A góchelyazonosítás során számos osztályozási módszer hatékonyan alkalmazható. Kü-lönösen a neurális hálózatok, a döntési fák és a naív-Bayes eljárás használata terjedt el[28][29][30].

Döntési fák

A döntési fák elonye, hogy az osztályozási szabályok kinyerése és interpretációja egyszeru.Népszeruségüket számos további elonyös tulajdonságuknak köszönhetik. A döntési fa épí-tése nem igényel semmilyen elozetes feltételezést a változók valószínuségi eloszlását ille-toen. Emellett a redundáns vagy felesleges attribútumok nem befolyásolják hátrányosan adöntési fák pontosságát. A technika jól skálázható és a döntési fákat generáló algoritmu-sok felismerik a fontos attribútumokat, amelyek a fa gyökéréhez közel helyezkednek el. Adöntési fa eloállítására több eljárás kínál lehetoséget. Mivel az optimális fa megtalálása ex-ponenciális nagyságrendu (NP-teljes), a döntési fát felépíto algoritmusok mohó stratégiátalkalmaznak, egy sor lokálisan optimális döntéssel operálnak.

A fa generálása egy partícionáló folyamat, amely az egyes csúcsokban rekurzív módon,egy-egy kiválasztott attribútum mentén osztja fel az adatok halmazát. A rekurzív felosztásakkor fejezodik be, ha (i) egy csúcsba tartozó minták azonos osztályba tartoznak, vagy (ii)

nincs már több változó a további particionáláshoz vagy (iii) már az összes adat osztályozásrakerült vagy (iv) a döntési fa elért egy elore meghatározott mélységet.

20

Page 26: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

A particionálás alapalgoritmusa az ID3 (Iterative Dichotomiser 3). Az algoritmus egyentrópián (2.15) alapuló mértéket, az információnyereséget (gain) használja a felosztás alap-jául szolgáló attribútum meghatározásához.

I(s1, . . . , sn) = −n∑i=1

pilog2pi (2.15)

ahol:si adathalmaz Ci osztályba eso rekordjainak száman osztálycímke attribútum értékeinek számapi egy elem Ci osztályba esésének valószínusége

Az attribútumok várható információira (2.16) épülve az eljárás a legmagasabb informá-ciónyereséggel (2.17) rendelkezo attribútumot választja ki adott csúcsban.

E(A) =k∑j=1

wjI(s1j, . . . , snj) (2.16)

ahol:sij A attribútum aj értékét felvevo, Ci osztályba tartozó rekordok számawj =

s1j+···+snjs

a j. részhalmaz súlya

IG(A, S) = I(s1, . . . , sn)− E(A) (2.17)

A döntési fa az átlagostól nagymértékben eltéro minták miatt általában több zaj jelleguágat tartalmaz. A túlillesztést a fa metszésével lehet kezelni, amelyre két elterjedt megköze-lítés létezik. Az elometszés (prepruning) a fa építése közben avatkozik be azáltal, hogy nemenged egy elore megadott küszöbértéknél alacsonyabb információnyereséget eredményezoszétvágást. Az utómetszés (postpruning) egy már felépített fa esetében távolít el ágakat. Amódszer minden nem levél csúcsban kiszámítja azt a hibát, ami a részfa levágásával kelet-kezne. Alacsony hiba esetén a részfa eltávolításra kerül.

Az ID3 eljárásnak több javítása is született. Az algoritmus általánosítása a C4.5 eljárás,amely nem csak diszkrét, hanem folytonos értékkészletu attribútumokat is kezel. A C4.5 bo-nyolultsága a folytonos attribútumok vágása miattO(n2), a vizsgált attribútum rendezettségeesetén O(nlogn) nagyságrendu.

A döntési fa algoritmusok hatékonysága kis adathalmazok esetén elfogadottan jó, nagyadatbázisok feldolgozása során azonban speciális lemezkezelést biztosító algoritmusok imp-lementációja szükséges (SLIQ, SPRINT). A döntési fa építésére alternatív módszert jelent aCART algoritmus, amely a Gini-index-et felhasználva bináris fát épít.

21

Page 27: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

Naiv-Bayes eljárás

A baleseti adatok sztochasztikus jellegére tekintettel a góchelyek osztályozása során alkal-mazható a naiv-Bayes statisztikai osztályozó. A módszer nem egy adott osztályt rendel azadatokhoz, hanem az adatelem egy-egy osztályhoz tartozásának valószínuségét adja meg.

Az algoritmus a Bayes-tételen alapul(2.18).

P (Ci|x) =P (x|Ci)P (Ci)

P (x)(2.18)

ahol:x =< x1, . . . , xk >

Ci az az esemény, hogy az x az i. osztályba tartozikP (Ci) adott osztály prior valószínusége (relatív gyakorisága)P (x) x elofordulás valószínuségeP (x|Ci) x valószínusége Ci osztályon belül

Az osztályozási probléma a posteriori valószínuségekkel fogalmazható meg. P (Ci|x)

jelöli a Ci osztály x-et feltételezo posteriori valószínuségét, azaz annak a valószínuségét,hogy x objektum a Ci osztály eleme.

A Bayes-osztályozás alapelve, hogy x-et abba az osztályba kell sorolni, amelyre P (Ci|x)

feltételes valószínuség a maximális. Mivel P (x) konstans a P (x|Ci)P (Ci) maximumánakmegkeresése jelenti az osztályozást.

P (Ci) értéke minden osztály esetén ismert (az osztály relatív gyakorisága), ezért P (x|Ci)valószínuség meghatározása jelenti a problémát.

Az eljárás azt feltételezi, hogy egy attribútumérték egy adott osztályba tartozásra gya-korolt hatása független más attribútumok értékétol (feltételes osztályfüggetlenség). A naívfeltételezéssel élve P (x|Ci) felírható független események valószínuségi szorzataként (2.19).

P (x|Ci) = P (x1, . . . , xk|Ci) = P (x1|Ci) . . . P (xk|Ci) (2.19)

Kategória típusú attribútumok esetén P (x|Ci) xj Ci-re vonatkozó relatív gyakoriságá-val számolható (xj gyakoriságának és az osztályba tartozó minták számának hányadosa).Folytonos értéku attribútumok esetén egy valószínuségi eloszlás feltételezése szükséges. Azeloszlás a legtöbb esetben normális eloszlás, de valamilyen a priori információ esetén gya-kori a lognormális, Poisson vagy gamma eloszlás is.

22

Page 28: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

Normális eloszlás esetén P (xj|Ci) a 2.20. képlet szerint számolható.

P (xj|Ci) =1√

2πσie−(xj−mi)

2

2σ2i (2.20)

ahol:

mi = 1N

N∑i=1

xi

σi = 1N−1

N∑i=1

(xi −mi)2

A naiv-Bayes nagy adatbázisok esetében is nagy pontossággal és sebességgel muködik.Hiányzó értékek esetén is használható az eljárás, P (xj|Ci) számításakor a hiányzó értékfigyelmen kívül hagyásával. Az algoritmus robosztus a zajos pontokra, mivel azok kiátlago-lódnak a feltételes valószínuségek számításakor. Hasonlóan a döntési fákhoz robosztusak azirreleváns attribútumokra.

A naív feltételezése nagymértékben egyszerusíti a számításokat, azonban a gyakorlatbana feltételezés általában nem biztosított, az attribútumok között korreláció tapasztalható. Anaív-Bayes hátrányos tulajdonságát a Bayes-féle hihetoségi hálók (Bayesian belief network)kezelik, lehetoséget biztosítva a priori tudás figyelembe vételére. A Bayes-féle hihetoségihálók grafikus modellek, amelyek a naiv-Bayes osztályozóval szemben az attribútumok rész-halmazai közötti függoségek ábrázolását is lehetové teszik.

Az attribútumok közötti függoségeket egy irányított, körmentes gráf reprezentálja, ahol acsúcsok az attribútumok, az élek pedig a függoségek. Ha A csúcsból él vezet B csúcsba, ak-kor A szülo, B gyermek. A Bayes hálóban a gyermekek csak a szüloktol függenek, mindenmás attribútumtól függetlenek.

A háló szerkezete mellett minden attribútumra meg kell adni egy feltételes valószínuségitáblázatot, amely az adott attribútum és szülei minden lehetséges értéke esetén a feltételesvalószínuség értékét tartalmazza.

Az értékek ismeretében a 2.21. képlet szerint számolható P (x1, . . . , xk).

P (x1, . . . , xk) =∏i=1

kP (xi|Szülok(Xi)) (2.21)

A Bayes-hálók tanítása problémás lehet, ha a háló szerkezete nem ismert, vagy ha ismert,de vannak rejtett változók.

23

Page 29: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

Neurális hálók

Az adatbányászati területén szélesköroen felhasználhatóak a neurális hálózatok. A hibavisszaterjesztéses (back propagation) neuronhálós tanuló algoritmus alkalmas osztályozásiés regressziós feladatok elvégzésére. Az algoritmus elorecsatolt többrétegu hálók tanításá-nál alkalmazható (2.5. ábra).

2.5. ábra. Elorekapcsolt többrétegu hálózat[18]

Az adatok a háló bemeneti rétegén kerülnek a modellbe, a bemenetek a tanulóminta att-ribútumainak felelnek meg. A bemeneti neuronok súlyozott kimenete jelenti a rejtett rétegbementét (2.22). A rejtett réteg súlyozott kimenetei pedig egyben az elorejelzést adó kime-neti réteg bementei.

Ij =∑i

wijOi + θ (2.22)

ahol:Oi az elozo rétegbeli i. egység kimenetewij az elozo rétegen lévo i egység és a j egység kapcsolatának

súlyaθj az egység torzítása

A neuronok a bementeket aktiválási függvény segítségével dolgozzák fel. Többréteguelorekapcsolt neuronháló lineáris küszöbfüggvény esetén is univerzális approximátor, bár-milyen függvényt képesek jól közelíteni.

24

Page 30: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

A gyakorlatban differenciálhatóságára tekintettel a 2.23 szigmoid (logisztikus) függvényterjedt el.

Oj =1

1 + e−Ij(2.23)

A neuronhálók tanulása idoigényes. A háló topológiájára nincs jól bevált szabály, tapasz-talati úton határozható meg. A folytonos bemeneti értékek [0,1] intervallumba normalizálásavagyN(0, 1) standardizálása segít a tanulás felgyorsításában. A diszkrét értéku attribútumokesetében minden értékéhez külön neuron elhelyezése célszeru a bemeneti rétegben. A kime-neti rétegen az osztálycímkék számával megegyezo kimeneti egység elhelyezése szükséges.A rejtett réteg meghatározására nem létezik szabály, intuíciók alapján adható meg.

A back-propagation algoritmus a tanulóminták újabb és újabb feldolgozásával tanul,összehasonlítva a háló becslését és az ismert osztálycímkét. A hálózat súlymátrixa min-den tanulásnál úgy változik, hogy a becslés és az aktuális osztálycímke várható eltéréséneka négyzetét minimalizálja (2.24).

E(w) =1

2

N∑i=1

(Oi − Oi)2 (2.24)

Egy rejtett rétegbeli egység hibájának számításakor a következo réteg j egységhez kap-csolódó neuronjaihoz tartozó hibák súlyozott összegét kell figyelembe venni.

A hiba visszaterjesztés (súly módosítás) a kimeneti szinttol a rejtett rétegre valósul meg.Az algoritmus a csökkeno gradiensek elvén alapuló módszert használ a tanulásra. A súlyokmódosítása az 2.25 képlet szerint történik.

wij := wij − λ∂E(w)

∂wj(2.25)

ahol:λ ∈ [0, 1] a tanulási ráta

A λ tanulási ráta szerepe a lokális minimumokba beragadás elkerülése. A ráta meghatá-rozása során tekintettel kell lenni arra, hogy túl alacsony érték esetén a tanulás lassúvá válik,túl nagy érték megválasztásával pedig a nem megfelelo megoldások között oszcillálhat amodell. Iránymutatásként a rátát minden iteráció során érdemes csökkenteni 1/t aránnyal,ahol t > 1 az elvégzett iterációk száma.

A modell tanítása a következo megállási feltételek bekövetkezése esetén fejezodik be:az elozo iterációban egy küszöbérték alá esett (i) minden súly esetében a hiba, (ii) rosszulosztályozott minták aránya, vagy (iii) az iterációk száma egy elore meghatározott értéketelért.

A neurális hálózatok elonye, hogy képesek a redundáns tulajdonságok kezelésére és to-lerálják a zajos adatokat.

25

Page 31: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA

Mussone et al.[26] többrétegu neurális hálózatokat, hiba-visszacsatolással használt a bal-eseti adatok elemzésére. A bemeneti szint 10 egységet tartalmazott 8 változóra (köztük:napszak, forgalom, úttípus, útburkolat, idojárási viszonyok). A kimeneti neuron a góchelybalesetszámának és a legveszélyesebb góc balesetszáma hányadosaként számolt baleseti in-dexet adta eredményül.

Moghaddam et al.[31] szintén a neurális hálózat segítségével épített hatékony prediktívmodellt a balesetek súlyosságának elorejelzését célozva.

A góchelyelemzés során alkalmazható korszeru, prediktív technikák mellett említésreméltó a lágy számítási módszerek felhasználásának lehetosége.

A hagyományos eljárások élesen elkülönülo (crisp) halmazokkal dolgoznak, a küszöb-értékek diszjunkt részhalmazokat eredményeznek, ezért hatékonyságuk erosen függ a szak-értok által meghatározott paraméterektol. A küszöbértékek helytelen beállításától függoen aveszélyesnek ítélt útszakaszok tartalmazhatnak tévesen góchelynek minosített szakaszokat,illetve egyes tényleges gócpontok rejtve maradhatnak. A bizonytalanságok kezelése érdeké-ben a fuzzy halmazok hívhatók segítségül.

A potenciális góchelyazonosítás során a fuzzy klaszterezés (FCM) lehet alkalmas esz-köz a góchelyek megítélésének finomításában. Az elorejelzés esetében pedig a neuro-fuzzyrendszerek jelenthetik az elmélet bevezetését a góchelyelemzésbe[32].

A lágy számítási módszerek közül a genetikus algoritmusok is segíthetik a modellépítésta megfelelo paraméterek keresésével illetve a hálók esetében a topológia kialakításával. Agenetikus algoritmus a bevonásra kerülo baleseti jellemzok kiválasztását is támogathatja.

26

Page 32: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

3. fejezet

Tervezés

A dolgozat célja, hogy az áttekintett módszerekre támaszkodva, a magyarországi balesetiadatbázis felhasználásával hatékony prediktív modellel gyarapítsa a hazai balesetmegelozésinformatikai eszköztárát.

Az adatbányászat és tudásfeltárás folyamata számos tevékenységet magában foglal: ada-tok kiválasztása, tisztítása, elofeldolgozása, transzformálása, eljárások értékelése, vizuálismegjelenítés és interpretáció. A CRISP-DM (Cross Industry Standard Process of Data Mi-ning) módszertan a tevékenységek hat folyamat köré való csoportosítása mellett foglaljaössze az adatbányászat gyakorlati lépéseit és eredménytermékeit (3.1. ábra). A CRISP-DMa dolgozat céljának megvalósítása során is keretül szolgál.

3.1. ábra. A CRISP-DM módszertan[33]

27

Page 33: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 3. TERVEZÉS

A közúti balesetmegelozés ”üzleti” céljai az 1. fejezetben bemutatásra kerültek. A dol-gozat a továbbiakban az adatok elofeldolgozására, a modellezésre és az eredmények interp-retációjára fókuszál.

A tevékenységek közül a leghosszabb ideig tartó feladatot az adatok megfelelo minoséguelokészítése jelenti. Az elokészítés célja az adatok integrálása egy adattáblában, az elemzésicélhoz megfelelo minoségben. A hazai baleseti elemzések bemeneti adatait a magyarországiúthálózati, forgalmi és közúti baleseti adatbázis jelenti. Az adatok modellezéshez illeszkedoelokészítése számos lépésbol áll. A 3.1. ábra az adatelokészítés folyamatának tevékenységeitfoglalja össze.

tevékenység gyakorlati lépések

adatok elérése adattárház hiányában a különbözo adatforrások feltérképe-zése és az adatok beolvasása

adatok integrálása a különbözo adatforrásokból származó adatok összegyuj-tése egy adattáblában

adatprofilozás összegyujtött adatok megismerése, alapjellemzok és azadatminoség vizsgálata

adattisztítás a hiányzó értékek pótlása, a zajos és inkonzisztens adatokeltávolítása

attribútumok transzfor-málása

mértékegységek egységesítése, rangszámok/sorrendek, mé-rési skálák transzformációja, csoportképzés

adatredukció elemzéshez használt attribútumok kiválasztása, redundan-cia csökkentés, mintavételezés

adatok partícionálása teljes adathalmaz tanító és teszt halmazokra bontása osztá-lyozási feladatnál

3.1. táblázat. Az adatelokészítési tevékenység[34]

Az elokészített adatokra épülo modellezés elso lépése a megfelelo modellezési technikakiválasztása. Az esetek többségében érdemes több algoritmust implementálni, mert alkal-mazási területeik átfednek és különbözo esetekben eltéro eredményt adnak. A modellalkotássikeressége a problémához illeszkedo modell kijelölése mellett a modellezésbe bevont ada-tok kiválasztásának helyességétol függ.

A baleset elorejelzési módszerek terén a klaszterezés-bázisú osztályozás különösen elo-nyösnek bizonyul[27]. A potenciális góchelyek térbeli azonosítása érdekében a GPS adato-kat felhasználó klaszterezési eljárásokra lehet támaszkodni. Az algoritmusok közül elsosor-ban a térbeli indexekkel támogatott suruség alapú módszerek relevánsak. Az elorejelzés apotenciális góchelyek adataira építo prediktív modell feladata. A kockázati szint modelle-zése során a regressziós technikák és az osztályozási módszerek lehetnek hatékonyak.

A modell értékeléséhez meghatározandó a modell tesztelési és kiértékelési módszere. Azelorejelzési modellek pontosságának megítéléséhez a rendelkezésre álló adatok particioná-

28

Page 34: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 3. TERVEZÉS

lása szükséges tanító- és teszthalmazra.A modell eredményeinek kiértékelése a feltárt ismeretek vizualizációjával támogatható

hatékonyan. A baleseti elorejelzés esetében az interpretációt elsosorban a baleseti góchelyekkockázati térképének megjelenítése segíti.

A fent felvázolt folyamatokhoz igazodva, a dolgozat keretében kifejlesztésre került a 3.2.ábrán illusztrált funkcionalitást támogató rendszer.

3.2. ábra. Az implementálásra kerülo rendszer használati eset diagramja

29

Page 35: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 3. TERVEZÉS

A rendszer a használati szempontokat hangsúlyozó követelményleírásból kiindulva bontjamodulokra a rendszert. A rendszer logikai felépítése a leggyakrabban alkalmazott háromré-tegu architektúrát követi, amelyben a dialógus-, az adatkezelés és az üzleti logika különállóegységet alkot. A funkcionalitást biztosító rendszer logikai architektúráját a 3.3. ábra fog-lalja össze.

3.3. ábra. A rendszer szerkezeti modellje

A dialóguskezelo réteg interfészt nyújt a szakérto felé. Az emberi felhasználókkal valókapcsolattartás során fontos szerepet játszik az elemzés tervezésének és eredményei szem-léltetésének grafikus támogatása.

Az üzleti logika réteg határozza meg a rendszer viselkedését, az adatprofilozás, elokészí-tés és a modellezéshez kapcsolódó alapveto funkciók megvalósításával. Ebben a rétegbenvalósul meg a dialóguskezelo rétegbol érkezo felhasználói parancsok értelmezése, a kijelöltadatokon a megfelelo számítások elvégzése és a kimeneti adatok eloállítása.

30

Page 36: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 3. TERVEZÉS

Az adatelérési réteg a perzisztens adatforrásokkal és a modellbázissal való kapcsolattar-táshoz szükséges specifikus adaptereket tartalmazza és biztosítja az üzleti logika számáraazok elérését.

A rendszer muködése során az üzleti réteget alkotó komponensek szoros együttmuködés-ben valósítják meg a dialóguskezelo felol érkezo kérések kiszolgálását. A komponensek kö-zötti együttmuködések a szerkezeti modellben bemutatott interfészeken keresztül valósulnakmeg. Az interakciók kombinálásával a 3.2. ábrán felvázolt használati esetek kiszolgálhatók.

A komponensek közötti együttmuködésre egy elorejelzési folyamat szemléltetésével át-fogó példát mutat a 3.4. ábrán szereplo szekvencia diagram.

3.4. ábra. A rendszer viselkedési modellje

A rendszer implementációja .NET környezetben valósult meg. A baleseti adatok haté-kony elérését egy lokális SQL adatbázis nyújtja. A modellbázis statisztikai és gépi tanuláskönyvtárakra épül, amelyek közvetlen interfészt biztosítanak a .NET nyelvcsalád számára.Az eredmények térképes megjelenítése a Google Maps online térkép elemeire és programo-zási felületére támaszkodik.

A rendszer .NET 4.5 környezetben, C# nyelven került implementálásra. A program a.NET standard könyvtárai mellett az Accord.Net és az AForge.NET keretrendszerekre tá-maszkodik. Az adattárolást az SQLite adatbázis látja el. Az algoritmusok futtatásának ésteljesítményük mérési környzetét egy Intel Core i3-6100 3,7 GHz processzor és 8 GB RAMalkotta, az elsodleges meghajtó egy 120 GB tárkapacitású SSD merevlemez volt.

A dolgozat a továbbiakban az elemzési munka folyamatára és a modellezés eredményei-nek bemutatására összpontosít a szoftvertechnológiai kérdésekkel szemben.

31

Page 37: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

4. fejezet

Adatok elofeldolgozása

4.1. Adatforrások

A hazai balesetek elemzésének bemeneti adatait úthálózati, forgalmi és közúti baleseti adat-állományok szolgáltatják, a 4.1 táblázatban összefoglalt információ tartalommal.

állomány adatforrás adattartalom

OKASZAK úthálózat leírásaútszakaszokkal

a közút-hálózatot reprezentáló gráf csúcsainak (út-keresztezodések) azonosítása útszelvény alapon

OKA GPS utak GPS koordi-nátái

az útszakaszokon belül, 10 méterenként meghatá-rozott GPS koordináták

OKASZAKTRAFFIC

útforgalmi adatok adott útszakasz adott idoszakra vonatkozó jármuforgalmi adatai

KSHACCIDENT

baleseti adatok a személysérüléssel járó közúti balesetek statiszti-kai adatfelviteli lap szerinti adatai 10 évre vissza-menoleg

4.1. táblázat. Az elorejelzéshez rendelkezésre álló adatforrások

Az elso három adatforrás (OKASZAK, OKA GPS, OKASZAK TRAFFIC) ritkán vál-tozó, a baleseti adatok dimenzióit képezo törzsadatoknak tekinthetok, míg a KSH útmutatása[5]szerint rögzített baleseti adatok (KSH ACCIDENT) tranzakciós adatoknak minosülnek.

Az alábbiakban a törzsadatok kerülnek áttekintésre, majd a fejezet további része a bal-eseti adatbázisra összpontosítva bemutatja az adatok elokészítésének folyamatát.

Az úthálózatot leíró adatok tárolásának gráf reprezentáció logikája az útkeresztezodé-sek egyedi azonosítására épül. Az utak két útkeresztezodés közé eso útszakaszokra vannakfelbontva. Az OKASZAK tartalmazza az útszakaszok jellemzoit: közút neve, útszakasztmeghatározó kezdo és záró útkeresztezodés azonosítója és szelvényszáma (km+m). Példáulaz R080035O és R080035L azonosítójú útkeresztezodések által behatárolt szakasz az M1-esúton helyezkedik el, a 171km+790 méter kezdo és 171km+977 méter záró útszelvény között.

32

Page 38: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 4. ADATOK ELOFELDOLGOZÁSA

Az OKA GPS adatbázis a közúthálózat még részletesebb, GPS koordinátákra épülo le-írása. Az állomány az OKASZAK útszakaszain belül 10 méterenként (OFFSET) rögzítettGPS koordinátákat tárol.

Az útszakaszok további jellemzését az OKASZAK TRAFFIC adatbázis tartalmazza,amely a kérdéses útszakasz jobb és bal pályájának átlagos napi jármu forgalmi mutatóját(ANF) tárolja. Az átlagos forgalom a keresztmetszeti forgalomszámlálás eredményeibol aMagyar Közút Nonprofit Zrt. által közzétett módszertan[35] szerint származtatott mutató.Az útszakaszok napi forgalma jellemezheto az éjszakai forgalom intenzitása alapján (pl.:nagyarányú-autópálya, alacsony-belterületi szakaszok). Az éves forgalom intenzitása szerintpedig a tranzit és szezonális forgalmat lebonyolító útszakaszok különböztethetoek meg.

4.2. Baleseti adatok feltárása

A predikciós modellezés hatékonysága szempontjából kulcsfontosságú a közúti baleseteketjellemzo KSH ACCIDENT balesetállomány adattartalmának értelmezése, az adatminoségfeltérképezése és az adathibák kezelése.

A baleseti adatbázis a 2002.01.01-tol 2012.12.31-ig tartó idoszakot öleli fel, összesen207 353 db baleset adatát tartalmazza, 57 attribútum mentén leírva. A balesetállomány rész-letes jellemzését az A.függelék mutatja be. A nyers bemeneti adatokról szóló jelentés tartal-mazza az attribútumok:

- elnevezését,

- szemantikai értelmezését,

- típusát (mérési skála szerint),

- érvényes értékkészletét (minimum és maximum),

- érvénytelen és hiányzó értékeket tartalmazó rekordok számát,

- érvényes adatokkal feltöltött rekordok arányát

Az adatbázis többségében kategória típusú attribútumokat tartalmaz (42 db). Az érvé-nyes értékkészlet numerikus mezok (intervallum, arány típusú változók) esetén magának afelveheto értéknek az intervallumát, szimbolikus (nominális, ordinális típusú változók) att-ribútumok esetén a kategória kódolásának terjedelmét tükrözi. A kategóriák leképezése azesetek többségében 1-tol kezdodik és egységnyi inkrementálással növekvo egész szám. Azattritbútum értékének érvényessége kizárólag az attribútum felveheto értékészletére vonat-kozik, nem jellemzi az attribútumok közötti konzisztenciát (pl.: megye és település).

Az attirúbumok leíró jellegének csoportosításával (4.2. táblázat) kép alkotható a redun-danciáról, az attribútumok szemantikai átfedéséro, végso soron az attribútumszám redukálá-sának lehetoségérol.

33

Page 39: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 4. ADATOK ELOFELDOLGOZÁSA

leíró jelleg attribútumszám

jellemzok

azonosítás 2 rekord egyedi azonosító (hash kód) és balesetilap azonosító

idopont 1 bekövetkezés idopontja év/hónap/nap/óra/percpontosággal

helyszín azonosítása 21 GPS koordináták, megye, település, útszakasz,közterület, stb.

közlekedési feltételek(út, úttest, forg.ir.)

14 út típus, alakzat, lejtviszony, sávok, útburkolat,forgalomirányítás módja, sávok jelzése, stb.

környezeti feltételek 4 idojárási és látási viszonyok, útfelület állapotabalesetet okozó 5 alkoholos befolyásoltság, jogosítvány megszer-

zése, vezetési tapasztalatbaleset kimenetele 8 baleset kimenetele (könnyu, súlyos, halálos), sé-

rültek és áldozatok száma 2 ill. 30 napon belülbaleset minosítés 2 balesetet eloidézo elsodleges ok, a baleset termé-

szete és típusa

4.2. táblázat. A balesetállomány attribútumainak leíró jellege

Az attribútumok több mint harmada a baleset lokalizációjáról tartalmaz információkat.A legmagasabb redundancia is ebben a csoportban figyelheto meg (pl.: település-megye,útszelvény-GPS koordináta). A második legtöbb tulajdonságot felölelo attribútum csopor-tot az út-, úttest- és a forgalomirányítás jellemzoi alkotják. A baleset kimenetelét leíró 8attribútum között szintén jelentos redundancia tapasztalható. A balesetek kimenetele a bal-esetben sérültek, elhunytak számától függ. A kimenetel megkülönböztetésre kerül a balesetbekövetkezés idopontjától számított 2 illetve 30 nap szerint.

A baleset elsodleges okát (99 kategória) és típusát (86 kategória) a KSH nomenklatúrájaalapján a helyszínelo ítéli meg (nem a bírósági eljárás lezárásának eredménye jelenik meg).A kategóriák magas számossága mellett mind az okok (13 csoport), mind a típusok (12csoport) magasabb fogalmi szinten csoportosíthatók. A magasabb aggregációs szint elosegítiaz értelmezést.

Az attribútumok érvényes adatokkal való töltöttségéhez kapcsolódó fobb problémákat a4.3. táblázat foglalja össze.

34

Page 40: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 4. ADATOK ELOFELDOLGOZÁSA

leíró jelleg töltöttségminosítés

jellemzés, problémák

idopont +++ A baleset idopontja minden esetben beazonosítható.helyszínazonosítása

+ A rekordok több mint felét érinti az útszakasz, útfor-galom hivatkozás, valamint a GPS azonosítás hiánya.A hiány elsodleges oka az, hogy ezek a balesetek telepü-lések belterületén, a helyi önkormányzatok által kezelt,nem számozott utakon következtek be. A belterülete-ket érinto balesetek azonosítására a közterület neve ésa házszám ad lehetoséget. A települések KSH azono-sítón alapuló nyilvántartása 15%-ban érvénytelen adatottartalmaz. A hibával érintett baleseteknél a megye kódkerült rögzítésre.

közlekedésifeltételek

++ A 2010 után bekövetekezett balesetek esetében nem ke-rült jelölésre, hogy a helyszín útkeresztezodés-e. Hiány-zik továbbá a forgalomszervezés jellege, a forgalomirá-nyító készülék mukodése, az úttest burkolata. Rendkívülalacsony (19%) az úttest szélességének töltöttsége.

környezetifeltételek

+++ Az attribútumok töltöttsége közel 100%.

balesetetokozó

++ Az alkoholos befolyásoltság és a jogosítvánnal rendel-kezés hiányzó rekordjainak aránya 15%, a vezetési ta-pasztalat 20%-a hiányos. A jogosítvány megszerzésénekidopontját jellemzo attribútumnak mindössze 13%-a ér-vényes adat.

baleset ki-menetele

+++ A kimenetel és a sérültek/elhunytak száma minden eset-ben kitöltött.

baleset mi-nosítés

+++ A baleset típusa és oka minden esetben kitöltött.

4.3. táblázat. A balesetállomány attribútumainak leíró jellege

A baleseti gócpontok kiválasztása nagyon szorosan kapcsolódik az adatok megbízha-tóságának kérdéséhez, ugyanakkor a balesetek rendelkezésre álló adatait több hiányosság,ellentmondás jellemzi.

Az érvényes adatokkal való töltöttség legnagyobb hiányosságai a helyszín azonosításátleíró attribútumokat érintik. Az adatminoség javításának legnagyobb feladata a baleseteklokalizálhatóságának javítása.

További problémát eredményez, hogy az adatbázisban nem következetes a hiányzó érté-kek jelölése. A hiányzó adatok egyes attribútumok esetében NULL értékeket, más mezokesetében 0 vagy -1 értéket vesznek fel.

35

Page 41: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 4. ADATOK ELOFELDOLGOZÁSA

4.3. Adatok elokészítése

Az elemzési feladatokat az eredeti adatforrásoktól leválasztott adatbázison indokolt elvé-gezni annak érdekében, hogy az eroforrásigényes elemzés ne terhelje az operatív rendszert.Az elemzési adatbázis nem igényel folyamatos aktualizálást, naprakészséget. Az eredmé-nyeket nem befolyásolja érdemben, ha csak naponta, hetente kerülnek áttöltésre az újabbbaleseti adatok. Ugyanakkor biztosítani kell az adatok rendszeres betöltésének és az adat-minoség javításának magas fokú automatizálását, annak érdekében, hogy az elemzést végzoszakértok ne az adatkezelésre, hanem az elemzésre összpontosíthassanak.

Az elemzési adatok hatékony elérése és konzisztenciájának javítása érdekében a relációsadatbázis kezelo rendszerben történo integrálás célrevezeto. Tekintettel arra, hogy az elem-zési célú feldolgozás az egyszeri adatbetöltést követoen lényegében csak nagyszámú olvasásimuveleteket igényel, ideális választás az SQLite relációs adatbázis rendszer[36].

Az SQLite egy önálló programkönyvtárként megvalósított, ACID-kompatibilis relációsadatbázis-kezelo rendszer. Az SQLite-ot alacsony eroforrásigényu rendszernek tervezték,így az önálló desktop (nem elosztott, konkurrens, kliens-szerver) alkalmazások kiszolgásárahatékony megoldást kínál. Az SQLite adatbázist egy speciális architektúra teszi más szabadfelhasználású adatbázis-rendszereknél gyorsabbá [37].

A teljes adatbázis (definíciók, táblák, indexek és maguk az adatok) egyetlen platform-független fájlban, lokálisan tárolódik, ugyanakkor biztosítható az adatbázis közvetlenül amemóriából (in-memory) való elérése is, amely magas operatív tárkapacitás esetén jelento-sen gyorsítja a feldolgozást.

A kliens-szerver architektúrájú adatbázis-kezelo rendszerekkel ellentétben az SQLitemotor nem egy különálló folyamat, amellyel az alkalmazás kommunikál. Az alkalmazás-hoz linkelt programkönyvtár lévén a program komponensét alkotja, amelynek eljárásai di-namikusan hívhatók meg. A folyamatok közötti kommunikációval szemben az alkalmazásfüggvényhívásokon keresztül használhatja az SQLite funkcionalitását, ami jelentosen csök-kenti az adatbázis elérési idejét.

Az SQLite egyszeru felépítéséhez a tranzakciókezelés során az egész adatbázis állománytzároló mechanizmus társul. A teljes adatbázis zárolása jelen esetben nem okoz problémát,mivel nem történik konkurrens elérés, az egyidejuleg kezdeményezett tranzakciók kiszolgá-lásával, ütközésével nem kell számolni.

A SQLite adattípusai: NULL, INTEGER (1-8 bájt, az ábrázolni kívánt érték nagyságátólfüggoen), REAL (8 bájtos IEEE lebegopontos ábrázolás), TEXT (alapértelmezetten UTF-8kódolás), BLOB (bináris objektumok).

Az SQLite rendelkezik R*-tree térbeli indexelést támogató modullal, ami a GPS koordi-náták feldolgozásában jelent támogatást. Az R*-tree lehetové teszi egy téglalap által tartal-mazott entitások gyors lekérdezését. Az elv könnyen kiterjesztheto az ido, mint harmadikdimenzió mentén, így az index segítségével hatékonyan kereshetoek meg egy adott terület,adott idointervallumba eso balesetei, ami a klaszterezés során támogatást jelenthet.

36

Page 42: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 4. ADATOK ELOFELDOLGOZÁSA

Az SQLite más adatbáziskezelo rendszerekhez képest az adatbetöltést érintoen mutat egykezelheto hátrányt. Az SQLite elmarad más adatbázisok sebességétol az INSERT utasításokesetében. Ennek oka, hogy alapesetben még a kötegelt feldolgozás során is minden egyesINSERT utasítást önálló tranzakcióba szervez. Mivel az architektúra nem tartalmaz a hoz-záféréseket koordináló központi traznakciókezelo egységet, az SQLite motor minden egyestranzakció esetében lezárja és újranyitja az adatbázis fájt. A probléma a kötegelt INSERTutasítások aszinkron, egyetlen tranzakcióba szervezésével kezelheto.

Az adatállományok pontosvesszovel tagolt CSV formátumban állnak rendelkezésre, ígyaz adabetöltés kiindulópontja is a szöveges formátum. A megvalósított rendszer biztosítjaa baleseti adatok kötegelt betöltésének funkcióját és lehetoséget nyújt a betöltött adatok le-kérdezésére. Az adatok elemzésre való elokészítése terén fontos funkció az adatminoségjavításának elosegítése, amelyet a rendszer a kiinduló adatbázis hibáira megírt és tárolt SQLparancsokkal támogat. A 4.4. táblázatban bemutatásra kerülo perzisztens parancskészletbovítheto újabb, a felhasználók által definiált utasításokkal.

attribútum tisztítás oka rekordokszáma

KERULET Nincs egyezés a KSH település elnevezésbenszereplo kerülettel. A KSH településnévbenszereplo kerület tekintheto referenciának.

2.478

M005 (megye) Nincs egyezés a település alapján a KSH refe-renciaadatbázisban szereplo megyével. A KSHszerinti megye tekintheto referenciának.

128

JAAA003 (út alakzata) Az út alakzat nem útkeresztezodést jelöl azolyan balesetek esetében, ahol keresztezo utcais megvan adva.

1.101

JAAA034-036 (30 na-pon belül sérültek)

A 30 napon belüli sérültek, meghaltak számaalacsonyabb, mint a balesetet követo 2 naponbelül (JAAA031-033).

3.464

JAAA029-030 (balesetkimentele)

A baleset kimenetelének minosítése nemkövetkezik a sérültek, meghaltak számából(JAAA031-036)

256

4.4. táblázat. A baleseti adatok tisztítását szolgáló eljárások

A baleseti adattáblában megfigyelheto magasfokú redundancia ugyan inkonzisztenciáteredményez az attribútumok között, azonban lehetoséget is kínál a helyes értékek kiválasz-tására és megtartásukkal a minoség javítására.

A táblázatban bemutattakon kívül több attribútum esetében is megfigyelheto ellentmon-dás más mezok értékével (pl.: baleset idopontjából következo napszak vs. látási viszonyok),azonban ezeknél nem ítélheto meg a referenciaérték, így a javítás sem végezheto el.

37

Page 43: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 4. ADATOK ELOFELDOLGOZÁSA

A további fobb adatjavítási lépések:

- Referencia adatok bevonása: A balesetek helyszínének azonosításával járó problé-mák kezelése során a megye, település és kerület adatok ellenorzéséhez a KSH köz-igazgatási helynévkönyve[38] szolgált referenciaként.

- Címtisztítás és geokódolás: A balesetek lokális beazonosíthatóságában jelentos ja-vulást eredményezett a hiányzó GPS koordináták pótlása azoknál az eseteknél, ahol aközterület mellett a házszám is rendelkezésre áll. A címtisztítás és geokódolás eredmé-nyeként a 116.019 hiányos rekordból 34.512 rekord esetében bovült a GPS koordiná-tákkal való azonosíthatóság. A kiegészítéssel a GPS koordinátákkal ellátott rekordokszáma 125.846 db-ra növekedett, ami a teljes adatbázis 61%-át teszi azonosíthatóvá.

- Hiányzó értékek egységesítése: A tisztítás során a eltéroen kezelt hiányzó értékekegységesítésre kerültek NULL érték jelölést használva.

- Formátumtranszformáció: Az SQLite nem rendelkezik önálló dátum és ido adattí-pussal, a dátumokat karakterláncként tárolja. Az így tárolt dátumok szabványos for-mátumú karakterlánc esetén dolgozhatóak fel dátum és ido függvényekkel. Az idodimenzió információinak maximális kihasználása érdekében a bemenetei DD-MMM-YY HH.MM.SS.000000000 AM/PM (pl.: 16-AUG-10 10.25.00.000000000 PM) for-mátum transzformálása vált szükségessé YYYY-MM-DD HH:MM:SS.SSS (2010-08-16 10:25:00:000) formátummá.

- Adatbovítés: A formátumtranszformáció elvégzését követoen az attribútumok boví-tését eredményezte a baleset idopontjának felbontása év, hónap, nap, óra, perc, hétnapja tagokra. A felbontással az elemzési adatbázis kiegészítheto az ido dimenziórairányuló olyan információkkal mint pl.: évszak, a napszak vagy a hétköznap/hétvégemeghatározása.

Elemzésbe bevonásra kerülo attribútumokat a 4.5.táblázat foglalja össze. A kiválasztottattribútumok értékkészlete több esetben redukálásra került összevonással (pl.: nedves, havas,jeges, olajos úttest együtt csúszós).

Az elemzésbe összesen 28 változó kerül bevonásra. Az elemzés alapját a GPS koordiná-tákkal rendelkezo, a mintaállományban szereplo összesen 125 846 db rekord biztosította.

38

Page 44: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 4. ADATOK ELOFELDOLGOZÁSA

leíró jelleg attribútumszám

kiválasztott attribútumok és értékkészletük

azonosítás 1 IDENT rekord azonosító (hash kód) megtartása a gócpon-tok baleseteinek egyedi azonosítása érdekében

idopont 4 BAL_IDO bekövetkezés idopontja, hét napja (hétköz-nap/hétvége), évszak (tavasz, nyár, osz, tél), napszak (reg-gel, nappal, este, éjszaka)

helyszín azo-nosítása

4 GPS LAT/LON koordináták, M005 megye és M009 telepü-lés

közlekedésifeltételek

7 MJ50_1 útkategória (autópálya, autóút, foút, egyéb),JAAA001 lakott terület-e (igen, nem), JAAA003 út alakzat(egyenes, kanyar, útkeresztezodés), JAAA007 úttest sávokszáma (1, 2, 3+), JAAA012 lejtviszony (emelkedo/lejto,sík), JAAA015 útburkolat állapota (egyenetlen, hibátlan),ANF átlagos napi forgalom

környezeti fel-tételek

3 JAAA016 útfelület állapota (száraz, csúszós), JAAA017idojárási viszonyok (derült, borult, csapadékos), JAAA018látási viszonyok (nappal, korlátozott, közvilágítás, éjszakaközvilágítás nélkül)

balesetetokozó

0 nem kerül bevonásra, feltételezve, hogy az alkohol befolyá-soltság és a vezetési tapasztalat az okozók egyedisége miattnem hozhatók összefüggésbe a góchelynek minosítéssel

baleset kime-netele

8 JAAA034-036 alapján képzett mutatók: sérültek számaösszesen 30 napon belül, könnyu/súlyos/halálos sérülésekés sérüléssel járó balesetek száma

baleset mino-sítés

1 JAAA020 a baleset típusa csoportosítva 12 kategóriába(TIP_CSOP)

4.5. táblázat. Az elemzésbe bevont attribútumok

39

Page 45: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

5. fejezet

Modellezés

5.1. Góchelyazonosítás

A potenciális góchelyek térbeli azonosítása a 2.2.1. fejezetben ismertetett DBSCAN suru-ségalapú klaszterezési eljárásra támaszkodik. A módszer algoritmusát a 5.1.pszeudokód írjale. Az algoritmus helyességének validálása az R statisztikai szoftverkörnyezet dbscan[39] ésfpc[40] csomagjainak eljárásaira támaszkodott. Az implementált és az R csomagok eljárásaiazonos eredményt szolgáltattak.

A szomszédság megállapítása a GPS koordinátákra alapul, így a gömbi trigonometriávalkonzisztens távolságfogalmak relevánsak. Az eljárás során alkalmazott 5.1 távolságmetrikaa gömfelszín koodináták esetében szóba jöheto alternatívák közül alacsony számításigényués kis távolságok esetén elegendoen pontos értéket szolgáltat.

D = R√

(∆φ)2 + (cos(φm)∆λ)2 (5.1)

ahol:∆φ és ∆λ a szélességi és hosszúsági koordináták különbségeφm a szélességi koordináták számtani átlagaR a Föld átlagos sugara (6 371 009 méter)

Az alapalgoritmusO(n2) számítási bonyolultságú, amely magas balesetszám esetén hosszúfutásidot eredményez. A tesztkörnyzetben a 16 023 db GPS koordinátával rendelkezo Pestmegyei baleset esetén az átlagos futásido 82 másdperc volt. Az eljárás gyorsításának irányaita térbeli index használata és az algoritmus párhuzamosítása jelentették. Mindkét fejlesztésa szomszédos elemek felkutatása terén eredményezett hatékonyságjavulást, amelynek mér-tékét a 5.1. táblázat foglalja össze. A KD-fa adatstrukturára épülo és 4 szálon végrehajtottfutás több mint 70% teljesítményjavulást eredményezett (24 másodperc). A teljes magyar-országi, 125 846 GPS koordinátával rendelkezo baleseti adatbázison a futásido 28 perc volttérbeli indexeléssel és 4 szálon futtatva.

40

Page 46: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 5. MODELLEZÉS

A kedvezobb futásido kisebb részben tulajdonítható a hatékonyabb adatszerkezetnek, azérdemi javulás a párhuzamosításnak köszönheto.

térbeli index feldolgozási ido (maximum arányában)1 szál 2 szál 4 szál

index nélkül 82 s (100%) 45 s (55%) 30 s (36%)KD-tree 66 s (80%) 37 s (45%) 24 s (29%)

5.1. táblázat. A DBSCAN eljárás hatékonyságjavulása (16 023 rekord esetén)

A párhuzamosítás kiinduló pontját az jelentette, hogy a klaszterezési eljárás szekvenciálisfutási idejének jelentos részét a távolságértékek kiszámítása teszi ki.

A szekvenciális megvalósításhoz képest változást jelent, hogy a távolság értékek kiszá-mítására irányuló kérés egy mester feladatot ellátó objektumhoz érkezik, amely gondoskodika baleseti adathalmaz particionálásáról. A felosztást követoen a független partíciók kiérté-kelésével járó feladatokat kiosztja a szolga objektumok részére (5.1.ábra).

5.1. ábra. A párhuzamosítás implementációja

A feldolgozást minden szolga külön szálban végzi. A feladatok kiosztása után a mestermegvárja a szolgák feldolgozási feladatának befejezését, majd begyujti és összesíti az ered-ményeket. A szolgák ugyanazon adathalmaz eltéro partícióit (baleseteit) dolgozzák fel, ígyaz implementáció adatfüggoségekkel nem jár. A feldolgozandó memóriaterületet a mesteráltal a szolgák részére továbbított feladat objektum határolja be.

41

Page 47: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 5. MODELLEZÉS

Algorithm 1 A DBSCAN módszer algoritmusaRequire: B[] a balesetek adataiRequire: ε távolságküszöb, MinPts gócminosítési küszöbEnsure: G[] góchelyekEnsure: N[], N’[] szomszédos pontokEnsure: b, b’ baleset

1: for all b ∈ B[] do2: if NemLátogatott(b) then3: LátogatottnakJelöl(b)4: N [] = SzomszédosPontok(b, ε)5: if SzomszédosPontokSzáma(N []) < MinPts then6: ZajosElemnekJelöl(b)7: else8: KövetkezoGóchelyInicializálás(G[])9: GóchelyhezHozzáad(G[], b)

10: for all b′ ∈ N [] do11: if NemLátogatott(b′) then12: LátogatottnakJelöl(b′)13: N ′[] = SzomszédosPontok(b′, ε)14: if SzomszédosPontokSzáma(N ′[]) ≥MinPts then15: N [] = N [] ∪N ′[]16: end if17: if NemGócPont(b′) then18: GóchelyhezHozzáad(G[], b′)19: end if20: end if21: end for22: end if23: end if24: end for25: return G[]

42

Page 48: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 5. MODELLEZÉS

Az implementált eljárás lehetoséget biztosít az ε és a MinPts paraméterek beállítására,továbbá az alkalmazott adatszerkezet (láncolt lista v. KD-fa) és a párhuzamosított futtatásérdekében igényelt szálak megadására.

A 5.2. ábra az eljárás egy futtatásának eredményét szemlélteti belso Óbudán. A megadottparaméterek mellett (ε = 50 méter, MinPts = 5) a terület potenciális góchelyei:

- Bécsi út - Kenyeres utca keresztezodés

- Pacsirtamezo utcának a Tímár utca és Selmeci utca közötti útszakasza

- Pacsirtamezo utcának a Viador utcai keresztezodést megelozo szakasza

- Lajos utcának a Kolosy teret megelozo útszakasza

- Árpád fejedelem utca - Evezo utca keresztezodés

5.2. ábra. Az algoritmus eredménye belso Óbudán

A GPS koordináták alapján azonosított góchelyek lokalizációját a klaszter súlypontja ésa góchelyhez tartozó baleseteket határoló konvex poligon határozzák meg (gift wrappingalgoritmus segítségével).

43

Page 49: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 5. MODELLEZÉS

5.2. Prediktív technikák

A potencális góchelyek azonosítására támaszkodó klaszterbázisú predikciós modellezés céljaaz alábbi három kérdéskör megválaszolása:

- A magyarországi baleseti adatbázisra építve mely prediktor változók a legrelevánsab-bak az elorejelzés során?

- Az egyes elorelejzési modellek milyen pontossággal képesek becsülni a góchelyekhezkapcsolódó historikus kimenetelt (balesetszámot, stb.) és milyen általánosító képeség-gel rendelkeznek?

- A függo változók empirikus és a becsült értékének viszonyítása alapján mely góche-lyek minosülnek kiemelten kockázatosnak magyarországon?

A fenti kérdésekre kapott válaszok alapján javasolható egy, a hazai gyakorlatban ered-ményesen alkalmazható predikciós modell.

A fejezetben a Pest megyében, 2002-2012 idoszak adatai alapján, ε = 50 méter és MinPts= 5 baleset paraméterek mellett azonosított 384 db góchely tesztadatként való felhasználásá-val kerül bemutatásra két regresziós technika és két mesterséges neurális hálóra épülo modellpredikciós képessége.

5.2.1. Góchelyek reprezentációja

A góchelyek a 4.5.táblázatban felsorolt attribútumok értékkészlete mentén kerülnek leírásra.Minden esetben egy folytonos intervallumú, arány skálájú változóval. A balesetek kimene-telét jellemzo - a modellezés során függo - változók (balesetek száma összesen és kimenetelszerint, sérültek száma összesen és kimenetel szerint) [0,∞] értéket vehetnek fel.

Az azonosított góchelyek jellemzése a góchely által tartalmazott egyedi baleseti adatokdiszkrét értékkészletu tulajdonságainak aggregálásával valósul meg. A balesetek körülmé-nyeit leíró - prediktor - attribútumok értékészlete [0, 1] intervallumba normalizált. A nor-malizálás lineárisan történt, az adott érték relatív gyakoriságának felel meg az attribútumértékkészletén belül. A változók értékei egyúttal fuzzy (igazság)mértékeknek tekinthetoek,azt a tulajdonságot reprezentálva, hogy mennyire jellemeznek egy adott góchelyet.

Például egy 7 balesetet tartalmazó góchely esetében 4 olyan balesetet fordult elo, amelyaz adabázis alapján útkeresztezodésben bekövetkezettnek minosült. Ekkor az ut_alakzatattribútum keresztezodés értékébol képzett, ut_alakzat.keresztezodes változó értéke 0,57.

Az aggregáció tetszoleges [0, 1] értékkészletu és monoton függvénnyel helyettesítheto.Például az ugrásfüggvény alkalmas arra, hogy egy adott küszöbértéket (pl. 0.5 középérté-ket) meghaladó tulajdonságok dominánsak legyenek, míg az alatta maradók figyelmen kívülmaradjanak a góchelyek jellemzése során.

44

Page 50: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 5. MODELLEZÉS

A fenti módszerrel az attribútumok és általuk felveheto diszkrét értékekbo képzett pre-diktor változók lehetséges száma 57 db, amely kiegészül a napi átlagos forgalmat jellemzoattribútummal.

A prediktív modellek a fentiek szerint azonosított és a baleseti adatok tulajdonságainakaggreggációjával kapott, kizárólag folytonos értékkészletu változókkal jellemzett potenciálisgóchelyekkel dolgoznak. A modellezés támogatása érdekében implementált szoftver leheto-séget biztosít a modellezésbe bevont függo és prediktor változók rugalmas kezelésére és azelimináció elvégzésére.

A modellek két függo változóval kerültek tesztelésre: (i) góchelyek várható baleset-száma illetve (ii) a góchelyek kimenetellel súlyozott várható balesetszáma. A súlyozás sorána halálos kimenetelu balesetek 5, a súlyosak 2, a könnyu sérüléssel járóak 1 súllyal kerültekfigyelembe vételre.

5.2.2. Regressziós elorejelzés

A regressziós technikák tesztelése során a hagyományos, normális eloszlást feltételezo több-változós lineáris regresszió (MLR) és az általánosított lineáris modell (GLM) került alkal-mazásra.

A modellezésbe bevont góchelyek balesetszámának eloszlását a 5.3.ábra szemlélteti. Agóchelyek 82%-ában a balesetszám 5 és 9 db közé esik, míg a góchelyek maradék 18%-aesetében fordul elo 10-50 db baleset. A súlyozott balesetszám esetében a góchelyek 79%-a 5-14 intervallumba esik. A függo változók erosen aszimmetrikus, jobbra ferde eloszlástmutatnak, amely általában jól közelítheto Poisson eloszlással.

5.3. ábra. Pest megyei góchelyek balesetszámának eloszlása

A Poisson eloszlás jól becsüli az empirikus eloszlást, ennek megfeleloen az általánosí-tott modellben a Poisson eloszlás és természetes alapú logirtmus kapcsolati függvény kerültalkalmazásra.

A modellezésbe bevonásra kerülo független változók megadhatók a felhasználó részé-rol, de célszerubb a rendszer forward elimináció funkciójának használata. Az implementált

45

Page 51: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 5. MODELLEZÉS

megoldás a felhasználó által megadott számú változó kiválasztását végzi el mohó megkö-zelítéssel, mindig az adott iterációban a modell pontosságában legnagyobb javulást eléroprediktor hozzáadásával.

A tesztadatokon a atlagos_napi_forgalom mellett további 5 változóra elvégzett elmi-náció eredményét a 5.4.ábra jellemzi. A grafikonok az egyes újonnan bevont prediktorokhatását tartalmazzák a balesetszám és a súlyozott balesetszám predikciójára vonatkozóan, anégyzetes hibaösszegben (SSE) bekövetkezett javulás sorrendjében.

5.4. ábra. A forward elimináció hatása a pontosságra (négyzetes hibaösszeg)

A két regressziós modell esetében elofordultak különbözo illetve azonos, de eltéro rele-vanciájú változók. Az alábbi prediktorok minosültek mindkét modell esetében szignifikáns-nak az elorejelzo képesség tekintetében:

- az útkeresztezodésben bekövetkezett balesetek aránya

- a balesetek helyszíne foútvonal vagy sem

- 1 vagy 2 sávos az útvonal

- a balesetek típusában meghatározó-e a körforgalomban illetve az egymással szembehaladó jármuvek ütközése

Az elmináció rávilágít, hogy a atlagos_napi_forgalom mellett 3 változó bevonásán túltovábbi változók modellbe építése nem javítja jelentosen az elorejelzés pontosságát.

46

Page 52: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 5. MODELLEZÉS

A hagyományos lineáris regresszió esetén a 4 változós regresszióval a várható baleset-számra 5.2, a súlyozott várható balesetszámra 5.3 képlet adódik.

λ(x) = 0, 00000629x0 + 4, 56932720x1 + 5, 59533325x2 + 2, 01400290x3 (5.2)

λ(x) = 0, 00000409x0 + 6, 02350545x1 + 8, 27940629x2 + 4, 32102594x3 (5.3)

ahol:x0 atlagos_napi_forgalomx1 ut_alakzat.keresztezodesx2 ut_irany.ketiranyux3 ut_kategoria.fout

Az általánosított lineáris modell futtatásával pedig a várható balesetszámra 5.4, a súlyo-zott várható balesetszámra 5.4 képletek adódnak.

λ(x) = e1,99149055−0,00000169x0+0,51990941x1+0,21917515x2−0,21981482x3 (5.4)

λ(x) = e2,42631347−0,00000274x0+0,44771769x1+0,32144623x2−0,25314880x3 (5.5)

ahol:x0 atlagos_napi_forgalomx1 ut_alakzat.keresztezodesx2 ut_kategoria.foutx3 ut_savok.1

5.2.3. Neurális háló

A regressziós technikák alternatívájaként mesterséges neurális háló került alkalmazásra, amelyideális a folytonos változók kezelésére és regressziós összefüggés approximálására. A mo-dellépítés két típusú hálózatra támaszkodott: (i) egy processzáló elem szigmoid kimenetinemlinearitással (SLP) és (ii) többrétegu elorecsatolt hálózat (MLP), amely rejtett rétegébena bemenetek száma 1/4-ének megfelelo neuron helyezkedett el.

A neuronok szigmoid aktivációs függvénnyel muködtek a 5.6 képlet szerinti módosítás-sal, ahol α paraméter a függvény meredekségét határozza meg.

S(wTx) =1

1 + e−αwT x (5.6)

47

Page 53: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 5. MODELLEZÉS

A paraméter növelés esetén a szigmoid függvény az ugrásfüggvényt, csökkenés esetén alineáris meredekséget közelíti. A α paraméter a modellezés során 2 értéket vett fel.

A tanítás során a bemeneti változókat az általánosított lineáris modellre támaszkodó for-ward elimináció elso 20 változója adta. A bemeneti változók normalizálásra kerültek [0, 1]

intervallumba.A hálózatok kimenete 1 neuronból áll. A kimeneti neuron aktivációs függvénye a góc-

hely várható balesetszáma/100 hányados arányát adja eredményül. A tanítás érdekében atapasztalati balesetszámok is ennek megfeloen transzformálásra kerültek.

A tanítás kezdetekor a súlyok véletlenszeruen inicializálódtak, a többrétegu hálózatbenminden neuron összekötésre került. A tanítás kötegelt eljárással, a teljes tanítóminta hibájaalapján végezte el súlykorrekciókat (nem mintaelemenként). A tanítás mindkét hálózat ese-tében felügyelt, az egy elemes modellben delta, a többrétegu hálózatban back-propagationhiba visszaterjesztéses tanulási szabály alapján folyt. A tanítás a hiba 0,3 érték alá csökke-nése vagy 10 000 iteráció elérése megállási feltételek bekövetkezése esetén áll meg.

Az ideális tanulási ráta 4 különbözo kiindulási ráta viszgálata mellett történt (0,5; 0,3;0,1; 0,5).

5.5. ábra. A tanítás különbözo tanulási ráták mellett

Az MLP esetében a legmagasabb vizsgált (0,5) ráta, az SLP esetében pedig a legala-csonyabb (0,05) mellett volt elérheto a modell legmagasabb pontossága. Alacsony (<0,3)tanulási ráta mellett az MLP hálózat pontossága a súlyok kezdeti inicializálásától függoenjelentos szórodást mutatott. A eredmények alapján a tanulási ráta az MLP esetében 0,5, azSLP esetében pedig 0,05 értékben került meghatározásra.

A 5.5.ábra a tanulási ráták hatása mellett türközi az MLP hálózat magasabb pontosságátaz SLP hálózathoz képest.

48

Page 54: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 5. MODELLEZÉS

5.3. Értékelés

A statisztikai regressziós modellek és a mesterséges neurális hálózatokon alapuló technikákpontosságának összehasonlítása érdekében mind a négy modell tesztelésre került ugyanazona teszthalmazon (Pest megyei góchelyek).

Az elorejelzési képesség mérése a λ várható és λ tényleges balesetszám összvetésévelmeghatározott méroszámok segítségével történt. Az alkalmazott méroszámok a következok:négyzetes eltérésösszeg (5.7), módosított négyzetes eltérés (5.8), Brier-score (5.9) A felsoroltméroszámok esetében minél alacsonyabbak az érték, a modell annál pontosabbnak bizonyula teszthalmazon.

SSE =N∑i=1

(λi − λi)2 (5.7)

SSE′=

N∑i=1

(λi − λi)2

λ(5.8)

BS =1

N

N∑i=1

(λi − λi)2 (5.9)

Az 5.10.képlet által kifejezett R2 determinációs együttható (lineáris korrelációs együtt-ható) értéke [0,1] intervallumot vehet fel és azt mutatja, hogy a modell segítségével a teljesszórásnégyzet hányad részét sikerül magyarázni. Minél magasabb az érték, annál pontosabbaz elorejelzés (λ a tényleges balesetszám átlaga). A kis R2 mutató nem feltételenül jelentgyenge függvénykapcsolatot. Nagyobb mintaszám esetén (100 felett) mellett már 0,2-0,3érték is szingifikáns kapcsolatra utalhat.

R2 =

N∑i=1

(λi − λi)2

N∑i=1

(λi − λi)2(5.10)

A méroszámok felhasználásával a várható balesetszám elorejelzési képességre kapott ér-tékeket a 5.2.táblázat foglaja össze.

modell pontosság méroszám validációSSE SSE

′BS R2 SSE

MLR 7 238,5 755,4 19,7 0,155 7 844,5GLM 7 097,7 732,3 19,3 0,154 7 953,2SLP 7 100,5 751,6 19,3 0,183 8 530,6MLP 5 622,2 683,0 15,3 0,395 9 881,1

5.2. táblázat. A prediktív technikák pontossága a balesetszámra

49

Page 55: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 5. MODELLEZÉS

modell pontosság méroszám validációSSE SSE

′BS R2 SSE

MLR 17 511,9 1 236,9 47,6 0,178 21 075,3GLM 17 103,0 1 196,6 46,5 0,182 33 486,9SLP 17 351,6 1 307,3 47,2 0,190 19 350,8MLP 7 535,3 742,4 20,5 0,816 92 679,9

5.3. táblázat. A prediktív technikák pontossága a súlyozott balesetszámra

A táblázat alapján a hagyományos többváltozós lineáris regresszióval (MLR) szemben azáltalánosított lineáris modell (GLM) pontossága nem mutat jelentos elonyt. Már az egy pro-cesszáló elemes mesterséges neuron (SLP) is felveszi a versenyt a statisztikai módszerekkel.A többrétegu elorecsatolt hálózat (MLP) pedig egyértelmuen a legpontosabb prediktív tech-nikának bizonyul. Elonye a kimenetellel súlyozott balesetszám elorejelzésében kimagasló(5.3.táblázat).

A tanító minta approximálásának pontossága mellett fontos szempont az egyes modellekáltalánosító képességének megítélése és a túltanulás elkerülése. Az általánosító képesség,azaz a tanítómintában nem szereplo tesztminták esetében mutatott pontosság mérésenek el-terjedt eszköze a keresztvalidálás. A validálás során a Pest megyei góchelyek 10 db azonoselemszámú halmazba kerültek véletlenszeruen felosztásra. Ezt követoen az iteráció mindenlépésében 1 teszthalmaz került kiválasztásra, a maradék 9 halmaz uniója pedig a tanítóhal-mazt adta. A keresztvalidálás SSE értéke a teszthalmazokra 10 lépésben mért hiba összege.

Az általánosító képesség és a tanítóhalmazon mért pontosság egymással ”trade-off ” köl-csönhatásban állnak. Az a modell, amely a tanítóhalmazra kiemelkedoen jól illeszkedik,az általánosító képesség terén hátrányt mutat a tanítóhalmazon kevésbé pontos eljárásokkalszemben.

A legjobb általánosító képességgel a balesetszám esetében a statisztikai regressziós mo-dellek, a súlyozott balesetszám esetében pedig az egyelemes neurális hálózat bizonyult.Az univerzális approximációs képességgel bíró többrétegu neurális háló a túltanulás miattgyenge általánosító képességgel bír. Az általánosító képesség javítása a pontosság hátrá-nyára a tanulási ráta és/vagy az iterációk számának csökkentésével érheto el.

A góchelyek kockázati térképe a függo változó várható és tényleges értéke hányadosa-ként kapott indexre alapul. A modellezés eredményeinek kiértékelését támogató alrendszera góchelyek lokalizációjának térképi megjelenítése mellett segíti a kockázatosság interpretá-lását is. A kockázati index egy színskála felhasználásával kategorizálja az útszakaszokat. Azöld árnyalatai az alacsony kockázati indexszel rendelkezo (kisebb vagy egyenlo mint 1), avörös árnyalattal illusztrált góchelyek pedig a magas kockázati indexu útszakaszokat jelölik(index értéke meghaladja az 1-et).

A 5.6.ábra a Pest megyei tanító adatok felhasználásával, MLP modell segítségével kapottkockázati térképen szemlélteti Szendtendre és környéke góchelyeinek baleseti kockázatos-ságát. A góchelyeket reprezentáló körök középpontja a lokalizációt (a balesetek elhelyezke-

50

Page 56: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 5. MODELLEZÉS

désének súlypontja) azonosítja, átméroje pedig a kockázati indexszel arányos.A térképen szemléltetett terület legkockázatosabb góchelye Szentendre Dózsa György út

bevezeto szakaszán található, foként nyári idoszakban bekövetkezo balesetek és a kanyarodóill. keresztirányban mozgó jármuvek összeütközése jellemzi.

5.6. ábra. Szentendre-Pomáz baleseti kockázati térképe

A rendszer továbbfejlesztési lehetoségeit elsosorban a bizonytalanságok kezelése érde-kében segítségül hívható fuzzy logika jelentheti. A technika implementálását segíti, hogya góchelyek reprezentációja már kvázi fuzzy halmazokkal dolgozik, a góchelyeket leíró tu-lajdonságok [0, 1] intervallumon értelmezettek és minél nagyobb az érték, annál erosebbenjellemez egy adott góchelyet. A jelenleg lineáris igazságfüggvény lecserélheto nem lineárisfüggvényre, így a tanító mintákban az eros tulajdonságok szerepe kiemelheto.

A lágy számítási módszerek közül a genetikus algoritmusok segíthetik a modellépítést, amegfelelo paraméterek keresésével illetve a neurális hálók esetében a topológia kialakítánakjavításával. A genetikus algoritmus a jelenleg használt és a mohó algoritmusok hátrányá-val rendelkezo forward elimináció alternatívájaként a bevonásra kerülo baleseti jellemzokkiválasztását is támogathatja.

51

Page 57: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

6. fejezet

Összefoglalás

Az elmúlt években a KSH adatfelvételi eloírásai és a GPS koordináták rögzítésének köszön-hetoen jelentos mértékben gyarapodott a hazai közúti baleseteket nyilvántartó adatbázis. Azértékes szakterületi adatvagyonra építve kulcsfontosságú szerepet játszik a korszeru infor-mációs technológiák bevonása a balesetmegelozésbe.

A dolgozat célja, hogy a magyarországi baleseti adatbázis felhasználási lehetoségeihezigazodó módszer implementálásával gyarapítsa a balesetmegelozés informatikai eszköztárát.

A dolgozat eloször áttekinti az elmúlt évek hazai gyakorlatát, majd számba veszi a nem-zetközi szakirodalomban megjelent, releváns baleset-veszélyességet elorejelzo statisztikai ésadatbányászati technikákat. Az irodalmi áttekintést az elemzési munkafolyamat tervezése ésa modellezést támogató rendszer implementálásának koncepcióterve követi.

Az elemzés elokészítéséhez kapcsolódóan bemutatásra kerül a modellezésbe bevonhatóhazai baleseti adatok köre, majd a baleseti adatok tisztításával, kiegészítésével járó munkafolyamata. Az adatok elofeldolgozása során elért eredmények közül kiemelkedo az inkon-zisztenciák csökkentése és a GPS koordinátákkal nem rendelkezo adatok geokódolása. Ageokódolás eredményeként közel 35 ezer rekord esetében bovült a GPS koordinátákkal valóazonosíthatóság.

A modellezés a prediktív technikák több alternatíváját vizsgálja meg. Közös pont, hogyaz implementált technikák mindegyike klaszterbázisú, a modellezés a baleseti adatok góc-helyek szintjént történo csoportosítását feltételezi. A dolgozat a DBSCAN suruség alapúklaszterezési technikára támaszkodik. Az implementáció kiemelkedo eredményét képezi afutási teljesítményben elért közel 70%-os javulás, amelyet a hatékony adatstruktúra (térbeliindex) alkalmazása és a magasfokú párhuzamosítás tett lehetové.

A prediktív modellezés során a dolgozat a regressziós technikák és neruális hálózatokimplementálására támaszkodva mutatja be a szignifikáns prediktor változókat és az egyesmodellek által a góchelyek kimenetele (balesetszám) elorejelzésében elért becslési pontos-ságot. A legrelevánsabb prediktor változók: a góchely útkeresztezodés-e, az útvonal típusa(autópálya, autóút, foútvonal, egyéb), útsávok száma.

A modellezés értékelése alapján a hagyományos többváltozós lineáris regresszióval szem-

52

Page 58: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 6. ÖSSZEFOGLALÁS

ben az Poisson regresszió (általánosított lineáris modell) pontossága nem mutat jelentoselonyt. Már az egy processzáló elemes mesterséges neuron is felveszi a versenyt a statisz-tikai módszerekkel. A többrétegu elorecsatolt hálózat pedig a teszthalmazon egyértelmuena legpontosabb prediktív technikának bizonyul. Elonye a kimenetellel súlyozott baleset-szám elorejelzésében kimagasló. Ugyanakkor az általánosító képesség terén a statisztikairegressziós modellek elonyösek.

A legerosebb prediktív képességet a többrétegu elorecsatolt neurális hálózatok mutatták,így a hazai gyakorlatba is eredményesen bevezethetok.

Az eredmények térképi megjelenítésének implementációja támogatja a modellezés ki-értékelését és a góchelyek lokalizációja mellett segíti a kockázatosság interpretálását is. Agóchelyek kockázati térképe a függo változó várható és tényleges értéke hányadosaként ka-pott indexre alapul.

A dolgozat befejezésként javaslatot tesz a továbbfejlesztési lehetoségek irányára.

53

Page 59: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

7. fejezet

Summary

In the recent years the database of traffic accidents increased remarkably due to standards ofdata collection of Hungarian Central Statistical Office and recording GPS coordinates. Invol-ving information technologies plays an important role in the prevention of traffic accidentsbased on valuable domain specific database.

The goal of the thesis is enriching accident preventing IT tools with the implementationof a method using Hungarian accidents database. First, the thesis overviews the Hungarianpractice in the recent years, then examines the relevant statistical and datamining predictivetechniques of risk of traffic accidents in international literature. The literature review is follo-wed by the planning of the analytical workflow process and the designing of implementationof a modeling support system.

In the following chapter relating to the preparation of analysis the relevant Hungarian do-main specific dataset and data cleaning process are presented. The outstanding achievementsof the data preparation are reducing inconsistencies of data and geocoding records which donot include GPS coordinates. As a result of geocoding approximately 35 thousand of recordswere complemented with GPS coordinates.

The modeling examines several alternatives of predictive techniques. Each of the imple-mented methods are cluster-based, the modeling presupposes clustering of accidents on thelevel of black spots. The thesis relies on the DBSCAN density based clustering technique.The most important result of implementation is improvement of running process with 70%,which can be reached by the adaptation of effective data structure (spatial index) and parallelcomputing.

Through the predictive modeling the thesis presents the significant predictor variablesand the accuracy of estimated casualty of black spots based on implementation of regressivetechniques and artificial neural networks.

The most relevant predictors are: crossroads, type of road (motorway, highway, ...), countof lanes. The conclusion of the evaluation of modeling is that the generalized linear regres-sion does not show significant benefit over the traditional multiple linear regression. Even theone processing element ANN rivals statistical methods. The multi layer feedforward ANN

54

Page 60: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

FEJEZET 7. SUMMARY

proves that it is the most accurate predictive technique, it shows outstanding advantage in theprediction of weighted accidents number. Although the statistical regression models seem tobe strong at generalizing skills. Due to its good predictive capability it can be successfullyused in the Hungarian practice.

Geographical presentation of prediction outcomes supports the evaluation of results, lo-calization and interpretation of the risk of black spots. The risk map of black spots is basedon the coefficient of predicted and historical accidents numbers.

Finally, the thesis proposes the direction of further development.

55

Page 61: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

Irodalomjegyzék

[1] European Commission Directorate General for Mobility and Transport: Roadsafety evolution in EU, (http://ec.europa.eu/transport/road_safety/pdf/observatory/historical_evol.pdf), utoljára megtekintve:2016.05.18.

[2] Európai Bizottság: Fehér könyv, Útiterv az egységes európai közlekedési térség meg-valósításához, (http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=COM:2011:0144:FIN:HU:PDF), utoljára megtekintve: 2016.05.18.

[3] KSH: 2.5.9 Közlekedési balesetek, (http://www.ksh.hu/docs/hun/xstadat/xstadat_eves/i_ods001.html), utoljára megtekintve:2016.05.18.

[4] Központi Statisztikai Hivatal: Személysérüléses közúti közlekedési baleset sta-tisztikai adatfelvételi lap (nyilvántartási szám: 1009) (https://www.ksh.hu/docs/hun/info/02osap/2014/kerdoiv/k141009.xls), utoljára megte-kintve: 2016.05.18.

[5] Központi Statisztikai Hivatal: Útmutató a személysérüléses közúti közlekedési bal-eset statisztikai adatfelvételi lap kitöltéséhez, (https://www.ksh.hu/docs/hun/info/02osap/2014/kitoltesi/d141009.doc), utoljára megtekintve:2016.05.18.

[6] Nemzeti Fejlesztési Ügynökség: Új Széchenyi terv Közlekedés Operatív Prog-ram (KÖZOP) Célzottan közlekedésbiztonságot javító fejlesztések, Baleseti gócpon-tok megszüntetésének elokészítése (KÖZOP-3.5.0-09-11-2011-0015), (https://www.palyazat.gov.hu/download.php?objectId=46520), utoljára meg-tekintve: 2016.05.18.

[7] Magyar Út- és Vasútügyi Társaság: Csomópontok és útvonalak baleset-veszélyességiértékelési módszertanának kidolgozása, (https://www.ksh.hu/docs/hun/info/02osap/2014/kitoltesi/d141009.doc), utoljára megtekintve:2016.05.18.

56

Page 62: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

IRODALOMJEGYZÉK

[8] Útgazdálkodási és Koordinációs Igazgatóság: A megyei közúthálózat baleseti góc-helyeinek azonosítása, (www.biztonsagkutato.hu/utmutato.doc), utoljáramegtekintve: 2016.05.18.

[9] Biztonságkutató Mérnöki Iroda: WIN-BAL Személysérüléses közúti közlekedésibalesetek adatainak kezeloprogramja, http://www.biztonsagkutato.hu/

winbal.htm, utoljára megtekintve: 2016.05.18.

[10] K. Geurts, G. Wets, Black Spot Analysis Methods: Literature Review, Steunpunt Ver-keersveiligheid bij Stijgende Mobiliteit, 2003, pp. 1-30.

[11] S. Mungnimit, K. Jierranaitanakit, S. Chayanan: Sequential Data Analysis for BlackSpot Identification, Bureau of Highway Safety, Department of Highways, Thailand Mi-nistry of Transport, 2009

[12] S. Lee, Y. Lee: Calculation Method for Sliding-window Length: A Traffic AccidentFrequency Case Study, Proceedings of the Eastern Asia Society for TransportationStudies, Vol.9, 2013

[13] R. Elvik: A survey of operational definitions of hazardous road locations in some Euro-pean countries, Accident Analysis and Prevention, Vol. 40, 2008, pp. 1830-1835.

[14] R. Elvik: State-of-the-art Approaches to Road Accident Black Spot Management andSafety Analysis of Road Networks, RIPCORD-ISEREST - WP6, 2009

[15] D. Steil, A. Parrish: HIT: A GIS-Based Hotspot Identification Taxonomy, IJCA, Vol.16, No. 2, 2009

[16] S. Szénási, D. Jankó: A Method to Identify Black Spot Candidates in Built-up Areas,Journal of Transportation Safety & Security, 2015

[17] A. Gatrell, T. Bailey, P. Diggle, B. Rowlingson: Spatial Point Pattern Analysis andits Application in Geographical Epidemiology, Transactions of the Institute of BritishGeographers, Vol.21, 1996, pp.256-274

[18] J. Han, M Kamber, A.K.H Tung: Spatial Clustering Methods in Data Mining: A Sur-vey, H.J. Miller and J. Han (Eds.) Geographic Data Mining and knowledge discovery,2001, pp.33-50.

[19] S. Skekhar, M. R. Evans, J. M. Kang, P. Mohan: Identifying Patterns in Spatial Infor-mation: a Survey of Methods, John Wiley and Sons, 2011

[20] J. Han, M. Kamber: Adatbányászat. Koncepciók és technikák, Panem, 2004

[21] P.N. Tan, M. Steinbach, V. Kumar: Adatbányászat alapvetés, Panem, 2012

57

Page 63: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

IRODALOMJEGYZÉK

[22] E. Hauer: Hauer, E.: Overdispersion in modelling accidents on Road Sections and inEmpirical Bayes estimation, Accident Analysis and Prevention, Vol.33, 2001, pp. 799-808.

[23] F. T. Kibar, F. Celik, B.P. Aytac:An accident prediction model for divided highways:A case study of Trabzon coastal divided highway, Department of Civil Engineering,Karadeniz Technical University, 2013

[24] P. Chengye, P. Ranjitkar: Modelling Motorway Accidents using Negative BinomialRegression, Proceedings of the Eastern Asia Society for Transportation Studies, Vol.9,2013

[25] V. Valentová, J. Ambros, Z. Jano¨ka: A Comparative Analysis of Identification of Ha-zardous Locations in Regional Rural Road Network, Advances in Transportation Stu-dies an international Journal Section, Vol.34, 2014, pp.57-66.

[26] L. Mussone, A. Ferrari, M. Oneta: An analysis of urban collisions using an artificialintelligence model. Accident Analysis and Prevention, Vol. 31, 1999, pp.705-718.

[27] S. Y. Sohn, S. H. Lee: Data Fusion, Ensemble and Clustering to Improve the Classi-fication Accuracy for the Severity of Road Traffic Accidents in Korea. Safety Science,Vol. 4, 2003, pp.1-14.

[28] T. Beshah, S. Hill: Mining Road Traffic Accident Data to Improve Safety: Role ofRoad-related Factors on Accident Severity in Ethiopia, Department of Information Sci-ence, 2010

[29] M. Chong, A. Abraham, M. Paprzycki: Traffic Accident Data Mining Using MachineLearning Paradigms, Computer Science Department, Oklahoma State University, 2004

[30] S. Krishnaveni, M. Hemalatha: A Perspective Analysis of Traffic Accident using DataMining Techniques, Internal Journal of Computer Applications, Vol. 23, 2011

[31] F. R. Moghaddam, S. Afandizadeh, M. Ziyadi: Prediction of accident severity usingartificial neural networks, International Journal of Civil Engineering, 2010

[32] M. H. Hosseinlou, M. Sohrabi: Predicting and Identifying Rraffic Hot Spots Apply-ing Neuro-fuzzy Systems in Intercity Roads, Int. J. Environ. Sci. Tech., Vol. 6, 2009,pp.309-314.

[33] SPSS: CRISP-DM 1.0, (http://the-modeling-agency.com/crisp-dm.pdf), utoljára megtekintve: 2015.05.18.

[34] J. Abonyi: Adatbányászat, a hatékonyság eszköze, Computerbooks, 2006

58

Page 64: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

IRODALOMJEGYZÉK

[35] Magyar Közút Nonprofit Zártkör?en M?köd? Részvénytársaság: A közúti forga-lom figyelemmel kísérése 2014, (http://internet.kozut.hu/Documents/A_kozuti_forgalom_figyelemmel_kiserese_2014.pdf), utoljára meg-tekintve: 2016.05.18.

[36] SQLite relációs adatbáziskezelorendszer honlapja, (https://www.sqlite.org/), utoljára megtekintve: 2015.05.18.

[37] SQLite: Database Speed Comparison, (https://www.sqlite.org/speed.html), utoljára megtekintve: 2015.05.18.

[38] Központi Statisztikai Hivatal, Magyarország közigazgatási helynévkönyve (www.ksh.hu/docs/hun/hnk/hnk_2015.xls), utoljára megtekintve: 2016.05.18.

[39] The Comprehensive R Archive Network: Density Based Clustering of Applicationswith Noise (DBSCAN) and Related Algorithms, (https://cran.r-project.org/web/packages/dbscan/), utoljára megtekintve: 2016.05.18.

[40] The Comprehensive R Archive Network: Flexible Procedures for Clustering,(https://cran.r-project.org/web/packages/fpc/), utoljára megte-kintve: 2016.05.18.

59

Page 65: DIPLOMAMUNKAsarizoltan.hu/sites/default/files/docs/SariZoltan_BSP.pdfHallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált

A. Függelék

Balesetállomány jellemzése

ATTRIBÚTUM JELLEG ÉRTELMEZÉS MÉRÉSISKÁLA

ÉRVÉNYESMIN

ÉRVÉNYESMAX

ÉRVÉNY-TELEN

HIÁNYZÓADAT

TÖLTÖTT-SÉG

IDENT azonosító rekord egyedi azonosító nominális 0 0 100%MJ03 azonosító baleseti lap egyedi azonosító nominális 0 0 100%BAL_IDO idopont baleset idopontja intervallum 2010.01.01 2012.12.31 0 0 100%OKASZAK_OFFSET

helyszín eltolás az útszakasz kezdetétol arány 0 448 105 069 49%

OKASZAK_ID helyszín útszakasz azonosító nominális 0 105 069 49%OKASZAK_TRAFFIC_ID

helyszín forgalom azonosító nominális 0 105 180 49%

OKASZAK_GPS_LAT

helyszín szélességi koordináta arány 0 0 116 019 44%

OKASZAK_GPS_LON

helyszín hosszúsági koordináta arány 0 0 116 019 44%

M005 helyszín megye nominális 1 21 0 0 100%M009 helyszín település nominális 150 3 442 30 627 329 85%KERULET helyszín kerület nominális 1 23 0 165 845 20%KT_NEV_1 helyszín utca neve nominális 0 65 556 68%KT_JELLEG_1 helyszín útfajta nominális 1 8 0 66 457 68%KT_NEV_2 helyszín keresztezo utca neve nominális 0 144 212 30%KT_JELLEG_2 helyszín keresztezo útfajta nominális 1 8 0 144 526 30%BAL_HSZ helyszín házszám ordinális 0 144 613 30%KU_SZ_1 helyszín közút jele nominális 0 103 919 50%KU_KM_1 helyszín út km szelvénye arány 0 0 119 034 43%KU_M_1 helyszín út m szelvénye arány 0 0 119 034 43%MJ50_1 helyszín út kategóriája nominális 1 4 0 31 005 85%KU_SZ_2 helyszín keresztezo közút jele nominális 0 198 770 4%KU_KM_2 helyszín keresztezo út km szelvénye arány 0 0 199 233 4%KU_M_2 helyszín keresztezo út m szelvénye arány 0 0 199 233 4%MJ50_2 helyszín keresztezo út kategóriája nominális 1 4 0 142 322 31%KU_KER út keresztezodes-e nominális 1 2 0 31 001 85%JAAA001 út lakott terület-e nominális 1 2 0 9 100%JAAA002 út útvonal típus nominális 1 4 0 8 100%JAAA003 út út alakzata nominális 1 6 0 7 100%JAAA004 út útkeresztezodés típusa nominális 1 9 0 7 100%JAAA005 forg.irányítás útkereszt. forg. szervezése nominális 1 6 0 31 008 85%JAAA006 úttest forgalom iránya nominális 1 5 0 10 100%JAAA007 úttest azonos irányú sávok száma ordinális 1 4 0 17 100%JAAA009 forg.irányítás sávok jelzése nominális 1 5 0 24 100%JAAA010 forg.irányítás forgalomirányító készülék nominális 1 8 0 31 009 85%JAAA011 forg.irányítás forgalomirányítás módja nominális 1 7 0 10 100%JAAA012 út út lejtviszonyai nominális 1 3 0 9 100%JAAA013 úttest úttest szélessége ordinális 1 5 0 167 695 19%JAAA014 úttest úttest burkolata nominális 1 3 544 31 008 85%JAAA015 környezet útburkolat állapota nominális 1 5 454 7 100%JAAA016 környezet útfelület állapota nominális 1 6 0 8 100%JAAA017 környezet idojárási viszonyok nominális 1 7 0 7 100%JAAA018 környezet látási viszonyok nominális 1 32 1 7 100%JAAA020 minosítés baleset típusa nominális 101 2 010 1 7 100%JAAA022 okozó alkohol mértéke ordinális 1 6 176 837 100%JAAA023 okozó alkoholos befolyásoltság nominális 1 3 0 31 186 85%JAAA024 okozó jogosítvánnyal rendelkezés nominális 1 4 0 33 434 84%JAAA025 okozó jogosítvány dátuma intervallum 190000 201212 136 758 43 105 13%JAAA026 okozó vezetési tapasztalat nominális 1 3 0 41 791 80%JAAA027 minosítés baleset elsodleges oka nominális 111 619 0 2 100%JAAA029 kimenetel kimenetel 2 nap múlva ordinális 1 3 0 0 100%JAAA030 kimenetel kimenetel 30 nap múlva ordinális 1 3 0 0 100%JAAA031 kimenetel 2 napon belül meghaltak arány 0 0 0 100%JAAA032 kimenetel 2 napon belül súlyos sérült arány 0 0 0 100%JAAA033 kimenetel 2 napon belül könnyu sérült arány 0 0 0 100%JAAA034 kimenetel 30 napon belül meghalt arány 0 0 0 100%JAAA035 kimenetel 30 napon belül súlyos sérült arány 0 0 0 100%JAAA036 kimenetel 30 napon belül könnyu sérült arány 0 0 0 100%

A.1. táblázat. A balesetállomány attribútumai és adatminosége

60