tudományos diákköri dolgozat alacsony energiás cserenkov...

40
Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov-események elemzése Deep Learning módszerekkel Bódy Lőrinc András ELTE TTK Fizika Bsc II. Témavezető: Horváth Ákos, Ph.D. ELTE Fizikiai Intézet Atomfizika Tanszék

Upload: others

Post on 13-Sep-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

Tudományos Diákköri Dolgozat

Alacsony energiásCserenkov-események elemzése Deep

Learning módszerekkel

Bódy Lőrinc AndrásELTE TTK Fizika Bsc II.

Témavezető:Horváth Ákos, Ph.D.ELTE Fizikiai IntézetAtomfizika Tanszék

Page 2: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

Kivonat

A napból érkező alacsony energiás neutrínók vizsgálata érdekes kérdésekreadhat választ a részecskefizikában éppúgy, mint az asztrofizikában. A víztöl-tésű Cserenkov-detektorok képesek érzékelni az általuk kiütött elektronokat,így ha azok energiáját és impulzusuk irányát képesek vagyunk meghatározni,vissza lehet következtetni a neutrínó tulajdonságaira is.

Mivel azonban a 20 MeV alatti elektronok csak igen rövid, pár centimé-teres utat tesznek meg vízben, miközben szóródásokat szenvedve ismételtenirányt váltanak, az elektron kiinduló-helyzetének és irányának megbecsülésenehéz feladta, amit tovább nehezít a Cserenkov-fotonok detektálására használtfotoelektronsokszorozók korlátozott időfelbontása.

Kutatásom során olyan deep learning modelleket fejlesztettem ki, amelyekkihasználják a probléma térbeli szimmetriáit és szimulált eseményeken beta-nítva helyfelbontásukban gyengébb időfelbontás mellett felülmúlják az eddigalkalmazott alapvető fizikai elveken és iteratív illesztéseken illetve rácskeresé-seken alapuló egyszerű algoritmusokat, és az irányvisszaállításban is javulástérnek el.

Tartalomjegyzék

1. Bevezetés 3

1.1. Napneutrínók . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2. Cserenkov-detektorok . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3. Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2. Irodalmi áttekintés 7

2.1. A Cserenkov-effektus . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2. Irány és helyvisszaállítási módszerek . . . . . . . . . . . . . . . . . . 7

1

Page 3: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

2.3. Kutatási kérdésfelvetés . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.4. Gépi tanulás a részecskefizikai adatfeldolgozásban . . . . . . . . . . . 10

3. A kidolgozott modellek 10

3.1. Szimulációk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.2. A regresszió és az osztályozás kapcsolata . . . . . . . . . . . . . . . . 14

3.3. Helyvisszaállítás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.3.1. Az időalapú módszer teljesítménye . . . . . . . . . . . . . . . 15

3.3.2. Az időalapú módszer finomítása . . . . . . . . . . . . . . . . . 16

3.3.3. A hely közvetlen predikciója a fotonbecsapódási képekből . . . 18

3.3.4. A tengelyre merőleges síkok figyelembevétele . . . . . . . . . . 18

3.4. Irányvisszaállítás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.4.1. Az irány közvetlen predikciója osztályozással . . . . . . . . . . 23

3.4.2. A Hough-transzformáció feljavítása . . . . . . . . . . . . . . . 23

3.4.3. Tanítható Hough-transzformáció . . . . . . . . . . . . . . . . . 23

3.5. A tanítás menete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4. Eredmények 30

4.1. A helyvisszaállítás eredményei . . . . . . . . . . . . . . . . . . . . . . 30

4.2. Az irányvisszaállítás eredményei . . . . . . . . . . . . . . . . . . . . . 32

5. Konklúzió 34

2

Page 4: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

6. Köszönetnyilvánítás 35

1. Bevezetés

1.1. Napneutrínók

A neutrínók a Standard Modell elemi részecskéi közül mind a mai napig aktív ku-tatási érdeklődést keltenek. Ma már tudjuk, hogy ezek a leptonok, bár tömegüknagyságrendekkel kisebb minden más ismert nem-zérus tömegű részecskénél, ren-delkeznek tömeggel. A neutrínók is a leptonok három családjába oszthatóak be, ígyléteznek elektron, müon és tau-neutrínók.

Azonban a neutrínók rögtön meg is bontják a szabályokat, mivel az íz (család)szerinti sajátállapotok nem egyeznek meg a tömeg-sajátállapotokkal. A neutrínó-oszcilláció [1] ebből fakadó jelensége lényegében úgy jelenik meg, hogy a nuetrínókrepülés közben ízt válthatnak, és például egy elektron-neutrínóként kibocsátott ré-szecske müon-neutrínóként érkezhet meg. Így a leptonszámok megmaradása - amelyegyéb folyamatokban fennáll - sérül.

A három alapvető kölcsönhatás közül a neutrínók csak a gyengében vesznekrészt (a gravitáció is hat rájuk, de az nem része a Standard Modellnek). Ezért ha-talmas mennyiségű anyagon képesek áthaladni, de érzékelésük nagy kihívást jelent.

A neutrínóknak számos forrása van a természetben: A β-bomlás (n0 → p+ +

e−+ν) során elektron-antineutrínók keletkeznek elektron kibocsátásakor, és elektron-neutrínók pozitron kibocsátásakor (p+ → n0+e++ν). Az atmoszférát érő nagyener-giás kozmikus sugarak keltette részecskezáporok során müon és elektron-neutrínókkeletkeznek, és a távoli szupernóva-robbanások is hatalmas mennyiségben bocsá-tanak ki neutrínókat, de a Földet elérő neutrínók legnagyobb forrása a Nap. ANap különböző fúziós folyamatai által keltett elektron-neutrínók energiája 20 MeValatti, és mire a földre jutnak, egyrészük átalakul a többi neutrínótipussá. A neut-rínók csaknem akadálytalanul jutnak ki a csillagok magjából is, de az anyagon valóáthaladás hatással van oszcillációjukra.

3

Page 5: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

1. ábra. A napneutrínók spektruma a keltő folyamatok szerint [2]

1.2. Cserenkov-detektorok

A neutrínók vizsgálata elméleti részecskefizikai szempontból éppen úgy gyümölcsö-ző, mint az asztrofizika számára, de mivel nem vesznek részt elektromágneses és erőskölcsönhatásban, nehéz feladat. Egy kellően nagy térfogatú detektorban az áthaladóneutrínók annak kis hatáskeresztmetszete ellenére időnként elasztikus szórás révénelektronokat fognak kilökni. Ebben a folyamatban mindhárom neutrínó-típus résztvesz, de az elektron-neutrínó hatáskeresztmetszete nagyobb a többinél, mivel töltöttW-bozon révén is kölcsönhatásba léphet. A hatalmas térfogatban megjelenő szaba-don repülő elektronok érzékelése sem könnyű feladat, a legalacsonyabb energiájúneutrínókra ez szcintillációs detektorokban lehetséges. [3] [4]

4

Page 6: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

A kicsit nagyobb (pár MeV) energiájú neutrínók vízben, jégben és hasonlóátlátszó anyagokban képesek az elektronokat a közegbeli fénysebesség fölé gyorsítani,amelyek azután Cserenkov-fényt bocsátanak ki. A Cserenkov-fotonok jellegzetesszögeloszlását (lásd 2.1) kihasználva meghatározható az elektron haladási iránya ésenergiája, amiből következtetni lehet az eredeti neutrínó dinamikai paramétereire.

A nagyméretű, vízzel kitöltött Cserenkov-detektorok mint a Super-Kamiokande[5] és a MiniBooNE [4] és a Sudbury Neutrino Observatory [6] (amely nehézvizettartalmaz, és így deuteron és a neutrínó reakcióit is kihasználja) döntően hozzájá-rultak a neutrínó-oszcilláció felfedezéséhez. A hatalmas, földalatti víztartályok falátfotoelektron-sokszorozó csövekkel borítják be. A Hyper-Kamiokande [7] egy hasonlóelrendezésű, nagyobb detektor építése folyamatban van. Ezek a detektorok nagy-energiájú neutrínókra is érzékenyek, illetve egyéb ritka folyamatok (például proton-bomlás) keresésére is felhasználhatóak, de a kis energiájú napneutrínók irányánakpontos mérése kihívást jelent, mivel a kisenergiájú elektronok ismételt Coulomb-szóródás révén gyorsan elvesztik eredeti irányukat, miközben csak pár cm-et tesznekmeg. [8]

2. ábra. A Super-Kamiokande felépítése [9]

1.3. Deep Learning

A deep learning ("mély tanulás") módszere egy függvény közelítését végrehajtó prog-ram konstrukciójára szolgál nagyszámú bemenet-kimenet pár (minta) ismeretében.A közelítést megvalósító modell paraméter-mátrixokkal jellemzett lineáris műveletek

5

Page 7: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

és (tipikusan elemenként ható) nemlineáris műveletek egymásutánjából áll, és gyak-ran igen sok réteget tartalmaz (ezért mély). A modell tanítása során a bementi ada-tokat végigvezetik a rétegeken, majd a kimenet a kívánt eredménytől való eltérésétszámszerűsítik (Loss). Ezután a kezdetben véletlenszámokkal feltöltött paraméter-mátrixokat a loss (illetve típikusan a minták egy kis csomaga (batch) melletti átlagosloss) gradiense szerint módosítják, hogy a hibát minimalizálják. Amíg a modellt fel-építő összes művelet analitikusan differenciálható, a gradiens megállapításához nemkell a paraméter-mátrixok kis változtatásait kipróbálni, hanem az adott (az előzőréteg kimenete által) helyen közvetlenül kiszámítható. A láncszabályt alkalmazvaa hiba-visszaterjesztés (backpropagation) módszerével így az összes réteg (gyakrantöbb millió) paramétere módosítható. [10]

Az általános lineáris transzformáción belül további megszorítások is tehetők,amelyek a deep learning modellt különféle típusú bemenetek hatékonyabb feldolgo-zására teszi képessé:

Ha az adatok egy rácson helyezkednek el, a konvolúciós neurális hálók (CNN)a rács kis szeleteire (például kétdimenziós rács esetén 3x3 vagy 5x5-ös kis részekre)ugyanazt a paraméter-mátrixot (kernelt) alkalmazzák, és így mintázatokat ismerhet-nek fel azok helyétől függetlenül. A képfeldolgozás területén átütő sikerrel [10, 11]alkalmazott 2D CNN-ek egymást követő rétegei így hierarchikusan felépülő struk-túrákra lehetnek érzékenyek, a bemeneti kép 3 csatornáját egyre növekvő számúkülönféle jellemző jelenlétét kódoló csatornákká alakítva át.

Számos olyan megoldás létezik, amely a konvolúció műveletét gráfokra és pont-felhőkre általánosítja. [12]

A deep learning modell kimenete tetszőleges méretű lehet, egyetlen valószínű-ségtől (két osztályos osztályozás) egészen a minden rácspontra különböző értékekig,a fölösleges dimenziókban lévő információt (például ha csak valaminek a jelenlététakarják detektálni egy képen), az egyes csatornáknak egy területen csak az átlagvagy maximum értékét megtartó (pooling) műveletekkel lehet kiszűrni.

A modellek tanításához nagy mennyiségű adat szükséges, csak így remélhető,hogy a model megtanul általánosítani, és a még nem látott adaton is felismeri a ta-nítóhalmazban látottakhoz hasonló elemeket. Éppen ezért, továbbá a lebegőpontos

6

Page 8: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

műveletek nagy száma miatt a tanítás igen számításigényes folyamat, de jól párhu-zamosítható, és napjainkban rendszerint grafikai kártyákon (GPU) vagy specializálthardveren [13] oldható meg.

A már betanított model alkalmazása (predikció) viszont tipikusan igen gyors,és állandó, rögzített számításigényel jár.

Számos magas szintű deep learning szoftvercsomag érhető el, amelyek lehetővéteszik a modellek előre definiált elemekből való összeállítását, az automatikus hiba-visszaterjesztést és a hardveres gyorsítással való kényelmes kommunikációt. Előzetesismereteim és a GPU-n való műveletek pythonból való dinamikus indításának lehe-tősége miatt a PyTorch-ot [14] használtam ezen kutatás során.

2. Irodalmi áttekintés

2.1. A Cserenkov-effektus

Cserenkov-effektus akkor jön létre, ha töltött részecske a közegbeli fénysebességnélgyorsabban halad. Ilyenkor a látható tartományba eső fotonokat kezd kibocsátani,amelyek θ = arccos( cn

v) szöget zárnak be haladási irányával (ahol n a közeg törés-

mutatója, v a részecske sebessége, és c a vákuumbeli fénysebesség). A Cserenkov-fotonok az részecske egységnyi úthosszára eső száma a d2N

dxdλ= 2πz2

λ2α sin(θ) [15] egyen-

letet követi (ahol λ a fotonok hullámhossza, és α a finomszerkezeti állandó, dλ pediginfinitezimális hullámhossz-intervallum).

2.2. Irány és helyvisszaállítási módszerek

A Super-Kamiokande kezdetben [16] egy viszonylag egyszerű algoritmust használt aCserenkov keltő részecske helyének és irányának megbecsülésére. A fő cél az iránymeghatározása, de mint lentebb látni fogjuk, ennek egy lépése a kiindulás helyénekmegbecsülése. Ez az információ továbbá arra is felhasználható, hogy a detektor ér-zékeny térfogatába kívülről belépő töltött részecskéket - Például kozmikus müonokat

7

Page 9: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

- elkülönítsük a detektorban neutrínó által kilökött részecskéktől.

• Először az elektron kiindulópontját határozzák meg. Ehhez feltételezik, hogyaz összes foton egyetlen pontból, azonos időpontban indult ki. Ez nagy ener-giás (több száz MeV) eseményekre nem állja meg a helyét, de kisebb energiánaz elektron igen rövid úthossza miatt jó közelítés. Ekkor a

G(~x, t) =∑i

e−(Tiσ )

2

kifejezést kell a feltételezett kiindulópont ~x és idő t függvényében minimalizál-ni, ahol

Ti = ti − t−

∣∣∣~Ri − ~x∣∣∣n

c

és az összegzés a fotonbecsapódásokra történik. Ez azt fejezi ki, hogy ~x olyanlegyen, amely a leginkább konzisztens azzal, hogy a fotonok a közegre jellemzőfénysebességgel haladnak a detektor belsejében. Ez valójában a téridőben valóHough-transzformációnak felel meg, ahol minden becsapódásra egy fénykúpothelyeznek, és azt keresik, hol metszi sok ilyen fénykúp egymást. A továbbiak-ban “időalapú” néven fogok erre a módszerre hivatkozni.

3. ábra. Az időalapú módszer mint téridőbeli Hough-transzformáció: Zöld - foton-becsapódások, Sárga - eredményül kapott hely és idő

8

Page 10: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

• A visszaszámított hely ismeretében minden foton becsapódásra a

~pi =~Ri − ~x∣∣∣~Ri − ~x

∣∣∣egységvektor számítható ki, amely az adott fotonhoz tartozó impulzus irányátadja meg.

• Az elektron energiáját és impulzusának irányát ezután olyanra kell választani,hogy a ~p-k a θ = arccos( cn

v) Cserenkov szöget zárják be vele. Ehhez iteratív

illesztéseket vagy pedig impulzustérbeli Hough-transzformációt alkalmaznak,amely lényegében egy rács-keresés, ahol minden feltételezett irányra megszá-molják, hogy hány foton esik tőle a kívánt szögtávolságra az egységgömbön.A továbbiakban “kúpillesztés” néven fogok erre a módszerre hivatkozni.

Később [17] [4] a nagyenergiájú, atmoszférikus neutrínók által keltett esemé-nyek feldolgozásához lecserélték egy öszetett algoritmusra, amely szintén az időalapúmódszert használja a kiidulópont megbecslésére, de utánna képes különféle hipoté-ziseket kipróbálni az esemény "felépítésére" (hogy milyen részecskék keletkeznek),és végül iteratív módon a részecskék kezdőpontját és impulzusát változtatva keresimeg azt a kombinációt, amely a legnagyobb valószínűséggel eredményezhette az ér-zékelt fotonbecsapódási képet. Ez az algoritmus erősen kihasználja, hogy a többszázMeV energiájú leptonok méteres hosszúságban repülnek megközelítőleg egyenesen.Éppen ezért nem alkalmazható a napneutrínók által kiütött, igen rövid utat (néhánycm) megtevő 20 MeV alatti energiájú elektronokra.

A Super-Kamiokande-III [8] és IV [18] mérési időszakokhoz a napneutrínokvisszaállítását is továbbfejlesztették. Ez különféle kisebb korrekciókat jelent a zajszűrésére, illetve az elektron szóródásának befolyásának csökkentésére a Hough-transzformációból nyert lehetséges irányok átlagolásával, illetve egy Monte-Carloszimulációs alapú, az energia függvényében "szétkenődött" Hough-transzformációkernelt. A módszer azonban alapvetően ugyanaz maradt, és a korlátai is hasonlóak.

9

Page 11: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

2.3. Kutatási kérdésfelvetés

Ezek alapján azt tűztem ki kutatásom céljául, hogy olyan deep-learning alapú hely-és idővisszaállítási megoldásokat fejlesszek ki, és összevessem teljesítményüket a ha-gyományos módszerekkel. A fotonok időadataihoz normális eloszlású (zérus átlagú)véletlen számokat adva szimuláltam a fotoelektronsokszorozók működése során ke-letkező időbizonytalanságot, és a fotonok bizonyos százalékát elvetve az érzékelésihatásfokukat, hogy megvizsgálhassam a különböző modelek robosztusságát ezekkela hibaforrásokkal szemben.

2.4. Gépi tanulás a részecskefizikai adatfeldolgozásban

Az utóbbi években a gépi tanulás módszerei széles körű alkalmazást találtak a ré-szecskefizikai kísérletekben. [19] Elsősorban osztályozási problémákban, vagyis kü-lönféle részecsketípusok és folyamatok elkülönítésében [20] alkalmaztak neurális há-lókat, de történtek kísérletek folytonos paraméterek regressziójára is. Nagyenergiáskísérletekben gyakran a hagyományos módszerek által kiszámított változókon ta-nítottak be modelleket, de készültek olyan megoldások is, amelyek közvetlenül adetektorok 2 vagy 3 dimenziós kimeneti “képein” tanítottak osztályozó CNN-eket.[21] [22] A Cserenkov-detektorok területén [23] a Super-Kamiokande már nagymér-tékben feldolgozott eseményeiből (7 változó, például a teljes energia, és a megtaláltCserenkov-gyűrűk száma) egy kisméretű neurális háló segítségével tau-neutrínókkeltette tau-leptonok bomlását tartalmazókat válogatta ki. [24] [25] CNN-eket hasz-náltak müonok és elektonok, illetve jel és zaj elkülönítésére.

3. A kidolgozott modellek

3.1. Szimulációk

A feldolgozási módszerek kipróbálásához, illetve betanításukhoz szimulált esemé-nyekre van szükség. (Egy esemény ebben az esetben az egy kezdeti részecskéhez

10

Page 12: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

tartozó másodlagos részecskéket, és az általuk a detektorban keltett jelet jelenti.)Mivel mind az elektronok szóródása közegben, mind a Cserenkov-sugárzás vélet-lenszerű folyamat, ez Monte-Carlo szimulációt igényel. Erre a célra a széleskör-ben elterjedt Geant4 szimulációs toolkitet alkalmaztam. [26] Egy nagyon egyszerűdetektor-elrendezést definiáltam, amelyben egy 2 méter oldalhosszúságú, kocka ala-kú detektort víz tölt ti. A falakat ideális foton-detektorként állítottam be. Ezekminden őket elérő fotont detektálnak és elnyelnek. Ez nem felel meg a valóságnak(a valódi Super-Kamiokande felületének körülbelül 40%-a érzékeny, és 50% alatti[7] hatásfokkal detektálja fotonokat), de az időigényes szimulációk ilyen módon valófuttatása lehetővé teszi, hogy aztán a feldolgozás során a teljes újrafuttatás nélkülhagyjunk ki fotonokat vagy adjunk hozzá bizonytalanságokat az idő és energiamé-réshez.

A detektorfalak 2 cm oldalhosszú pixelekbe gyűjtötték a fotonokat, a becsa-pódásokat külön jelezve, de a pozíciót a pixel közepének véve. Az időfelbontás 0.3ns volt.

Az elektronokat véletlenszerű, homogén eloszlással indítottam el a detektorbelsejében, csak a falakhoz legközelebbi 5 cm-es sávot hagyva ki, az irányukat pedigszintén izotróp, véletlenszerű módon választva ki.

A Cserenkov-folyamat szimulációjára a Geant4 sztenderd G4Cerenkov osztá-lyát alkalmaztam. A víz törésmutatójának adatait a Geant4 OpNovice mintaszi-mulációjából vettem át. A G4Cerenkov még egy paraméterrel rendelkezik, ez aszimuláció lépéshosszát szabályozza β = v

cegy lépés alatti százalékos megváltozásá-

ra, vagy pedig az egy lépés alatt kibocsátott fotonok számának korlátozása révén.

Mivel a szimuláció az egy lépés alatt kibocsátott Cserenkov-fotonokat azonosirányhoz képesti Cserenkov-szögben indítja - miközben az elektron valódi szabadúthossza jóval kisebb a számításilag hatékonyan megvalósítható lépéshossznál, ezt akorlátozást 1 foton/lépésre állítottam, hogy ez ne okozzon mesterséges korrelációkata fotonok között.

11

Page 13: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

4. ábra. A Geant4 szimuláció során az egységnyiútra jutó Cserenkov-fotonok száma. Jó egyezéstapasztalható a 2.1-egyenlet λ szerinti, a szimu-lációban használt alsó és felső határhullámhosszokközötti integrálásával nyert elméleti értékkel.

5. ábra. A szimuláció során lépésenként kibocsá-tott fotonok Cserenkov-szöge, és a lépés β-jáhoztartozó elméleti érték.

12

Page 14: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

6. ábra. 1.5 MeV energiájú elektron eseménye a kocka alakú detektorban

A továbbiakban ismertetett eredményekhez három szimulációt használtam, azegyikben 2900-3100 keV-es kezdeti energiájú elektronokkal (továbbiakban 3MeV),a másikban 4900-5100 keV (5 MeV) és 9900-10100 keV (10 MeV) elektronokkal.Az alsó két energia-tartományban 50000-50000 eseményt generáltam, ebből 5000-t használtam fel a különböző feldolgozó-módszerek tesztelésére, és 45000-t a gépi

13

Page 15: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

tanulásos modellek tanítására. 10 MeV-en 2000-t és 18000-t használtam.

A 3 MeV-es események tipikusan 400-600 Cserenkov-fotont tartalmaznak, 0 10MeV esekre eza szám 1700-1900.

3.2. A regresszió és az osztályozás kapcsolata

Először a pozíció három komponensének megbecsülését egyszerű regressziós prob-lémának tekintettem. Ebben a megközelítésben a kocka minden oldalán beérkezettfotonok képét külön-külön dolgozza fel ugyanaz a konvolúciós neurális háló (amelyígy ezen oldalak közötti szimmetriát impliciten figyelembe veszi), minden oldalt egyrögzített hosszúságú “vektorrá” transzformálva. Ezeket a vektorokat azután össze-fűztem, és egy teljesen összekötött neurális hálónak adtam át, amely közvetlenül ahárom kimenő értéket adta ki. Ezen a módon 15 cm nél jobb átlagos visszaállításihibát még 10 MeV energiájú elektronok mellett sem tudtam elérni.

Az elrendezés fő gyengesége, hogy nincs belekódolva felépítésébe a kimenettérbeli jelentése. Minden kapcsolatot nulláról kell megtanulnia a falakon megjelenőminták és a kiindulópont-koordináták között. További probléma, hogy bár mindenfalat ugyanazokkal a súlyokkal dolgoz fel, miután falak reprezentációját konkate-nálta, már különbözőként kezeli mindegyiket. Ezt lehetne ellensúlyozni, hogyha atanítóadat minden eseményét a kocka szimmetriacsoportjának megfelelő összes mó-don elforgatnánk és tükröznénk (a kimenetet is megfelelően transzformálva), de akülönböző konfigurációkat ekor is külön-külön kellene megtanulnia.

Hatékonyabb módszernek bizonyult, ha a problémát osztályozásra vezetjükvissza. Ekkor a folytonos paraméterek lehetséges értékeit (lehetőleg egyenletesen)mintavételezzük xi pontokkal. (ez egy 3D rács a helyvisszaállításnál, és az egysé-gömb felszínének felosztása az iránybecslésnél) Amennyiben sikerül az adott ponthoztartozó pi súlyokat (Amelyek annak a valószínűségnek monoton függvényei, hogy azelektron onnan jött vagy arra ment) a bemenetekből deep learning komponensek-kel leírt "tanítható" transzformációkkal kifejezni, a következő módon nyerhetünkbecslést x-re, úgy hogy az eredmény differenciálható legyen pi szerint, és így a hiba-visszaterjesztés elérhessen a pi-ket megbecsülő rétegekhez.

14

Page 16: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

x =

∑i(e

pixi)∑i(epi)

Ez a softmax néven ismert művelet, amely gondoskodik róla, hogy a kisebbpi-khez tartozó valószínűségek igen kicsik (de ne nullák) legyenek, míg a legnagyobbkiemelkedjen. A softmax kimenete ezután a xi-k lineárkombinációs együtthatóikéntszolgál.

3.3. Helyvisszaállítás

3.3.1. Az időalapú módszer teljesítménye

A hagyományos “időalapú” módszert egy kétfokozatú rács-kereséssel implementál-tam: Először egy a teljes detektor-térfogatot kitöltő 20x20x20-as rácson kerestem alegjobb egyezést adó kezdőpontot, miközben az idő 16 lehetséges értékét is megvizs-gáltam (+- 2.5 ns az adott rácspontban a foton-becsapódásokra átlagolt indulásiidő körül). Majd az így nyert becslés körül 20 cm átmérővel még egy 20x20x20-asrács-kereséssel finomítottam, nagyobb (40) időfelbontással és kisebb σ-val.

Ez a megoldás meglehetősen memóriaigényes, de jól párhuzamosítható, így agépi tanulásos kisérletekhez használt GPU-n implementálva gyors, és garantálja,hogy (amennyiben a rács elég sűrű) nem veszítünk pontosságot az iteratív mini-mumkeresés esetleges tökéletlensége miatt.

3 MeV energiájú elektronokra 1 cm alatti átlag hibát ad, ami tekintve, hogya detektor-szimuláció 2 cm oldalú pixelekben érzékel a falon, kiváló. A rács továbbifinomítása és σ csökkentése nem javított rajta.

Ez a módszer igen érzékeny az időmérés pontosságára. Amikor egyre növek-vő szórású normális eloszlású t adtam az időadatokhoz, pontossága élesen romlott.(lásd 17.-ábra) Ha pedig pontos időadatok mellett az elektron energiája nő, szinténpontatlanabbá vált ahogy az elektron pályája egyre kevésbé volt pontszerű. (Na-gyobb időmérési bizonytalanságra ez megfordul, itt a több foton jobban "kiátlagolja"a véletlen hibákat.)

15

Page 17: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

3.3.2. Az időalapú módszer finomítása

Először megpróbálkoztam az időalapú módszer eredményének gépi tanulással valófinomításával. A maximum kiválasztása helyett a fénykúpokkal "feltöltött" rácsotnormáltam a maximumára, és egy kicsiny (3 32 csatornás réteg) 3D CNN-be vezet-tem, a rács idődimenzióját csatorna-dimenzióként tartva meg, amely azután mindenrácsponthoz annak valószínűségét prediktálja, hogy innen jött az elektron.

Ez értelemszerűen nem javít ott ahol a hagyományos módszer magában isnagyon pontos, és 10 MeV-nél, az időbizonytalanság nélküli adatokra is csak 2,5 cmátlag hibára volt elég, ami az “időalapú” 2,7 cm-es felbontásához képest jelentéktelenelőny, azonban ez a módszer nem fér hozzá semmi olyan információhoz, amit azidőalapú nem használ, csak annak kimenetét kombinálja újra.

16

Page 18: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

7. ábra. Ismételt időalapú Hough-transzformáció és a kimenetét feldolgozó 3D CNN

17

Page 19: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

3.3.3. A hely közvetlen predikciója a fotonbecsapódási képekből

A repülési időn alapuló módszerek nem használják ki a Cserenkov-fotonok kúpszerűeloszlásából eredő mintázat jelentette információt. A detektor falára vetülő képek2D CNN-ekkel való feldolgozásával ez az információ is elérhető.

A kimenet térbeli jelentésének kihasználásához feladatunkat osztályozási prob-lémává kell alakítani. Ebben a megközelítésben ugyanaz a hálót háromszor alkalmaz-va becsüli meg a három koordinátát, minden alkalommal csak a kérdéses tengellyelpárhuzamos falak adatait használva. A falak becsapódás-képét először egy hengerrevetíti, és ezen a képen alkalmaz konvolúciókat, a palást “vágásvonalát” periódikushatárfeltételekkel egyesítve hengerré. A henger magasságát (100 pixel) ezután végigfenntartja (0-kkal bélelve ki az alját és a tetejét minden konvolúció előtt), miköz-ben a szomszédos vízszintes pixelekre Maximum Pooling műveleteket alkalmazvacsökkenti a felbontást. Így végül egy 100x1-es vektor lesz az eredmény, ennek min-den elemét úgy értelmezi, mint annak a valószínűségét, hogy az elektron a hengertengelye mentén annak a pixelnek a magasságából indult. A 3.2-ben ismertetettlineárkombinációs módszerrel ez már a végső pozícióbecsléssé alakítható.

Ugyanazt az eljárást ezután megismétli a másik két koordinátára is, automa-tikusan biztosítva ezzel a kimenet a kocka elforgatásával szembeni ekvivarianciáját.A henger tengelye körüli véletlenszerű elforgatás adatfeljavitásként (data augmen-tation) használható, növelve az általánosító-képességet.

Ilyen módon 3 MeV energiájú elektronokra 4.5 cm átlagos visszaállítási pon-tosság volt elérhető.

3.3.4. A tengelyre merőleges síkok figyelembevétele

Ennek az elrendezésnek az a gyengesége, hogy minden koordináta megbecslésekorfigyelmen kívül hagyja a tengelyre merőleges két síkon (a henger alaplapján) talál-ható információt. Ez nem nagy veszteség ha az elektron egyenesen a palástnak tart,de kritikus, ha az elektron az alaplaphoz közel lefelé indul, a fotonok nagy részétabba sugározva.

18

Page 20: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

Ezért egy további modullal egészítettem ki a hálót. Egy közönséges síkbelikonvolúciós háló, amely külön-külön dolgozza fel mindkét alaplapot, és egy repre-zentáció vektort alakít ki. A két alaplap reprezentációját ezután összefűzi, és egykis teljesen összekötött hálóval dolgoztatja fel. Ez bemenetként megkap egy olyanvektort is, amely a tengely menti távolságot kódolja (one-hot encoding-el). Így egyolyan reprezentációt nyerünk, ahol a tengely mentén minden lehetséges pozíciót 64szám ír le (100x64 mátrix), amelyeknek értéke csak az alaplapok fotonképétől függ.Ezt azután hozzáfűzi a hengerpalást feldolgozása során keletkezett szintén 100 magasreprezentációhoz, és a kettőből együttesen teszi meg a végső tippet. Ha a teljesenöszekötött hálót külön alkalmazzuk úgy, hogy először a felső alaplap reprezentációjátkapja meg és aztán az alsót, majd fordítva, és a két eredményt össszeadjuk, miköz-ben az egyuket tükrözzük, kényszeríthető, hogy az eredmény az alap és a fedlapfelcserélésével szemben is ekvivariáns legyen.

19

Page 21: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

8. ábra. Modell a három koordináta külön becslésére, 397877 tanítható paraméter.

20

Page 22: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

9. ábra. Néhány példa a hengerpalástra vetített fotonbecsapódás-képekre. Az erősszóródás által elkent Cserenkov-gyűrűk láthatóak.

3.4. Irányvisszaállítás

Az irány meghatározása nehezebb feladat. Az elektron ismételten szórást szenved,és így a kezdeti irányáról fokozatosan elveszik az információ. Az iránymeghatározásbaseline-ja az impulzus-irány egységgömbön végzett Hough-transzformáció. (“kúpil-lesztés”) Ezt az egységgömböt HEALPix-pixelekkel [27] [28] 3072-részre felosztvaimplementáltam. Ez 0.38 radián átlagos hibát ér el 3 MeV-nél, és teljesítménye azenergia növekedésével javul 0.31-re (5 MeV) és 0.25-ra ( 10 MeV).

21

Page 23: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

10. ábra. Hough-transzformáció az impulzus-egységgömbön (illusztráció): Zöld -fotonbecsapódások, piros - kernel, sárga - az eredményül kapott irány

11. ábra. A gömb HEALPix felosztása [27] [29]

22

Page 24: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

Ebben a szakaszban ismertetni fogom azokat a deep learning modelleket, ame-lyet az irány becslésre dolgoztam ki.

3.4.1. Az irány közvetlen predikciója osztályozással

A CNN bemenete itt a pixelesített fotonbecsapódás kép az egységgömbre vetítve, éskimenet a pixelek feletti eloszlás. Ezt implementáltam a gömbi koordináták szerinta gömböt síkba (torzítva) kiterítve majd egy 2D CNN-t alkalmazva. A 2D CNNinvariancia-tulajdonságai nem felelnek meg a gömb szimmetriáinak (a pixelek valódimérete változik a sarkok felé), ezért implementáltam a gömb healpix-pixelesítéséthasználó neurális hálót is: Itt a healpix-pixeleket egy gráfként kezelem, és élekkelkötve össze a 6 legközelebbi szomszédot, a Pytorch Geometric csomag GraphConv[30] [31] rétegeiből felépülő modelt tanítok.

Egyik implementáció sem tudta 3 MeV-nél 0.4 radián átlagos hibát lényegesentúllépni, úgy vélem azért, mivel a model súlyainak nagy részét arra fordítja, hogymegtanul közelítőleg Hough-transzformálni, és az eredeti irányhoz tartozó gyűrű amásodlagosaktól való megkülönböztetésére csak kis mértékben válik képessé.

3.4.2. A Hough-transzformáció feljavítása

Először elvégzek egy hagyományos Hough-transzformációt, majd ennek kimeneténalkalmazom a közveten predikciónál használtal azonos szerkezetű CNN-t. Így azmár arra koncentrálhat, amit a Hough-transzformáció nem tud. Ezt viszonylag nagyfelbontású (200x200) négyzetrácsosan pixelezett Hough-transzformációval állítottampárba, hogy az egyes fotonbecsapódásokhoz tartozó körök elkülöníthetőek legyenek.3MeV-nél ez 0.36 radián átlagos hibára volt elég, a felbontás növelése és a gráf-alapúmodellre való áttérés nem járt további javulással.

3.4.3. Tanítható Hough-transzformáció

A hagyományos Hough-transzformáció minden fotonbecsapódásra pontosan ugyan-azt a kör alakú, a Cserenkov-szögnél egyetlen gauss-csúcsot tartalmazó kernelt alkal-

23

Page 25: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

mazza, lényegében a fotonbecsapódások sűrűségfüggvényét (amelyet a "becsapódásikép" diszkretizálva helyettesít) konvolválva vele.

A tanítható Hough-transzformációban ezt a műveletet egy minden fotonra kü-lönböző kernel helyettesíti a következő módon:

Egy CNN először minden becsapódáshoz egy N (kisérleteimben 16) elemű súly-vektort rendel. Ezután kiszámítom minden becsapódás szögét minden rácspontal,majd ezeket a szögeket N (tanítható helyű és szélességű) Gauss-függvényen veze-tem át, majd ezeket megszorzom a súlyokkal, és összegzek a becsapódásokra min-den rácspontban, egy N csatornás képet kapva eredményül. Ezt ezután egy másikCNN dolgozza fel egy végső eloszlássá. A művelet igen memória és számításigé-nyes, és nemlokális tulajdonsága miatt - mivel az egységgömbön távol (Cserenkov-szöggnyire) elhelyezkedő pontok is adnak járulékot - nem tehető olyan hatékonnyámint a szokásos, kis kernellel végzett 2D konvolúció.

xij =∑k

wjk exp

−(arccos

(~ri·~pk|~ri||~pk|

)− µj

)2σ2j

Ahol xij a transzformáció kimenete az i-edik rácspontban és az j-edik csator-nában, ~pk a k-adik foton iránya, ri a rácspontokhoz tartozó irány, µj és σj-pedig acsatorna tanítható paraméterei, továbbá wjk a súlyozó CNN által a fotonbecsapódá-sokhoz és csatornákhoz rendelt súly. A tanítható Hough-transzformáció a kövezkezőelőnyös tulajdonságokkal rendelkezik:

• Mivel csak szögtávolságokat használ, megőrzi a közönséges Hough-transzformációforgatás ekvivarianciáját.

• A közönséges Hough-transzformációhoz hasonlóan kihasználja a Cserenkov-kúp hengeres szimmetriáját.

• A súlyozó CNN segítségével képes bizonyos mértékben diszkriminálni a foton-becsapódások között, például megtanulhatja a ritkásan elhelyezkedő, feltehe-tőleg szórt vagy a pályája végén járó elektrontól származó fotonok elnyomását.

• A tanítás során változó helyű Gauss-csúcsok lehetővé teszik, hogy a felbontást

24

Page 26: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

a modell az érdekes tartományra (A Cserenkov-csúcs köré, de pár Gausst atöbbi részre is helyezve) koncentrálja, és a több csatornában külön történőösszegzés után a második CNN segítségével a puszta Hough-transzformációkúpjánál bonyolultabb eloszlásokat is megtanuljon a Monte-Carlo adatokból.

A tanítható Hough-transzformációt is két módon implementáltam, egyszer a sú-lyozó és a végső feldolgozó CNN is 2D rácson működő hagyományos elrendezés, amásiknál pedig a végső feldolgozó a közvetlen osztályozásnál használthoz hason-ló healpix-gráfon működő gráfkonvolúció, a súlyozó háló pedig közvetlenül a fotonbecsapódások gráfján működő gráfkonvolúció.

A súlyozó és a végső CNN-t a jövőben meg lehetne próbálni kifejezetten gömb-felszínen való alkalmazásra tervezett rétegekkel [32] [33] [34] is implementálni, ame-lyeknél sem a síkbeli rácsra kiterítés torzulásai, sem az általános gráfra alkalmazhatókonvolúciókra jellemző térbeli információvesztés nem jelentenek problémát. Külö-nösen [29] releváns, mivel HEALPix pixelezést alkalmaz.

25

Page 27: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

12. ábra. A 3MeV-en tanított Hough transzformáció csatornáinak elrendeződése.Megfigyelhető, hogy a csúcsok a Cserenkov-szög körül csoportosulnak, de egy széle-sebb Gauss-csúcs az egészen közeli részre is "elvándorolt")

26

Page 28: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

13. ábra. A 3MeV-en tanított, négy-zetrácsos Hough transzformáció ki-menete, közvetlenül a softmax előtt.Megfigyelhetőek műtermékek a Déli-sark és az Északi-sark körül, ezek mo-tiváltak arra, hogy gráf konvolúciósmegoldásokat keressek a gömbi kon-volúcióra

14. ábra. A kúpillesztés (közönségesHough-transzformáció) kimenete. Látha-tóak az egyes fotonbecsapódások köré raj-zolt körök.

27

Page 29: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

15. ábra. Tanítható Hough-transzformáció 2D CNN-el és Gráf-konvolúcióval, 16273tanítható paraméter a Gréf-konvolúciós verzióban

3.5. A tanítás menete

A fentebb ismertetett modellekben ReLu [11] nemlinearitást alkalmaztam, továbbáBatch Normalization [35] regularizációt. Modeljeim tanítása során az Adam [36] op-timizáló algoritmust használtam az alapértelmezett beállításokkal és exponenciálisancsökkenő tanulási sebességgel (learning rate). Az adathalmazon 20-szor haladtam

28

Page 30: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

végig a helyvisszaállításnál, és 18-szor az irány-visszaállításnál. Az egyszerre fel-dolgozott és gradiensükben kiátlagolt események száma (batch size) 4 (irány) és 12(hely) között volt, ezt részben a GPU-memória korlátai indokolták, de úgy találtam,hogy lényegesen nagyobb csomagok használata csökkenti az elérhető pontosságot is.

A bemenetként szolgáló fotonbecsapódások helyén kívül azok idejét (az el-ső becsapódásohoz képest) használtam bemenetként, illetve a fotonok energiájátis, de ez kevés segítséget jelent, mivel a törésmutató csak gyengén függ a frek-venciától. A tanítható Hough-transzformáció gráf konvolúciós implementációjánálfotonbecsapódás-gráf minden éléhez hozzárendeltem a hosszát is, mint a model be-menetét (az egységgömbön elhelyezkedő pontokra a távolságuk a köztük lévő szögmonoton függvénye, így ez lehetővé teszi a modellnek, hogy felmérje, mennyire van-nak sűrűn a fotonbecsapódások a környéken).

Az irányvisszaálltás tanításakor és tesztelésekor az egységgömbé alakítást avalódi kiindulópont alapján végeztem. Ez időt takarít meg (mivel nem kell a hely-visszaálltó eljárást is ismételten lefuttatni), és kevéssé befolyásolja az eredményt,mivel a helyvisszaállítás igen pontos (pár cm egy 2 m-es detektorban az irányvissza-állításhoz képest, amelynek hibája 0.2-0.3 radián). Természetesen valódi adatra valóalkalmazás előtt a két módszer kompozíciójából eredő teljes bizonytalanságot is megkellene állapítani.

A helyvisszaállításnál hibafüggvényként a becsült és a valódi helykoordinátákátlagos négyzetes eltérését minimalizáltam, az irányvisszaállításnál pedig - mivelvektorok irányának hasonlóságára törekszünk - a következő loss-függvényt:

L = 1− ~pbecs · ~pcel| ~pbecs| | ~pcel|

A következő adatfeljavítási megoldásokat használtam:

• A helyvisszaállításnál mind a három koordináta becslésekor azonos véletlenszöggel forgatom el minden fotonbecsapódás helyét (még a pixelesítés előtt) akeresett koordináta tengelye köröl.

• Az irányvisszaállításnál a gömb pixelesítésének vektorait forgattam el egy vé-letlenszerű háromdimenziós forgatással (mielőtt kiszámítottam volna az egyespixelekre eső fotonbecsapódásokat).

29

Page 31: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

• A tanítható Hough-transzformáció 2D CNN-es implementációjában 0.05 való-színűségű Dropout-regularizációt [37] alkalmaztam.

A tanítást részben egy Nvidia GeForce RTX 2080 Ti GPU-n végeztem, részbenpedig a Kaggle.com honlapon keresztül ingyenesen elérhető NVIDIA Tesla P100-asokon. (Egyszerre egyet használva).

4. Eredmények

4.1. A helyvisszaállítás eredményei

Energia időmérési bizonytalanság (ns) Koordináta deep learning időalapú

3 MeV 0.0 0.032 0.013 MeV 0.5 0.044 0.0483 MeV 1.0 0.050 0.11710 MeV 0.0 0.0244 0.027310 MeV 0.5 0.0428 0.03710 MeV 1.0 0.0470 0.09

1. táblázat. Az helyvisszaállítás átlagos hibája (méter)

Energia időmérési bizonytalanság (ns) Koordináta deep learning időalapú

3 MeV 0.0 0.026 0.0943 MeV 0.5 0.038 0.0433 MeV 1.0 0.0441 0.10810 MeV 0.0 0.0214 0.02610 MeV 0.5 0.0373 0.033510 MeV 1.0 0.0411 0.0869

2. táblázat. Az helyvisszaállítás medián hibája (méter)

30

Page 32: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

3 MeV mellett az ideálisnak szimulált detektoron a deep learning megoldás semtud versenyre kelni az egzakt időalapú módszer pontosságával, 10 MeV-en viszontaz elektron hoszabb útja milyett kiterjedtebb forrás helyét már kissé pontosabbanhatározza meg. 1.0 ns bizonytalanságnál a deep learning kétszeresen felülmúlja azidőalapú pontosságát mindkét energián.

Amikor az időt egyátalán nem adtam meg a modellnek, akkor is képes volt0.11 m átlagos pontosságot elérni.

16. ábra. A valódi és a becsült kiindulási hely eltérése3 MeV energiáju elektronokra, a legjobb deep learningmodellel (lásd 8.-ábra), "koordináta deep learning"

17. ábra. A valódi és a becsült kiindulási hely eltéré-se 3 MeV-es elektronokra az időalapú módszerrel. Apontosság erősen romlik ha az időbizonytalanság nő.

31

Page 33: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

18. ábra. A valódi és a becsült kiindulási hely elté-rése 10 MeV energiáju elektronokra, a legjobb deeplearning modellel (lásd 8.-ábra)

19. ábra. A valódi és a becsült kiindulási hely eltérése10 MeV-es elektronokra az időalapú módszerrel. Apontosság erősen romlik ha az időbizonytalanság nő.

4.2. Az irányvisszaállítás eredményei

Energia érzékelési hatásfok Tanítható Hough kúpillesztés

3 MeV 100 % 0.32 0.393 MeV 50 % 0.35 0.403 MeV 10 % 0.44 0.4510 MeV 100 % 0.175 0.2510 MeV 50 % 0.225 0.25210 MeV 10 % 0.248 0.265

3. táblázat. Az irányvisszaállítás átlagos hibája (radián)

32

Page 34: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

Energia érzékelési hatásfok Tanítható Hough kúpillesztés

3 MeV 100 % 0.255 0.2903 MeV 50 % 0.275 0.3023 MeV 10 % 0.357 0.37810 MeV 100 % 0.140 0.17310 MeV 50 % 0.151 0.17710 MeV 10 % 0.1863 0.1918

4. táblázat. Az irányvisszaállítás median hibája (radián)

20. ábra. A valódi és a becsült impulzus irányánakeltérése 3 MeV-es elektronokra, a tanítható Hough-transzformációval, különböző érzékelési hatásfokokra

21. ábra. A valódi és a becsült impulzus irányánakeltérése 3 MeV-es elektronokra, a tanítható Hough-transzformácoó összevetése a kúpillesztéssel, 100% ér-zékelési hatásfok mellett

Az általam kidolgozott tanítható Hough-transzformáció az összes fotont felhasználvahatározottan felülmúlja a kúpillesztés módszerét (ami lényegében közöséges Hough-transzformáció). Előnye azonban csökken (mint az megfigyelhető a 20. ábrán) adetektor érzékelési hatásfokának (és így a fotonok számának) csökkenésével, mígvégül 10%-nál a két módszer lényegében ugyanarra a szintre romlik le.

33

Page 35: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

A 21. ábrán látható, hogy a tanítható Hough-transzformáció nem igazán tudjavítani a kúpillesztés által is pontosan visszaállított eseményeken, inkább a pontat-lanabbakat viszi közelebb a helyeshez.

5. Konklúzió

Azokra a területekre ahol a deep learning nagyságrendileg jobb és minőségileg másteljesítményt nyújt a hagyományos, kézzel írt algoritmusokhoz képest, jellemző, hogyaz adatokban összetett, hierarchikus struktúrák találhatóak meg, amelynek elemeiegymásból épülnek fel bonyolult mintázatok szerint. Ilyen feladat a képfelismerés, azobjektumok lokalizálása képeken, a hihető képek és videók generálása, a természetesnyelvek fordítása és a kérdés-megválaszolás [10], stb...

Az egy darab alacsony energiájú elektron keltette Cserenkov-szórásképből adinamikai paraméterek meghatározása nem ilyen feladat. Itt csupán egy nagyonegyszerű forma - a kúpszelet - használható fel, és a nehézséget inkább a véletlen zajmennyisége jelenti. Ez a viszonylagos egyszerűség abban is megmutatkozik, hogya legjobban működő modellek csak néhány ezer vagy maximum néhány százezertanítható paraméterrel rendelkeznek, szemben a fentebb említett "klasszikus AI fel-adatokhoz" használatos sokmillió paraméteres modellekkel.

Ennek ellenére kutatásom során demonstráltam, hogy a feladat szimmetriáihozigazított, a folytonos paraméterek becslését osztályok lineárkombinációjára visszave-zető modellek alkalmazhatóak, és szimulált adaton alkalmazva képesek felülmúlni ahagyományos módszer pontosságát. Az általam kidolgozott helyvisszaállító model-lek robosztusnak bizonyultak az időmérés bizonytalanságának növelésével szembenis.

Bár külön modelleket tanítottam a különböző energiájú elektronok kezelésére,ezek szerkezete megegyezett, és az előzetes kísérleteim azt mutatták, hogy betanítottparamétereik részlegesen átvihetőek: Amikor a 3 MeV-en tanított helyvisszaállítómodellt 10 MeV energiájú eseményekre alkalmaztam, az csak kismértékben gyengébb(0.05 m átlag hiba 0.031 helyett) teljesítményt mutatott, és a 10 MeV-es adathalma-zon egyszer áthaladva azon optimális teljesítményre volt tanítható. Ez valószínűsíti,

34

Page 36: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

hogy a teljes energiatartományon is hasonló eredményeket lehetne elérni, egyetlen,némileg nagyobb kapacitású modellel.

Ugyanakkor a számszerű eredmények nem vethetőek közvetlenül össze a Super-Kamiokande-ben valóban használt algoritmusok publikált [8] felbontásadataival, mi-vel a kutatás során egy jelentősen leegyszerűsített detektorszimulációt alkalmaztam.További kutatásra lenne szükség, nagyobb számitási kapacitások felhasználásával(amelyek realisztikusabb szimulációkat és részletes automatikus hiperparaméter-keresések futtatását tehetnék lehetővé), annak meghatározására, hogy a deep lear-ning komponensek a nagy neurínódetektorok adatfeldolgozási folyamatába hogyanintegrálhatóak, és a hagyományos algoritmusok mely elemeit helyettesíthetik opti-málisan vagy egészíthetik ki őket.

6. Köszönetnyilvánítás

Szeretnék köszönetet mondani témavezetőmnek, Dr. Horváth Ákosnak, aki mindvé-gig támogatott a kutatás kanyargós útjain. Szigeti Balázsnak és Dr. Hamar Gergő-nek köszönöm, hogy tanácsaikkal segítettek kiigazodni a Geant4 világában. Továbbáköszönettel tartozom Ribli Dezsőnek, Dr. Csabai Istvánnak és Biricz Andrásnak akika deep learning témakörében nyújtottak értékes támogatást, és engedélyezték, hogyhasználhassam kutatócsoportjuk egyik GPU-val felszerelt számítógépét.

Az Emberi Erőforrások Minisztériuma ÚNKP-18-5 kódszá-mú Új Nemzeti Kiválóság Programjának támogatásával készült

Hivatkozások

[1] Guido Fantini, Andrea Rosso, F. Vissani, and Vanessa Zema. The formalismof neutrino oscillations: an introduction. The State Of The Art Of NeutrinoPhysics: A Tutorial For Graduate Students And Young Researchers, 02 2018.

35

Page 37: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

[2] John N. Bahcall, Aldo M. Serenelli, and Sarbani Basu. New solar opacities,abundances, helioseismology, and neutrino fluxes. Astrophys. J., 621:L85–L88,2005.

[3] G Ranucci, M Agostini, S Appel, G Bellini, J Benziger, D Bick, G Bonfini,D Bravo, B Caccianiga, et al. Overview and accomplishments of the borexinoexperiment. Journal of Physics: Conference Series, 675(1):012036, feb 2016.

[4] R.B. Patterson, E.M. Laird, Y. Liu, P.D. Meyers, I. Stancu, and H.A. Tanaka.The extended-track event reconstruction for miniboone. Nuclear Instrumentsand Methods in Physics Research, 608(1):206 – 224, 2009.

[5] C. W. Walter. Neutrino Oscillations, pages 19–43. 2008.

[6] A. Bellerive, J.R. Klein, A. B. McDonald, A. J. Noble, and A. W. P. Poon forthe SNO Collaboration. The sudbury neutrino observatory. Nuclear Physics B,908:30–51, 2016.

[7] Hyper-Kamiokande Proto-Collaboration : K. Abe, Ke. Abe, H. Aihara, et al.Hyper-kamiokande design report, 2018.

[8] K. Abe, Y. Hayato, T. Iida, M. Ikeda, C. Ishihara, K. Iyogi, J. Kameda, K. Ko-bayashi, et al. Solar neutrino results in super-kamiokande-iii. Phys. Rev. D,83:052010, Mar 2011.

[9] T. Kajita, Edward Kearns, and Mikio Shiozawa. Establishing atmosphericneutrino oscillations with super-kamiokande. Nuclear Physics B, 908, 04 2016.

[10] Yann LeCun, Y. Bengio, and Geoffrey Hinton. Deep learning. Nature, 521:436–44, 05 2015.

[11] Alex Krizhevsky, Ilya Sutskever, and Geoffrey Hinton. Imagenet classificati-on with deep convolutional neural networks. Neural Information ProcessingSystems, 25, 01 2012.

[12] Zonghan Wu, Shirui Pan, Fengwen Chen, Guodong Long, Chengqi Zhang, andPhilip S. Yu. A Comprehensive Survey on Graph Neural Networks. arXive-prints, page arXiv:1901.00596, Jan 2019.

36

Page 38: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

[13] Ahmad Shawahna, Sadiq Sait, and Aiman El-Maleh. Fpga-based accelerators ofdeep learning networks for learning and classification: A review. IEEE Access,PP:1–1, 12 2018.

[14] Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang,Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga, and Adam Lerer.Automatic differentiation in PyTorch. In NIPS Autodiff Workshop, 2017.

[15] Teresa Montaruli. The cherenkov effect.

[16] M. Shiozawa for the Super-Kamiokande Collaboration. Reconstruction algo-rithms in the super-kamiokande large water cherenkov detector. Nuclear Inst-ruments and Methods in Physics Research, 433:240–246, 1999.

[17] M Jiang, K Abe, C Bronner, Y Hayato, M Ikeda, K Iyogi, J Kameda, Y Kato,and others on behalf of the Super-Kamiokande Collaboration. Atmosphe-ric neutrino oscillation analysis with improved event reconstruction in super-kamiokande iv. 2019, 2019.

[18] K. Abe et al. Solar Neutrino Measurements in Super-Kamiokande-IV. Phys.Rev., D94(5):052010, 2016.

[19] Kim Alberson, Piero Altoe, Dustin Anderson, John Anderson, Michael And-rews, Juan Pedro Araque Espinosa, Adam Aurisano, Laurent Basara, et al.Machine learning in high energy physics community white paper. 2018.

[20] End-to-end physics event classification with cms open data: Applying image-based deep learning to detector data for the direct classification of collisionevents at the lhc. EPJ Web Conf, 214, 2019.

[21] Michael Andrews, John Alison, Sitong An, Patrick Bryant, Bjorn Burkle, SergeiGleyzer, Meenakshi Narain, Manfred Paulini, Barnabas Poczos, and EmanueleUsai. End-to-End Jet Classification of Quarks and Gluons with the CMS OpenData. arXiv e-prints, page arXiv:1902.08276, Feb 2019.

[22] A. Aurisanoa, A. Radovicb, D. Roccoc, A. Himmeld, M.D. Messiere, E. Ninerd,G. Pawloskic, F. Psihase, A. Sousaa, and P. Vahleb. A convolutional neuralnetwork neutrino event classifier. Journal of Instrumentation, 11, 2016.

37

Page 39: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

[23] Z. Li, K. Abe, C. Bronner, Y. Hayato, M. Ikeda, K. Iyogi, J. Kameda, Y. Kato,et al. Measurement of the tau neutrino cross section in atmospheric neutrinooscillations with super-kamiokande. Phys. Rev. D, 98:052006, Sep 2018.

[24] Y. Chan Dawei W. Dongy. Neural network for recognizing cerenkov radiationpatterns.

[25] Tomalty Theodore. Particle Identification in Cherenkov Detectors using Con-volutional Neural Networks . Aug 2016.

[26] S.Agostinelli, J.Allison, K.Amako, J.Apostolakis, H.Araujo, P.Arce, M.Asai,et al. Geant4—a simulation toolkit. Nuclear Instruments and Methods in Phy-sics Research, 506:250–503, 2003.

[27] K. M. Górski, E. Hivon, A. J. Banday, B. D. Wandelt, F. K. Hansen, M. Rei-necke, and M. Bartelmann. HEALPix: A Framework for High-Resolution Disc-retization and Fast Analysis of Data Distributed on the Sphere. AstrophysicalJournal, 622:759–771, April 2005.

[28] Andrea Zonca, Leo Singer, Daniel Lenz, Martin Reinecke, Cyrille Rosset, EricHivon, and Krzysztof Gorski. healpy: equal area pixelization and sphericalharmonics transforms for data on the sphere in python. Journal of Open SourceSoftware, 4(35):1298, March 2019.

[29] Krachmalnicoff, N. and Tomasi, M. Convolutional neural networks on thehealpix sphere: a pixel-based algorithm and its application to cmb data analysis.A&A, 628:A129, 2019.

[30] Matthias Fey and Jan E. Lenssen. Fast graph representation learning withPyTorch Geometric. In ICLR Workshop on Representation Learning on Graphsand Manifolds, 2019.

[31] Christopher Morris, Martin Ritzert, Matthias Fey, William L. Hamilton,Jan Eric Lenssen, Gaurav Rattan, and Martin Grohe. Weisfeiler and lemango neural: Higher-order graph neural networks. In AAAI, 2018.

[32] N. Perraudin, M. Defferrard, T. Kacprzak, and R. Sgier. Deepsphere: Efficientspherical convolutional neural network with healpix sampling for cosmologicalapplications. Astronomy and Computing, 27:130–146, 2019.

38

Page 40: Tudományos Diákköri Dolgozat Alacsony energiás Cserenkov …atomfizika.elte.hu/akos/tezisek/tdk/bodylorinc_tdk.pdf · 2020. 4. 23. · Tudományos Diákköri Dolgozat Alacsony

[33] Taco S. Cohen, Mario Geiger, Jonas Köhler, and Max Welling. Spherical CNNs.In International Conference on Learning Representations, 2018.

[34] Risi Kondor, Zhen Lin, and Shubhendu Trivedi. Clebsch–gordan nets: a fullyfourier space spherical convolutional neural network. In S. Bengio, H. Wallach,H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advan-ces in Neural Information Processing Systems 31, pages 10117–10126. CurranAssociates, Inc., 2018.

[35] Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deepnetwork training by reducing internal covariate shift. In Proceedings of the 32NdInternational Conference on International Conference on Machine Learning -Volume 37, ICML’15, pages 448–456. JMLR.org, 2015.

[36] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimiza-tion. arXiv preprint arXiv:1412.6980, 2014.

[37] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Rus-lan Salakhutdinov. Dropout: A simple way to prevent neural networks fromoverfitting. Journal of Machine Learning Research, 15:1929–1958, 06 2014.

39