keresési feladatok molekulagráfokon - elte
TRANSCRIPT
Keresési feladatok molekulagráfokonKovács Péterab, Tichler Krisztiána, Fekete Istvána
a ELTE, Informatikai Kar, Algoritmusok és Alkalmazásaik Tanszékb ChemAxon Kft.
{kpeter, ktichler, fekete.istvan}@inf.elte.hu
Kivonat
Az utóbbi években az ELTE és egy kémiai informatikai cég,a ChemAxon Kft. között egyre intenzívebb együttmuködésalakult ki az oktatás és kutatás terén. Ennek keretében mo-lekulagráfokon értelmezett különféle keresési problémákatvizsgálunk. Az ezekhez szükséges algoritmikus háttérrel aprogramtervezo informatikus hallgatók két MSc tantárgy ke-retében ismerkedhetnek meg. A kutatás eredményei TDKdolgozat, BSc/MSc szakdolgozat és folyóiratcikk formájá-ban jelennek meg.
1. Bevezetés
A kémiai informatikában felmerülo problémák középpont-jában molekulák szerkezetét leíró gráfok állnak. A ké-miai adatbázisok nagy mennyiségu molekulát tartalmaz-nak, amelyeken különbözo nehéz keresési feladatokat kellmegoldani.Az egyik leggyakrabban felmerülo probléma a hasonlóságikeresés. Lehetséges megközelítési módok:• molekulaleírók (fingerprintek ) távolságának kiszámításá-
val (2. fejezet);• bonyolultabb gráfillesztési módszerekkel, pl. a szerkesz-
tési távolság meghatározásával (3. fejezet).
Hasonlósági keresés molekula-adatbázisban
Fontos feladat a molekulagráfok topológiai vizsgálata is.Ennek kulcsfontosságú eleme a gyuruk és gyururendsze-rek feltérképezése (4. fejezet).
2. Hasonlósági keresés fingerprintek segítségével
Résztvevok: Kovács Balázs, Tamaga István, Kovács Péter,Fekete István
Molekulák vizsgálatához gyakran alkalmazunk különbözoleírókat, fingerprinteket. Egy fingerprint általában egyhosszú bináris sorozat (pl. d = 1024 bit), amely jól rep-rezentálja a struktúra bizonyos kémiai tulajdonságait. Ígymolekulák hasonlóságát a fingerprintjeik távolságával jelle-mezhetjük.
Hasonlósági keresés a fingerprintek terében
2.1 Helyzetérzékeny hasítás (LSH)A hasonlósági keresést a fingerprintek {0, 1}d terében mi-nél hatékonyabban kell elvégezni. Az alacsony dimenziósterekben megszokott térfelosztó módszerek itt nem alkal-mazhatók, viszont az ún. helyzetérzékeny hasítás (LocalitySensitive Hashing, LSH) egy megfelelo közelíto módszer.
LSH módszer – hash-tábla építése
Az eljárás alapötlete az, hogy kiválasztunk néhány bitpo-zíciót, és a keresést csak azon fingerprintek között végez-zük el, amelyek ezen koordinátáikban megegyeznek a le-kérdezo fingerprinttel.
Az LSH módszer teszteléséhez és elemzéséhez készültegy demonstrációs program.
2.2 Statisztikai vizsgálatok• Elméleti úton és mérésekkel egyaránt vizsgáltuk az
LSH módszer paramétereinek hatását, becslést adtunka hibavalószínuségre.
• A bemeneti adatok statisztikai vizsgálata alapján javasla-tot adtunk a hasítókoordináták kiválasztására.
2.3 Dimenziócsökkentés• Fokomponens-analízis (PCA) és véletlen vetítés alkal-
mazása a fingerprintek hosszának csökkentésére. Azutóbbi módszer hatékonyabbnak bizonyult, kétszintu ke-resést tesz lehetové.
• Hasítókoordináták kiválasztása a kovariancia-mátrixalapján: jóval hatékonyabb a véletlen választásnál.
3. Molekulák szerkesztési távolsága
Résztvevok: Hodobay Balázs, Kovács Péter, Tichler Krisz-tián
Molekulagráfok hasonlóságát definiálhatjuk a szerkesztésitávolságukkal (edit distance) is. Megengedett muveletek:csúcsok és élek beszúrása, törlése, átcímkézése.
Szerkesztési távolság becslése (példák)
Gráfok szerkesztési távolságának (a transzformációslépések minimális számának) meghatározása NP-nehézfeladat. Megvalósítottunk egy hatékony közelíto algorit-must, amely a két gráf lokális környezeteinek („csillagok-nak”) optimális párosításából indul ki. Ez alapján közvet-lenül meghatározható egy alsó becslés a szerkesztési tá-volságra. Az atomok illesztésének iteratív javításával pedigegy elég jó felso becslést is kapunk.
Szerkesztési távolság becslése atomkörnyezetek illesztése alapján
Az irodalomban talált módszert kis mértékben általánosítot-tuk, valamint különbözo heurisztikus javításokkal egészítet-tük ki (elsosorban a felso becslés meghatározásához).
4. Gyuruk és gyururendszerek keresése
Résztvevok: Kendi János, Kiss Bence, Kovács Péter, Tich-ler Krisztián
Vizsgált problémák:• Egy molekula ciklikus és aciklikus részeinek felderítése,
a topológiát leíró ún. feature tree eloállítása.• Összes gyuru (kör) megkeresése.
• SSSR (Smallest Set of Smallest Rings) megkeresése. AzSSSR egy minimális körbázis, vagyis a gráf összes körétmeghatározó minimális körrendszer. Az SSSR méretemegegyezik a gráf ciklomatikus számával.
Hatékony polinomiális algoritmusokat implementáltunkmindhárom feladat megoldására.
Molekulák szerkezeti felépítése (példák)
Összes kör és SSSR (példák)
5. További kutatási irányok
Résztvevok: Ásványi Tibor, Gazdag Zsolt, Nagy Sára,Veszprémi Anna, Baláz Adam, Matuszka Tamás, VigulaMónika
• Részstruktúra-keresés molekula-adatbázisokban• Hasításos módszerek alkalmazása fingerprintekre• Gráfmetrikák vizsgálata• Párhuzamosítás elméletének számítástudományi meg-
közelítése• Struktúraelemzés és hibakezelés logikai programozással
6. Oktatási háttér
Résztvevok: Hunyadvári László, Fekete István, KovácsPéter
A Programtervezo informatikus MSc szakon két „haladó”Algoritmusok félév:• Speciális algoritmusok és adatstruktúrák (2 + 2, k + gy)• Algoritmusok tervezése és elemzése (2 + 2, k + gy)
Az eloadások tematikája: algoritmustervezési módsze-rek: rekurzió (oszd meg és uralkodj), dinamikus progra-mozás, mohó algoritmusok (matroidok); közelíto és vé-letlenített algoritmusok (fingerprint módszer, univerzálishasítás); algoritmusok muveletigénye, Mester-tétel.
A gyakorlatok anyaga, beadandó programok témái:maximális párosítás páros gráfban; maximális folyamprobléma; molekulák reprezentációja; SMILES formá-tum; molekulaleírók, fingerprintek; részstruktúra- és ha-sonlósági keresés molekulagráfokon.
7. Publikációk
1. Kovács Balázs, Tamaga István: Molekulagráfok leíróinakvizsgálata a hasonlósági keresés szempontjából. TDKdolgozat, ELTE IK, 2010. (kari 1., országos 3. díj)
2. Kendi János: Részstruktúrák keresése molekulagráfok-ban. MSc diplomamunka, ELTE IK, 2011.
3. Hodobay Balázs: Hasonló részstruktúrák keresése mo-lekulagráfokban. MSc diplomamunka, ELTE IK, 2011.
4. Vigula Mónika: A részgráf-izomorfizmus probléma adat-bázisokban. BSc szakdolgozat, ELTE TTK, 2011.
5. B. Kovács, I. Tamaga, P. Kovács, I. Fekete. Similaritysearch on fingerprints of molecule graphs. (benyújtáselott)
6. Oktatási anyagok, 2009-2011.http://people.inf.elte.hu/kpeter/