escience régionális egyetemi tudásközpont projekt neve: genom - annotáció
DESCRIPTION
eScience Régionális Egyetemi Tudásközpont Projekt neve: Genom - annotáció Projekt vezető: Patthy László Partner cég : DELTA Elektronik Kft. eScience Tudom ányos Nap Budapest, 200 7 . február 27. A jelenleg használatos gyógyszer e k kevesebb mint 500 humán célfehérjére hatnak. - PowerPoint PPT PresentationTRANSCRIPT
eScience Régionális Egyetemi Tudásközpont
Projekt neve: Genom-annotációProjekt vezető: Patthy László
Partner cég: DELTA Elektronik Kft.
eScience Tudományos Nap Budapest, 2007. február 27
A jelenleg használatos gyógyszerek kevesebb mint 500 humán célfehérjére hatnak.
A Humán Genom Projekt egyik fontos motivációja az volt, hogy a teljes genom-szekvencia meghatározása révén azonosítani lehessen a teljes humán génkészletet és a sokezer, korábban nem ismert gén közül ki lehessen választani azokat, amelyek új gyógyszercélpontként szolgálhatnak.
Egy új-típusú gyógyszer kifejlesztése általában 10-16 évet vesz igénybe és átlagosan 500-800 millió USA dollárba kerül.
A gyógyszerfejlesztés igen gyakran sokévi kutatómunka (és sok millió USD) invesztálását követően fullad kudarcba, így rendkívül
fontos a gyógyszercélpont megfelelő kiválasztása.
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
CÉLFEHÉRJÉK AZONOSÍTÁSA
AKTÍV VEGYÜLETEKAZONOSÍTÁSA ÉS OPTIMALIZÁLÁSA
PRE-KLINIKAI
VIZSGÁLATOK
KLINIKAI VOZSGÁLATOKENGEDÉ-LYEZÉS
FÁZIS II FÁZIS IIIFÁZIS I
GYÓGYSZERBETEGSÉG OKAINAK
TISZTÁZÁSA
ÉV
CÉLFEHÉRJÉKVALIDÁLÁSA
A ‘genotypic drug discovery’a genom-annotáció és a funkcionális genomika eszköztárát alkalmazza annak érdekében, hogy a genomban azonosított gének által kódolt fehérjék funkcióját, biológiai szerepét és betegségek kialakulásában játszott szerepét meghatározza és kiválassza azokat, melyek alkalmasak gyógyszer-célpontnak.
A genom-szekvencia értelmezésének, a genom annotációnak, első és alapvető lépése a gének bioinformatikai úton történő azonosítása.
A génazonosítás még mindig meglévő problémáit illusztrálhatjuk azzal, hogy 5 évvel az emberi genom szekvenciájának meghatározása után még mindig bizonytalan (20.000-25.000 közé tehető) az emberi genomban található fehérje-kódoló gének száma.
Ennél is súlyosabb problémát jelent, hogy az azonosított gének jelentős hányadának (cca. 50 %-ának) a bioinformatikai módszerekkel megjósolt szerkezete téves.
A jelenlegi génpredikciós módszerek jelentős bizonytalansága így komoly problémákat okoz a (tévesen) megjósolt gének/fehérjék funkciójának meghatározásában, gyógyszercélpontként való hasznosíthatóságuk megítélésében.
Az eScience Régionális Egyetemi Tudásközpont „Genom-annotáció” projektjének célkitűzése:
- a jelenleg alkalmazott génpredikciós módszerek hibáinak kiderítése, a hibásan megjósolt gének azonosítása.
- megbízhatóbb génpredikciós eljárások kidolgozása.
- a rosszul predikált humán gének helyes szerkezetének meghatározása, funkciójának predikciója és a gyógyszercélpontként felhasználható gének azonosítása.
A tévesen megjósolt szerkezetű és/vagy abnormális fehérjék azonosítására szolgáló MisPred projekt alapja az az általános megfontolás, hogy egy fehérje-kódoló gén megjósolt szerkezete téves, ha a jósolt gén és/vagy fehérje valamely tulajdonsága nem egyeztethető össze a fehérjekódoló génekre és/vagy fehérjékre jellemző törvényszerűségek valamelyikével.
A MisPred projekt jelenlegi verziója öt szabályt alkalmazott különböző élőlények hibás fehérjéinek azonosítására az EnsEMBL, UniProt Swiss-Prot és UniProt TrEMBL adatbázisokban.
1. Konfliktus a fehérje szubcelluláris lokalizációja és a lokalizációs jelek megléte vagy hiánya között.
Szabály: azok a fehérjék, melyek az extracelluláris térre korlátozott fehérjedoméneket tartalmaznak (pl. szekretált fehérjék, membránfehérjék) szignál peptidet és/vagy transzmembrán szegmentet is kell, hogy tartalmazzanak.
Másszóval, azok a fehérjék, melyek extracelluláris doméneket tartalmaznak, de sem szignál peptidjük, sem transzmembrán szegmentjük nincs, abnormálisnak tekinthetők.
latrophilin-2
SP
complement factor masp-3
SP
leukocyte activation antigen m6
SP TM
TM
killer cell lectin-like receptor
TM
receptor tyrosine kinase-like orphan receptor 2
TMSP
enst00000359637.1.pepUNI_TREMBL:Q8N708
ID Q8N708 PRELIMINARY; PRT; 449 AA.AC Q8N708;DT 01-OCT-2002 (TrEMBLrel. 22, Created)DT 01-OCT-2002 (TrEMBLrel. 22, Last sequence update)DT 01-MAR-2003 (TrEMBLrel. 23, Last annotation update)DE HF1 protein. . . .
SCORES Init1: 3167 Initn: 3167 Opt: 3167 z-score: 3657.9 E(): 1.1e-195>>UNI_TREMBL:Q8N708 (449 aa) initn: 3167 init1: 3167 opt: 3167 Z-score: 3657.9 expect(): 1.1e-195Smith-Waterman score: 3167; 99.5% identity in 430 aa overlap (1-430:20-449)
10 20 30 40 enst00000359 DCNELPPRRNTEILTGSWSDQTYPEGTQAIYKCRPGYRSLG |||||||||||||||||||||||||||||||||||||||||Q8N708 MRLLAKIICLMLWAICVAEDCNELPPRRNTEILTGSWSDQTYPEGTQAIYKCRPGYRSLG 10 20 30 40 50 60
50 60 70 80 90 100 enst00000359 NVIMVCRKGEWVALNPLRKCQKRPCGHPGDTPFGTFTLTGGNVFEYGVKAVYTCNEGYQL ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Q8N708 NVIMVCRKGEWVALNPLRKCQKRPCGHPGDTPFGTFTLTGGNVFEYGVKAVYTCNEGYQL 70 80 90 100 110 120
110 120 130 140 150 160 enst00000359 LGEINYRECDTDGWTNDIPICEVVKCLPVTAPENGKIVSSAMEPDREYHFGQAVRFVCNS ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Q8N708 LGEINYRECDTDGWTNDIPICEVVKCLPVTAPENGKIVSSAMEPDREYHFGQAVRFVCNS 130 140 150 160 170 180
170 180 190 200 210 220 enst00000359 GYKIEGDEEMHCSDDGFWSKEKPKCVEISCKSPDVINGSPISQKIIYKENERFQYKCNMG ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Q8N708 GYKIEGDEEMHCSDDGFWSKEKPKCVEISCKSPDVINGSPISQKIIYKENERFQYKCNMG 190 200 210 220 230 240
230 240 250 260 270 280 enst00000359 YEYSERGDAVCTESGWRPLPSCEEKSCDNPYIPNGDYSPLRIKHRTGDEITYQCRNGFYP ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Q8N708 YEYSERGDAVCTESGWRPLPSCEEKSCDNPYIPNGDYSPLRIKHRTGDEITYQCRNGFYP 250 260 270 280 290 300
290 300 310 320 330 340 enst00000359 ATRGNTAKCTSTGWIPAPRCTLKPCDYPDIKHGGLYHENMRRPYFPVAVGKYYSYYCDEH ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Q8N708 ATRGNTAKCTSTGWIPAPRCTLKPCDYPDIKHGGLYHENMRRPYFPVAVGKYYSYYCDEH 310 320 330 340 350 360
350 360 370 380 390 400 enst00000359 FETPSGSYWDHIHCTQDGWSPAVPCLRKCYFPYLENGYNQNHGRKFVQGKSIDVACHPGY |||||||||||||||||||||||||||||||||||||||||:||||||||||||||||||Q8N708 FETPSGSYWDHIHCTQDGWSPAVPCLRKCYFPYLENGYNQNYGRKFVQGKSIDVACHPGY 370 380 390 400 410 420
410 420 430enst00000359 ALPKAQTTVTCMENGWSPTPRCIRVKFTL |||||||||||||||||||||||||:|||Q8N708 ALPKAQTTVTCMENGWSPTPRCIRVSFTL 430 440
Q8N708
ENSP00000352658.1
Szignál peptid
2. Konfliktus. Extracelluláris és intracelluláris domének együttes jelenléte és transzmembrán szegmentek hiánya.
Szabály: extracelluláris és intracelluláris domének multidomén fehérjékben csak akkor fordulhatnak együtt elő, ha transzmembrán szegmentek választják el egymástól a két domén típust.
Másszóval, azok a fehérjék, melyek mind extracelluláris, mind intracelluláris doméneket tartalmaznak, de nem tartlmaznak transzmembrán szegmentet, abnormálisnak tekinthetők.
receptor tyrosine kinase-like orphan receptor 2
TMSPKR
3. Konfliktus. Extracelluláris és nukleáris domének együttes előfordulása.
Szabály: nukleáris és extracelluláris domének nem fordulnak elő egyetlen fehérjében.
Másszóval, azok a fehérjék, melyek mind extracelluláris, mind nukleáris domént tartalmaznak abnormálisnak tekinthetők.
4. Konfliktus. Domén méret deviáció.
Szabály: egy adott fehérje-domén családba tartozó domének mérete a családra jellemző, szűk határok között mozog. A domén méretének jelentős megváltozása (inszerció vagy deléció révén) nagy valószínűséggel olyan fehérjét eredményez, mely nem képes a domén-családra jellemző stabil térszerkezet kialakítására.
Másszóval, azok fehérjék, melyek olyan doméneket tartalmaznak, melyek mérete lényegesen eltér a rokon doménekétől abnormálisnak tekinthetők.
Query= RP11-247A12.5-001 [544 aa]
Subject= CACP_HUMAN, Carnitine O-acetyltransferase [626 residues]
1 100 cacp_human MLAFAARTVV KPLGFLKPFS LMKASSRFKA HQDALPRLPV PPLQQSLDHY LKALQPIVSE EEWAHTKQLV DEFQASGGVG ERLQKGLERR ARKTENWLSE rp11-247a12 MLAFAARTVV KPLGFLKPFS LMKASSRFKA HQDALPRLPV PPLQQSLDHY LKALQPIVSE EEWAHTKQLV DEFQASGGVG ERLQKGLERR ARKTENWLSE 101 200 cacp_human WWLKTAYLQY RQPVVIYSSP GVMLPKQDFV DLQGQLRFAA KLIEGVLDFK VMIDNETLPV EYLGGKPLCM NQYYQILSSC RVPGPKQDTV SNFSKTKKPP rp11-247a12 WWLKTAYLQY RQPVVIYSSP GVMLPKQDFV DLQGQLRFAA KLIEGVLDFK VMIDNETLPV EYLGGKPLCM NQYYQILSSC RVPGPKQDTV SNFSKTKKPP 201 300 cacp_human THITVVHNYQ FFELDVYHSD GTPLTADQIF VQLEKIWNSS LQTNKEPVGI LTSNHRNSWA KAYNTLIKDK VNRDSVRSIQ KSIFTVCLDA TMPRVSEDVY rp11-247a12 THITVVHNYQ FFELDVYHSD GTPLTADQIF VQLEKIWNSS LQTNKEPVGI LTSNHRNSWA KAYNTLIKDK VNRDSVRSIQ .......... .......... 301 400 cacp_human RSHVAGQMLH GGGSRLNSGN RWFDKTLQFI VAEDGSCGLV YEHAAAEGFP IVTLLDYVIE YTKKPELVRS PMVPLPMPKK LRFNITPEIK SDIEKAKQNL rp11-247a12 .......... .......... .......... .......... .......... .......... ..KKPELVRS PLVPLPMPKK LRFNITPEIK SDIEKAKQNL 401 500 cacp_human SIMIQDLDIT VMVFHHFGKD FPKSEKLSPD AFIQMALQLA YYRIYGQACA TYESASLRMF HLGRTDTIRS ASMDSLTFVK AMDDSSVTEH QKVELLRKAV rp11-247a12 SIMIQDLDIT VMVFHHFGKD FPKSEKLSPD AFIQMALQLA YYRIYGQACA TYESASLRMF HLGRTDTIRS ASMDSLTFVK AMDDSSVTEH QKVELLRKAV 501 600 cacp_human QAHRGYTDRA IRGEAFDRHL LGLKLQAIED LVSMPDIFMD TSYAIAMHFH LSTSQVPAKT DCVMFFGPVV PDGYGVCYNP MEAHINFSLS AYNSCAETNA rp11-247a12 QAHRGYTDRA IRGEAFDRHL LGLKLQAIED LVSMPDIFMD TSYAIAMHFH LSTSQVPAKT DCVMFFGPVV PDGYGVCYNP MEAHINFSLS AYNSCAETNA 601 626 cacp_human ARLAHYLEKA LLDMRALLQS HPRAKLrp11-247a12 ARLAHYLEKA LLDMRALLQS HPRAKL
deléció
STRUCTURE OF HUMAN CARNITINE ACETYLTRANSFERASE 1NM8.pdb
His 343
A Carnitine O-acetyltransferase térszekezete
5. Konfliktus. Kimérikus fehérjék.
Szabály: egy-egy fehérjét egyetlen kromoszómán található gén kódol.
Másszóval, azok a fehérjék, melyek különböző részeit különböző kromoszómán található gének kódolják abnormálisnak tekinthetők.
A BioSapiens Network of Excellence, az Európai Virtuális Genom Annotációs Intézet feladatai között jelentős hangsúllyal szerepel
a génpredikciós eljárások továbbfejlesztése.
Az ENCODE (the ENCyclopedia Of DNA Elements) projektet 2003-ban indította el a National Human Genome Research Institute, National Institute of Health azzal a céllal, hogy a humán genom valamennyi funkcionális elemét azonosítsa.
Ehhez a projekthez a BioSapiens konzorcium tagjaként csoportunk is csatlakozott.
Az eScience Régionális Egyetemi Tudásközpont „Genom-annotáció” projektjének célkitűzése:
- a jelenleg alkalmazott génpredikciós módszerek hibáinak kiderítése, a hibásan megjósolt gének azonosítása.
- megbízhatóbb génpredikciós eljárások kidolgozása.
- a rosszul predikált humán gének helyes szerkezetének meghatározása, funkciójának predikciója és a gyógyszercélpontként felhasználható gének azonosítása.
A munka a BioSapiens projekt és az eScience projekt keretében folyik. A BioSapiens projektet a European Commission finanszírozza a FP6 Program "Life sciences, genomics and biotechnology for health” téma keretében (szerződésszám: LHSG-CT-2003-503265). Az eScience projektet az NKTH finanszírozza (RET14/2005).
Balogh SándorKeresztessy AttilaMáris JózsefMolnár SándorMolnár ZoltánOláh ZoltánRákóczi BélaSzentgyörgyi AndorSzoboszlai LajosSztopen ErzsébetSzűcs NorbertGulyás FerencSeffer Tamás
Bányai LászlóFarkas KrisztinaHegyi HédiKozma EvelinNagy AlindaTordai Hedvig