bioinformatika - ╞ hacked by tunisian attacker...
TRANSCRIPT
Mi a bioinformatika?
Bioinformatika: számítógépes módszerek kidolgozása és alkalmazása a biológiai információ kezelésére és elemzésére.
A bioinformatika céljai
• Adatbázisok létrehozása és karbantartása. Az adatok megszervezése, rendezése oly módon, hogy a kutatók könnyedén hozzáférhessenek a meglévő információhoz, és hozzátehessenek újat.
• Eszközök, módszerek kifejlesztése az adatok elemzésére. Az adatok haszontalanok, amíg nem elemeztük őket.
• Az eszközök és módszerek alkalmazása az adatok elemzésére, és az eredmények értelmezése a biológia szempontjából.
A biológiai információ típusai és elemzési módszerei
Az adatok forrása Az adathalmaz mérete Bioinformatikai témák
Nyers DNS szekvenciák 102 millió szekvencia102 milliárd nukleotid
•A kódoló és nem−kódoló régiókelkülönítése•Az intronok és exonok azonosítása•A géntermékek predikciója•Igazságügyi elemzések
Fehérjeszekvenciák
7 millió 342 ezer szekvencia
2 milliárd 392 millió aminosav
•Szekvenciaösszehasonlításialgoritmusok•Többszörös szekvenciaillesztõalgoritmusok•Konzerválódottszekvenciamotívumok azonosítása
Makromolekuláris szerkezetek 56 ezer szerkezet
•Másodlagos és harmadlagosszerkezet jóslása•3D szerkezeteket illesztõalgoritmusok•Fehérjegeometriai mérések•Felszín, térfogat és alak számítása•Intermolekuláris kölcsönhatások•Molekulaszimulációk(energiafüggvény, molekulárismozgások, dokkolás)
A biológiai információ típusai és elemzési módszerei 2.
Az adatok forrása Az adathalmaz mérete Bioinformatikai témák
Genomok
2100 vírus, 1100 baktérium, 1800 eukarióta
(teljes genom, organellum, kromoszóma)
•Az ismétlõdések jellemzése•Szerkezetek hozzárendelése génekhez•Filogenetikai analízis•Genomi méretű felmérések (fehérjetartalom jellemzése, anyagcsere−útvonalak)•Kapcsoltság elemzése egyes betegségek és gének összefüggésének vizsgálatához
Génexpressziós adatoklegnagyobb: kb. 20 időpont az élesztõkb. 6000 génjénél (2002)
•Az expressziós mintázatok korrelációjának vizsgálata•Az expressziós adatok összekapcsolása a szekvencia−, szerkezeti és biokémiai adatokkal
Egyéb: szakirodalom ~ 18 millió szakcikk•Elektronikus könyvtárak az automatizált irodalomkutatáshoz•Tudásadatbázisok irodalmi adatokból
Mintázatfelismerés és predikció
Két alapvető művelet a bioinformatikában
Mintázatfelismerés: a hasonlóságok megtalálása• A már ismert, hasonló funkciójú/szerkezetû fehérjéket megvizsgálva megkeresünk valamely, a funkcióra/szerkezetre jellemzõ, konzerválódott sajátosságot• Ezt használjuk fel új szekvenciák funkciójának/szerkezetének azonosítására• Feltétel: az új szekvencia olyan fehérjéhez tartozzon, amihez hasonlót már "láttunk"
Predikció:• A funkció vagy a térszerkezet megjóslása, hasonlóság alapján vagy másképpen• A bioinformatika "Szent Grálja": a szekvenciából megjósolni a térszerkezetet
Molekuláris biológiai szerverek és adatbázisok
ENTREZ: http://www.ncbi.nlm.nih.gov/entrez
GenBank: http://www.ncbi.nlm.nih.gov/Genbank
Genomes: http://www.ncbi.nlm.nih.gov/genomes
Protein Data Bank: http://www.rcsb.org/pdb/
EMBL: http://www.embl-heidelberg.de/
EXPASY: http://www.expasy.org/
Félévközi beadandó feladatFeladat Program
1. Adott fehérjeszekvencia kikeresése EXPASY UniProt
2. Fizikai-kémia alaptulajdonságok meghatározása (MW, pI, E280)
EXPASY ProtParam
3. Rokon fehérjeszekvenciák keresése EXPASY BLAST
4. Többszörös szekvencia-összerendezés, mintázatok azonosítása(a 30-90% homológiatartományban található 10 kiválasztott fehérjével szekvencia-összerendezés)
BLAST ClustalW
5. Másodlagos szerkezetjósláshttp://npsa-pbil.ibcp.fr
NPSA CONSENSUS MLRC, PHD, Predator
6. Térszerkezet megjelenítésefeltekeredési mintázattérkitöltéses modell
Entrez PDB JMolFirstGlance
Másodlagos adatbázisokSzekvencia-mintázat adatbázisok, az elsődleges (szekvencia) adatbázisokból származtatják őket.
PROSITE, eMOTIF: egy motívum
PRINTS, BLOCKS: több motívum
Mire jók?
Segítenek felismerni egy új fehérje funkcióját kis mértékű homológia esetén is.
(közös őstől származó, ortológ fehérjék)
Másodlagos szerkezetjóslásMódszer Elv Pontosság
(%)1. generációspl. Chou-Fasman, GOR I,
GOR II
Az egyes aminosavtípusok előfordulásának valószínűseége a különböző másodlagos szerkezeti elemekben.
55-57
2. generációsNagano, GOR III-IV, PF
Fizikai-kémiai tulajdonságok, aminosavpárok ill. tripletek statisztikai adatai
60-62
3. generációsNSSP, LPAG, PHD
Többszörös összerendeződések, neuronhálózat
68-72
Konszenzus Több más módszer alapján konszenzus
73-75
Fehérjék térszerkezetének jóslása
• Homológia-modellezés
• Gombolyfelismerés
• Ab initio szerkezetjóslás
Homológia-modellezésSzámottevő (>20%) szekvencia azonosságot mutató ismert szerkezetű fehérjék (referenciafehérjék) térszerkezete alapján.
Lépések:
- Térszerkezetek szuperpozíciója
- Szerkezetileg konzerválódott régiók (SCR) azonosítása
- Aminosavszekvenicák összerendezése
- Az SCR-ek alapján az új fehérje vázának felépítése
- A variábilis régiók modellezése
Az új fehérje vázszerkezetének felépítése
Homológia-modellezés
Az SCR-eket bármelyik referencia fehérjéből átvehetjük.
A variábilis régiók modellezése
Homológia-modellezés
Durva modell
A templátfehérjék ill. hurok-adatbázisok alapján.(oldalláncok cseréje)
További finomítás: energiaminimalizáció
Gombolyfelismerés:
Ab initio modellezés:Kis fehérjék esetén bíztató próbálkozások, de általános esetben egyelőre nem ad kielégítő eredményt.
Távoli homológok (<25% szekvencia azonosság) gyakran azonos gombollyal rendelkeznek. A feladat ennek felismerése.
• „Gombolykönyvtár” az ismert térszerkezetek alapján• A szekvenciánkat egyenként az összes gombollyal összehasonlítjuk, hogy megtaláljuk, van-e köztük olyan, amit a szekvenciánk felvehet.
DokkolásKismolekula (ligandum, szubsztrát, koenzim, stb.) kötődési
helyének megtalálása egy fehérje (receptor) felszínén
Két fehérje egymáshoz való kötődési helyének megtalálása
Módszer: az egyik molekula mozgatása és forgatása a másik felszínén, eközben az illeszkedés értékelése.
Eredményesség:• Kismolekula fehérjére dokkolásakor jó eredmények érhetőek el, de bonyolultabb esetekben (pl. nagy fehérje, nagy és flexibilis szubsztrát) csak kísérleti adatok ismeretében érhető el megfelelő eredmény• Fehérje-fehérje dokkolás: gyenge eredmények
GenomikaGenom: egy élőlény v. sejt teljes gén−, ill. DNS-állománya.
Genomika: a genom megismerése, ill. tanulmányozása, azaz a teljes genetikai információ felhasználása, szemben az egyes, kiválasztott gének vagy géncsoportok tanulmányozásávalFunkcionális genomika: a génekhez a funkció hozzárendelése genomikai módszerekkel (számítógépes és kísérleti)Szerkezeti genomika: a genomban kódolt fehérjék térszerkezetének kiderítése (számítógépes és kísérleti módszerekkel), és ezek felhasználása (pl. a funkcionális genomikában)
Módszerek a funkcionális genomikábanFilogenetikai profilokAz azonos, v. nagyon hasonló filogenetikai profillal rendelkező gének között funkcionális kapcsolat valószínűsíthető
Rosetta-kő módszerHa két fehérje megtalálható fúziós fehérjeként is, akkor közöttük funkcionális kapcsolat valószínűsíthető.
GénszomszédságHa két gén az organizmusok nagy részében egymás mellett található a kromoszómán, akkor valószínűsíthetően funkcionális kapcsolat van közöttük.
Korrelált génexpresszióAz azonos mintázat szerint expresszálódó gének között funkcionális kapcsolat valószínűsíthető. (microarray technológiák)
Szerkezeti genomika
Szerkezeti genomika célja: a genomokból kiválasztani azokat acélfehérjéket, amelyeknek a térszerkezetét kísérletileg meghatározvaaz összes többi fehérje homológia-modellezési távolságon belül lesz(kb. 20% szekvencia azonosság), így minden fehérje szerkezetehomológia-modellezéssel megjósolható lesz.
A membránfehérjék, nehezen kristályosítható fehérjék problémátjelentenek.
A fehérjeszerkezetek sokfélesége:• A PDB-ben kb. 52 000 szerkezet van, de erősen redundáns, kb.3000 gombolyt képviselnek. Az újonnan meghatározott szerkezetektöbbsége is már ismert gombolyhoz tartozik.• Teljes genomokban lévő gének által kódolt fehérjéknek csak kb.15-25%-a mutat homológiát már ismert térszerkezetű fehérjével.