bioinformatika - ╞ hacked by tunisian attacker...

21
BIOINFORMATIKA

Upload: dinhkhuong

Post on 01-Dec-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

BIOINFORMATIKA

Mi a bioinformatika?

Bioinformatika: számítógépes módszerek kidolgozása és alkalmazása a biológiai információ kezelésére és elemzésére.

A bioinformatika céljai

• Adatbázisok létrehozása és karbantartása. Az adatok megszervezése, rendezése oly módon, hogy a kutatók könnyedén hozzáférhessenek a meglévő információhoz, és hozzátehessenek újat.

• Eszközök, módszerek kifejlesztése az adatok elemzésére. Az adatok haszontalanok, amíg nem elemeztük őket.

• Az eszközök és módszerek alkalmazása az adatok elemzésére, és az eredmények értelmezése a biológia szempontjából.

A biológiai információ típusai és elemzési módszerei

Az adatok forrása Az adathalmaz mérete Bioinformatikai témák

Nyers DNS szekvenciák 102 millió szekvencia102 milliárd nukleotid

•A kódoló és nem−kódoló régiókelkülönítése•Az intronok és exonok azonosítása•A géntermékek predikciója•Igazságügyi elemzések

Fehérjeszekvenciák

7 millió 342 ezer szekvencia

2 milliárd 392 millió aminosav

•Szekvenciaösszehasonlításialgoritmusok•Többszörös szekvenciaillesztõalgoritmusok•Konzerválódottszekvenciamotívumok azonosítása

Makromolekuláris szerkezetek 56 ezer szerkezet

•Másodlagos és harmadlagosszerkezet jóslása•3D szerkezeteket illesztõalgoritmusok•Fehérjegeometriai mérések•Felszín, térfogat és alak számítása•Intermolekuláris kölcsönhatások•Molekulaszimulációk(energiafüggvény, molekulárismozgások, dokkolás)

A biológiai információ típusai és elemzési módszerei 2.

Az adatok forrása Az adathalmaz mérete Bioinformatikai témák

Genomok

2100 vírus, 1100 baktérium, 1800 eukarióta

(teljes genom, organellum, kromoszóma)

•Az ismétlõdések jellemzése•Szerkezetek hozzárendelése génekhez•Filogenetikai analízis•Genomi méretű felmérések (fehérjetartalom jellemzése, anyagcsere−útvonalak)•Kapcsoltság elemzése egyes betegségek és gének összefüggésének vizsgálatához

Génexpressziós adatoklegnagyobb: kb. 20 időpont az élesztõkb. 6000 génjénél (2002)

•Az expressziós mintázatok korrelációjának vizsgálata•Az expressziós adatok összekapcsolása a szekvencia−, szerkezeti és biokémiai adatokkal

Egyéb: szakirodalom ~ 18 millió szakcikk•Elektronikus könyvtárak az automatizált irodalomkutatáshoz•Tudásadatbázisok irodalmi adatokból

Mintázatfelismerés és predikció

Két alapvető művelet a bioinformatikában

Mintázatfelismerés: a hasonlóságok megtalálása• A már ismert, hasonló funkciójú/szerkezetû fehérjéket megvizsgálva megkeresünk valamely, a funkcióra/szerkezetre jellemzõ, konzerválódott sajátosságot• Ezt használjuk fel új szekvenciák funkciójának/szerkezetének azonosítására• Feltétel: az új szekvencia olyan fehérjéhez tartozzon, amihez hasonlót már "láttunk"

Predikció:• A funkció vagy a térszerkezet megjóslása, hasonlóság alapján vagy másképpen• A bioinformatika "Szent Grálja": a szekvenciából megjósolni a térszerkezetet

Molekuláris biológiai szerverek és adatbázisok

ENTREZ: http://www.ncbi.nlm.nih.gov/entrez

GenBank: http://www.ncbi.nlm.nih.gov/Genbank

Genomes: http://www.ncbi.nlm.nih.gov/genomes

Protein Data Bank: http://www.rcsb.org/pdb/

EMBL: http://www.embl-heidelberg.de/

EXPASY: http://www.expasy.org/

Félévközi beadandó feladatFeladat Program

1. Adott fehérjeszekvencia kikeresése EXPASY UniProt

2. Fizikai-kémia alaptulajdonságok meghatározása (MW, pI, E280)

EXPASY ProtParam

3. Rokon fehérjeszekvenciák keresése EXPASY BLAST

4. Többszörös szekvencia-összerendezés, mintázatok azonosítása(a 30-90% homológiatartományban található 10 kiválasztott fehérjével szekvencia-összerendezés)

BLAST ClustalW

5. Másodlagos szerkezetjósláshttp://npsa-pbil.ibcp.fr

NPSA CONSENSUS MLRC, PHD, Predator

6. Térszerkezet megjelenítésefeltekeredési mintázattérkitöltéses modell

Entrez PDB JMolFirstGlance

Másodlagos adatbázisokSzekvencia-mintázat adatbázisok, az elsődleges (szekvencia) adatbázisokból származtatják őket.

PROSITE, eMOTIF: egy motívum

PRINTS, BLOCKS: több motívum

Mire jók?

Segítenek felismerni egy új fehérje funkcióját kis mértékű homológia esetén is.

(közös őstől származó, ortológ fehérjék)

Másodlagos szerkezetjóslásMódszer Elv Pontosság

(%)1. generációspl. Chou-Fasman, GOR I,

GOR II

Az egyes aminosavtípusok előfordulásának valószínűseége a különböző másodlagos szerkezeti elemekben.

55-57

2. generációsNagano, GOR III-IV, PF

Fizikai-kémiai tulajdonságok, aminosavpárok ill. tripletek statisztikai adatai

60-62

3. generációsNSSP, LPAG, PHD

Többszörös összerendeződések, neuronhálózat

68-72

Konszenzus Több más módszer alapján konszenzus

73-75

Fehérjék térszerkezetének jóslása

• Homológia-modellezés

• Gombolyfelismerés

• Ab initio szerkezetjóslás

Homológia-modellezésSzámottevő (>20%) szekvencia azonosságot mutató ismert szerkezetű fehérjék (referenciafehérjék) térszerkezete alapján.

Lépések:

- Térszerkezetek szuperpozíciója

- Szerkezetileg konzerválódott régiók (SCR) azonosítása

- Aminosavszekvenicák összerendezése

- Az SCR-ek alapján az új fehérje vázának felépítése

- A variábilis régiók modellezése

Térszerkezetek szuperpozíciója

Homológia-modellezés

Az új fehérje vázszerkezetének felépítése

Homológia-modellezés

Az SCR-eket bármelyik referencia fehérjéből átvehetjük.

A variábilis régiók modellezése

Homológia-modellezés

Durva modell

A templátfehérjék ill. hurok-adatbázisok alapján.(oldalláncok cseréje)

További finomítás: energiaminimalizáció

Gombolyfelismerés:

Ab initio modellezés:Kis fehérjék esetén bíztató próbálkozások, de általános esetben egyelőre nem ad kielégítő eredményt.

Távoli homológok (<25% szekvencia azonosság) gyakran azonos gombollyal rendelkeznek. A feladat ennek felismerése.

• „Gombolykönyvtár” az ismert térszerkezetek alapján• A szekvenciánkat egyenként az összes gombollyal összehasonlítjuk, hogy megtaláljuk, van-e köztük olyan, amit a szekvenciánk felvehet.

DokkolásKismolekula (ligandum, szubsztrát, koenzim, stb.) kötődési

helyének megtalálása egy fehérje (receptor) felszínén

Két fehérje egymáshoz való kötődési helyének megtalálása

Módszer: az egyik molekula mozgatása és forgatása a másik felszínén, eközben az illeszkedés értékelése.

Eredményesség:• Kismolekula fehérjére dokkolásakor jó eredmények érhetőek el, de bonyolultabb esetekben (pl. nagy fehérje, nagy és flexibilis szubsztrát) csak kísérleti adatok ismeretében érhető el megfelelő eredmény• Fehérje-fehérje dokkolás: gyenge eredmények

GenomikaGenom: egy élőlény v. sejt teljes gén−, ill. DNS-állománya.

Genomika: a genom megismerése, ill. tanulmányozása, azaz a teljes genetikai információ felhasználása, szemben az egyes, kiválasztott gének vagy géncsoportok tanulmányozásávalFunkcionális genomika: a génekhez a funkció hozzárendelése genomikai módszerekkel (számítógépes és kísérleti)Szerkezeti genomika: a genomban kódolt fehérjék térszerkezetének kiderítése (számítógépes és kísérleti módszerekkel), és ezek felhasználása (pl. a funkcionális genomikában)

Funcionális genomikaGénfunkció:

Módszerek a funkcionális genomikábanFilogenetikai profilokAz azonos, v. nagyon hasonló filogenetikai profillal rendelkező gének között funkcionális kapcsolat valószínűsíthető

Rosetta-kő módszerHa két fehérje megtalálható fúziós fehérjeként is, akkor közöttük funkcionális kapcsolat valószínűsíthető.

GénszomszédságHa két gén az organizmusok nagy részében egymás mellett található a kromoszómán, akkor valószínűsíthetően funkcionális kapcsolat van közöttük.

Korrelált génexpresszióAz azonos mintázat szerint expresszálódó gének között funkcionális kapcsolat valószínűsíthető. (microarray technológiák)

Szerkezeti genomika

Szerkezeti genomika célja: a genomokból kiválasztani azokat acélfehérjéket, amelyeknek a térszerkezetét kísérletileg meghatározvaaz összes többi fehérje homológia-modellezési távolságon belül lesz(kb. 20% szekvencia azonosság), így minden fehérje szerkezetehomológia-modellezéssel megjósolható lesz.

A membránfehérjék, nehezen kristályosítható fehérjék problémátjelentenek.

A fehérjeszerkezetek sokfélesége:• A PDB-ben kb. 52 000 szerkezet van, de erősen redundáns, kb.3000 gombolyt képviselnek. Az újonnan meghatározott szerkezetektöbbsége is már ismert gombolyhoz tartozik.• Teljes genomokban lévő gének által kódolt fehérjéknek csak kb.15-25%-a mutat homológiát már ismert térszerkezetű fehérjével.