cserző miklós 2018 - semmelweis...

Post on 04-Jun-2020

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban

Integrált biológiai adatbázisok

Cserző Miklós

2018

Semmelweis Egyetem / Élettani Intézet / Budapest

A mai előadás

➢ A genom annotálás jelentősége

➢ Genome Reference Consortium

➢ Gene Ontology

➢ Az „ensembl” pipeline

➢ Lekérdezés a web-felületen keresztül

➢ Az osztott annotációs rendszer (DAS)

➢ A BioMart felület használata

➢ Adatelérés FTP-portálon

Bioinformatika és genomanalízis az orvostudományban - 6 2

Semmelweis Egyetem / Élettani Intézet / Budapest

Miért annotálunk genomot?

➢ A szekvenálás gyors és olcsó

➢ Az adatok kisérletes igazolása viszont drága

➢ Az élőlények származástani rokonságban állnak egymással

➢ Az egyik élő rendszerben megszerzett kisérletes adatot fel lehet használni egy rokon esetében is

➢ Ezzel időt, pénzt, fáradtságot lehet megtakarítani

Bioinformatika és genomanalízis az orvostudományban - 6 3

Semmelweis Egyetem / Élettani Intézet / Budapest

Genom Reference Consortium

➢ A nagy genom szekvenálások nemzetközi összefogással mennek

➢ Nemcsak egyetlen egyed genomja érdekes

➢ Kell egy referencia az egyes fajokra

➢ A fajon belüli eltéréseket ehhez viszonyítjuk

➢ Honlap: http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/index.shtml

Bioinformatika és genomanalízis az orvostudományban - 6 4

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 5

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 6

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 7

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 8

Semmelweis Egyetem / Élettani Intézet / Budapest

Mivel annotáljunk?

➢ Gene Ontology Consortium

➢ Zárt annotációs szótár – egy bizottság dönt, mi kerülhet bele

➢ Cél: a gének pontos és teljes leírása

➢ Követelmény: a leírás legyen koherens, általános és gépi feldolgozásra alkalmas

Bioinformatika és genomanalízis az orvostudományban - 6 9

Semmelweis Egyetem / Élettani Intézet / Budapest

A megvalósítás

➢ Besorolás három szempont szerint:

➢ Folyamat (biological_process)

➢ Sejtalkotó (cellular_component)

➢ Működés (molecular_function)

➢ Három viszony:

➢ „is_a”

➢ „part_of”

➢ „regulates”

Bioinformatika és genomanalízis az orvostudományban - 6 10

Semmelweis Egyetem / Élettani Intézet / Budapest

A módszer

➢ 12 modell-lény – és egy népes szakértői csapat

➢ Elsődleges forrás: közvetlen kisérletes adatok

➢ Másodlagos forrás: homológ fehérjék annotációja

➢ Azt is jelzik, ha nincs adat

➢ Honlap: http://www.geneontology.org/

Bioinformatika és genomanalízis az orvostudományban - 6 11

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 12

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 13

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 14

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 15

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 16

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 17

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 18

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 19

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 20

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 21

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 22

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 23

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 24

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 25

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 26

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 27

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 28

Semmelweis Egyetem / Élettani Intézet / Budapest

Az ENSEMBL analízis pipeline

➢ Az automatikus genomi annotáció a cél

➢ A kézi annotáció lassú és szubjektív

➢ A gépi gyors és konzisztens

➢ A legtöbb felhasználandó eszköz már kész

➢ Bemenő adatokbázisok: ENA, cDNS, UniProt, EST

➢ A pipe-line megfelelő sorrendben meghívja a programokat és az eredményt adatbázisba rendezi

Bioinformatika és genomanalízis az orvostudományban - 6 32

Semmelweis Egyetem / Élettani Intézet / Budapest

A megvalósítás

➢ A pipeline moduláris szerkezetű – Runnable és RunnableDB

➢ Ezek egy bizonyos feladatot végeznek

➢ Hierarchikus – RuleManager

➢ Ez osztja ki a feladatokat és ellenőrzi az eredményt

➢ A számítások „computer farm”-on mennek

➢ ~1000 node, közös adatbázist ér el

Bioinformatika és genomanalízis az orvostudományban - 6 33

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 34

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 35

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 36

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 37

Semmelweis Egyetem / Élettani Intézet / Budapest

„Automatic Gene Annotation Sytem”

➢ Része az ENSEMBL pipeline-nak

➢ Célja:

➢ Fehérje kódoló és RNS gének azonosítása

➢ Exon-intron szerkezetük feltérképezése

➢ Annotálása fehérje, cDNS és EST adatbázisok alapján

➢ A rendszer szabadon elérhető és használható

Bioinformatika és genomanalízis az orvostudományban - 6 38

Semmelweis Egyetem / Élettani Intézet / Budapest

Az eljárás ‘raw compute’

➢ Lépések:

➢ RepeatMasker – nagy számban előforduló szakaszok azonosítása

➢ Genescan – fehérje kódoló gének keresése

➢ tRNSscan – RNS gének keresése

➢ eponine – transcripciós start-helyek keresése

➢ BLAST – fehérjék keresése homológia alapján

➢ A feldolgozás clone és contig szinten folyik

➢ Először gyors keresés – aztán pontosítás

Bioinformatika és genomanalízis az orvostudományban - 6 39

Semmelweis Egyetem / Élettani Intézet / Budapest

Kombinált módszerek

➢ Az Ab initio génpredikció hasznos, de nem megbízható

➢ Genescan túl sok gént talál, viszont rövid exonokat hajlamos elveszíteni

➢ BLAST kereséssel meg kell támogatni az eredményt

➢ A BLAST viszont nem alkalmas exon-intron szerkezet megadására

Bioinformatika és genomanalízis az orvostudományban - 6 40

Semmelweis Egyetem / Élettani Intézet / Budapest

Transzkript modellek

➢ Az adatbázis kiválasztása kulcsfontosságú

➢ A saját faj adatbázisa az elsődleges

➢ Más fajok adatbázisát is felhasználják a saját adat hiányában, de csak másodlagosan

➢ Ez áll a fehérje és cDNS adatokra is

➢ Így transzkript modelleket jósolunk először

➢ A két modell biztosan nem esik egybe a nem-transzlált régiók miatt (UTR)

Bioinformatika és genomanalízis az orvostudományban - 6 41

Semmelweis Egyetem / Élettani Intézet / Budapest

Pmatch

➢ Gyorsan talál meg 100%-os egyezéseket

➢ A fehérje darabjainak egy szálon kell lenni

➢ A daraboknak jó sorrendben kell lenni

➢ A fehérje 25%-t legalább meg kell találni

➢ Egy fehérjéből a legjobb találatot megtartjuk

➢ Meg a továbbiakat is, ha csak 2% a különbség

Bioinformatika és genomanalízis az orvostudományban - 6 42

Semmelweis Egyetem / Élettani Intézet / Budapest

genewise

➢ A pmatch jelentősen lecsökkenti a vizsgálandó szegmensek hosszát

➢ Utána genewise – fehérje szintű illesztés splice-helyekkel és frame eltolással

➢ Viszont elég lassú

➢ miniseq: a megtalált nyers exonokat megtoldjuk 200 bázissal mindkét irányba

➢ Ez kezelhető méretűvé csökkenti a szekvenci hosszát

Bioinformatika és genomanalízis az orvostudományban - 6 43

Semmelweis Egyetem / Élettani Intézet / Budapest

További finomítás

➢ Az eljárást megismételjük más fajokból származó fehérjékkel

➢ Csak az új találatokkal foglalkozunk

➢ A cDNS adatbázis saját fajhoz tartozó részét illesztjük a genomra (exonerate)

➢ A találatokat rangsoroljuk és kiválogatjuk

➢ A génszerkezetet kiegészítjük az UTR szakaszokkal

Bioinformatika és genomanalízis az orvostudományban - 6 44

Semmelweis Egyetem / Élettani Intézet / Budapest

Végső modell (GeneBuilder)

1. Az egymással átfedő helyzetben lévő génmodelleket közös klaszterbe soroljuk

2. A közös exonnal rendelkező modelleket közös gén-klaszterekbe soroljuk

3. A nagyon nagy klasztereket megszűrjük és csak a legjobb 10-et tartjuk meg (ritka eset)

4. Ismét klaszterezzük a géneket, ha az előző lépés új klasztereket hozott volna létre

Bioinformatika és genomanalízis az orvostudományban - 6 45

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 46

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 47

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 48

Semmelweis Egyetem / Élettani Intézet / Budapest

Az ENSEMBL felület

➢ Honlap: http://www.ensembl.org/index.html

➢ Közel 200 élőlény – többségében gerinces

➢ Ingyenesen elérhető, folyamatosan fejlesztik

➢ Közös Európai fenntartású kezdeményezés

➢ Több módon is elérhetők az adatok:

➢ Web, BioMart, FTP

➢ Adatok feltöltése is lehetséges

Bioinformatika és genomanalízis az orvostudományban - 6 49

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 50

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 51

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 52

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 53

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 54

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 55

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 56

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 57

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 58

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 59

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 60

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 61

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 62

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 63

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 64

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 65

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 66

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 67

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 68

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 69

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 70

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 71

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 72

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 73

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 74

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 75

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 76

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 77

Semmelweis Egyetem / Élettani Intézet / Budapest

Az osztott annotációs rendszer (DAS)

➢ Célja:

➢ Saját adatok feltüntetése az ENSEMBL felületen

➢ Adatok megosztása együttműködők közt

➢ Feltöltéshez használható egy külön fül a felületen

➢ A formátum kötött, alapvetően szöveges (ld. „Help”)

➢ ENSEMBL regisztráció és belépés segít

Bioinformatika és genomanalízis az orvostudományban - 6 78

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 79

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 80

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 81

Semmelweis Egyetem / Élettani Intézet / Budapest

Kapcsolódó eszközök

➢ BLAST/BLAT

➢ BioMart

➢ Adatletöltési lehetőségek

Bioinformatika és genomanalízis az orvostudományban - 6 82

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 83

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 84

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 85

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 86

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 87

Semmelweis Egyetem / Élettani Intézet / Budapest

Tömeges lekérdezés

➢ BioMart rendszer

➢ Web-felületen át elérhető

➢ Az adattartalom azonos az interaktív felületem megjelenítettel

➢ Szöveges eredményt ad

➢ Nagy adattömeget fogunk kapni eredményül

Bioinformatika és genomanalízis az orvostudományban - 6 88

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 89

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 90

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 91

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 92

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 93

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 94

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 95

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 96

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 97

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 98

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 99

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 100

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 101

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 102

Semmelweis Egyetem / Élettani Intézet / Budapest

A teljes adatbázis letöltése

➢ FTP (File Transfer Protocol)

➢ Az összes faj összes adata ami az ENSEMBL-ben van

➢ Szekvencia adatok➢ Teljes változatban

➢ Részben feldolgozva

➢ Annotációs adatok

Bioinformatika és genomanalízis az orvostudományban - 6 103

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 104

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 105

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 106

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 107

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 108

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 109

Semmelweis Egyetem / Élettani Intézet / Budapest

Bioinformatika és genomanalízis az orvostudományban - 6 110

Semmelweis Egyetem / Élettani Intézet / Budapest

Mit tanultunk ma?

➢ Az integrált adatbázisok nagyon hatékonyeszközök

➢ Rugalmasak és könnyen használhatók

➢ Az adatbázisok egymástól függenek – ezveszélyes lehet

➢ A tökéletes adatbázis a bioinformatika végsőcélja

Bioinformatika és genomanalízis az orvostudományban - 6 111

Semmelweis Egyetem / Élettani Intézet / Budapest

Feladat 6.

➢ Keresd meg a neked legérdekesebb fehérjétvagy gént valamelyik ENSEMBL genombanés próbálj megtudni minnél többet róla.

Bioinformatika és genomanalízis az orvostudományban - 6 112

top related