bioinformatika 2 −3. előadás3 2019.09.30. bioinformatika 2 többszörös...
Post on 08-Feb-2021
1 Views
Preview:
TRANSCRIPT
-
2019.09.30. Bioinformatika 2
Bioinformatika 2 − 3. előadás
Prof. Poppe László
BME Szerves Kémia és Technológia Tsz.
Bioinformatika – proteomika
Előadás és gyakorlat
-
2 Bioinformatika 22019.09.30.
Többszörös szekvencia összerendezés
A többszörös szekvencia összerendezés [multiple sequence alignment (MSA)]
három vagy több biológiai szekvencia (általában fehérje, DNS vagy RNS)
szekvenciájának összerendelése. A páronkénti összerendezéshez képest nő a jel/zaj
viszony.
A vizsgált szekvenciák között általában evolúciós kapcsolat van, így a közös ős-
szekvenciától való genetikai távolság is elemezhető. A szekvenciák közötti homológia
viszonyok tanulmányozhatóak és filogenetikai analízis segítségével vizsgálható a közös
evolúciós eredet.
A többszörös szekvencia összerendezés eredményének vizuális megjelenítése jól
elemezhetővő tesz mutációs eseményeket (pontmutáció az egyetlen nukleotid /
aminosav csere eltérő karakterként jelenik meg; beékelődéses / kitörléses mutációk
ezek egy vagy több szekvencia esetében kötőjelekként jelennek meg).
Többszörös szekvencia összerendezés segítségével meghatározhatóak konzervált
nukleotidok / aminosavak, konzervált szekvencia elemek, fehérje domének vagy
szekunder / tercier szerkezeti elemek.
-
3 Bioinformatika 22019.09.30.
Többszörös szekvencia összerendezésVizuális megjelenítés (pl. Clustal W)
Kétdimenziós táblázat. Sorok: a szekvenciák; Oszlopok: a pozíciók
Clustal: http://www.clustal.org/
-
4 Bioinformatika 22019.09.30.
Abszolút pozíció: Egy adott aminosav/nukleotid sorszáma az egy adott szekvencián belül.
Az adott szekvencia jellemzőjeként ez mindig változatlan.
Relatív pozíció: Annak az oszlopnak a sorszáma, amelyben az adott aminosav/nukleotid
az összerendezésen belül szerepel. Az összerendezés változtatásával változik.
Konszenzus-szekvencia: Az összerendezés összegzéseként nyerhető pszeudoszekvencia,
amely egy sorban (általában az összerendezés felett), szimbólumok segítségével összegzi
az egyes pozíciók változását/változatlanságát. A pszeudoszekvencia matematikai
objektumokból (pl. helyettesítési mátrixok) is állhat.
Többszörös szekvencia összerendezésAlapfogalmak
-
5 Bioinformatika 22019.09.30.
A többszörös szekvencia összerendezés ugyancsak jelenti a három vagy több biológiai
szekvencia összerendelésének eljárását / algoritmusát is.
A páronkénti összerendezéshez képest a három vagy több biológiai jelentőséggel bíró
hosszúságú szekvencia összerendelése kézi módszerekkel igen nehéz és időigényes,
számítógépes algoritmusok szükségesek az összerendezéshez és az eredmény analíziséhez.
A többszörös szekvencia összerendezés bonyolultabb eljárásokat igényel, mint a páronkénti
összerendezés.
A páronkénti összerendezés algoritmusainak (Needleman−Wunsch, Smith−Waterman, stb.)
egyszerű kiterjesztése többdimenziós mátrixokat igényel, a számításigény a szekvenciák
számával exponenciálisan nő.
A legtöbb többszörös szekvencia összerendezési algoritmus inkább heurisztikus eljárásokat
mintsem globális optimalizálást alkalmaz, mivel már közepes hosszúságú szekvenciák
esetén is a néhányat meghaladó számú szekvencia összerendelése igen számításigényes.
Többszörös szekvencia összerendezésAlgoritmusok
-
6 Bioinformatika 22019.09.30.
Többszörös szekvencia összerendezésManuális szerkesztőprogramok
BioEdit (http://www.mbio.ncsu.edu/BioEdit/bioedit.html)
Jalview (http://www.jalview.org/)
SeaView (http://doua.prabi.fr/software/seaview ):
A kézi szerkesztőprogramok pl. színezéssel segítik a motívumok felismerését. A kézi igazításra az automatikus
összerendezés finomításakor is szükség lehet. Néhány program:
http://www.mbio.ncsu.edu/BioEdit/bioedit.htmlhttp://www.jalview.org/http://doua.prabi.fr/software/seaview
-
7 Bioinformatika 22019.09.30.
A progresszív (hierarchikus ill. fa-) módszerek olyan heurisztikus eljárások, amelyek
elfogadható időtartam alatt szolgáltatnak megfelelően jó (még ha nem is optimális)
összerendezést.
A szekvenciák összerendezése több szempont szerint történhet:
Adott szekvencia összerendezése az összes szekvenciával
Szekvenciák összerendezése valamilyen szempont szerinti sorrendben
Szekvenciák összerendezése egy filogenetikai törzsfa elágazásainak sorrendje szerint
A progresszív módszerek a többszörös szekvencia összerendezést a páronkénti
összerendezések kombinációiként hozzák létre úgy, hogy a leginkább hasonló pártól haladnak
a legtávolabbi kapcsolatban levő pár felé.
Progresszív mószereken alapuló programok: Clustal, MultAlin
Többszörös szekvencia összerendezésProgresszív módszerek
-
8 Bioinformatika 22019.09.30.
Program: Clustal W2 vagy Clustal Ω; Grafikus felület: Clustal X (http://www.clustal.org/)
(Új command line-ból és Webszerverről futtatható új változat: Clustal Omega.
(http://www.ebi.ac.uk/Tools/msa/clustalo/)
A szekvenciákon páronkénti összerendezést végez az összes lehetséges módon
A páronkénti összerendezésekből a szekvenciapárok közötti távolságokat számít
A távolságok alapján filogenetikai törzsfát készít, ez a vezérfa.
A többszörös összerendezést a vezérfa elágazásainak sorrendje szerint végzi: a legközelebbi szekvenciák
összerendezése után ehhez rendezi az egyre távolabbiakat. A megközelítés problémája: a kezdeti,
páronkénti, tökéletlen összerendezésekből származtatja a vezérfát. A valódi fát a végső összerendezésből
lehetne megkapni.
Az újabb verziók finomításai:
Az összerendezés pontszámának kiszámításakor a közeli szekvenciákat kisebb súllyal veszik figyelembe
azért, hogy a közel azonos szekvenciák ne nyomják el a távolabbiakat
Az aminosav helyettesítési mátrixok változtatása az aktuális összerendezett szekvenciák távolsága szerint
Oldallánc- és pozíció specifikus gap penalty−k
Többszörös szekvencia összerendezésProgresszív módszerek - Clustal
J.D. Thompson, D.G. Higgins, T.J. Gibson,
Nucl. Acids Res., 1994, 22, 4673-4680.
http://www.clustal.org/http://www.ebi.ac.uk/Tools/msa/clustalo/
-
9 Bioinformatika 22019.09.30.
Chenna, R. et al. Nucl. Acids Res. 2003, 31, 3497-3500.
Többszörös szekvencia összerendezésProgresszív módszerek – Clustal W
Négy oxidoreduktáz NAD kötő domén protein szekvenciáinak összerendezése.
-
10 Bioinformatika 22019.09.30.
Többszörös szekvencia összerendezésProgresszív módszerek - MultAlin
F. Corpet, Nucl. Acids Res., 1988, 16(22), 10881-10890
A MultAlin rekurzív eljárás, amely az előállított többszörös összerendezésből
újraszámolja a vezérfát, ennek alapján újabb összerendezést készít, ezt addig ismétli,
míg már nem javul tovább a pontszám.
Hátrány: kezdeti hibák a rekurzió során
továbbadódnak
Online elérés:
http://bioinfo.genotoul.fr/multalin/
http://bioinfo.genotoul.fr/multalin/
-
11 Bioinformatika 22019.09.30.
Többszörös szekvencia összerendezésProgresszív módszerek - MultAlin
F. Corpet, Nucl. Acids Res., 1988, 16(22), 10881-10890
http://multalin.toulouse.inra.fr/multalin/
Multalin version 5.4.1
Copyright I.N.R.A. France 1989, 1991, 1994, 1996
Published research using this software should cite
Multiple sequence alignment with hierarchical clustering
F. CORPET, 1988, Nucl. Acids Res., 16 (22), 10881-10890
Symbol comparison table: blosum62
Gap weight: 12
Gap length weight: 2
Consensus levels: high=90% low=50%
Consensus symbols:
! is anyone of IV
$ is anyone of LM
% is anyone of FY
# is anyone of NDQEBZ
MSF: 134 Check: 0 ..
Name: CCPC50 Len: 134 Check: 7173 Weight: 0.71
Name: CCRF2C Len: 134 Check: 1222 Weight: 0.71
Name: CCRF2S Len: 134 Check: 8544 Weight: 1.35
Name: CCQF2R Len: 134 Check: 8341 Weight: 1.12
Name: CCQF2P Len: 134 Check: 1096 Weight: 1.12
Name: Consensus Len: 134 Check: 4972 Weight: 0.00
Öt citokróm C2 protein szekvenciáinak összerendezése.
-
12 Bioinformatika 22019.09.30.
Többszörös szekvencia összerendezés
Az egyes módszerek eredményei eltérhetnek.
Van-e a preferált módszer?
Ez nem egyértelmű, az egyes módszerek megbízhatósága változó. Fontos esetekben a
követendő eljárás az, ha több módszert eredményeit összevetjük, majd ennek
konszenzusát állítjuk elő, adott esetben kézi szerkesztési módszereket is felhasználva.
-
13 Bioinformatika 22019.09.30.
Többszörös összerendezés adatbázisok
Xfam - Pfam (http://xfam.org/)
Pl.: a hisztidin / fenilalanin ammónia liáz család összerendelése, Pfam (PF00221):
Automatikusan származtatott protein domén / protein család összerendezéseket tartalmaz.
Sok, erősen divergens szekvenciákat tartalmazó családok esetében széteső az összerendelés.
-
14 Bioinformatika 22019.09.30.
Többszörös összerendezés adatbázisok InterPro (http://www.ebi.ac.uk/interpro/)
Pl.: a hisztidin / fenilalanin ammónia liáz család az InterPro adatbázisban:
-
15 Bioinformatika 22019.09.30.
Filogenetikus analízis
Filogenetikus analízis eszközök:
http://evolution.genetics.washington.edu/phylip.html)
A filogenetikai analízis az evolúciós események, evolúciós történet
elemzésének eszköze. Eredménye általában egy filogenetikai fa (törzsfa).
Gyökeres fa:
A gyökeres filogenetikus fa olyan rendezett
fa, amely egyedülálló csomóponttal
rendelkezik, amely a fa levelein található
összes entitás közös ősének felel meg.
http://evolution.genetics.washington.edu/phylip.html
-
16 Bioinformatika 22019.09.30.
Filogenetikus analízis
Gyökértelen fa:
A gyökér nélküli filogenetikus fa a levelek közti
kapcsolatot anélkül mutatja be, hogy feltételeznék a
közös származást. Míg a gyökértelen fák minden
esetben származtathatóak gyökeres fából a gyökér
elhagyásával, a gyökér nem vezethető le egy
gyökértelen fárból, anélkül, hogy a származást
azonosították volna
-
17 Bioinformatika 22019.09.30.
A filogenetikus analízist főként DNS szekvenciák alapján végzik, a protein szekvenciák
elemzésén alapuló eljárás ritka, nem is eléggé kidolgozott.
A filogenetikai törzsfákat generáló eljárások egyféle evolúciós modell érvényességét
feltételezik. Az a feltételezés azonban, hogy az evolúció törzsfával ábrázolható nem
mindenkor igaz: a hibrid fajok, ill. az egyes szervezetek közt lezajló laterális géntranszfer
esetén ez nem áll fenn.
További problámakat eredményező feltételezés az, hogy a szekvenciák mind homológok.
A filogenetikai analízis eredményét a fentiek értelmében mindig fenntartásokkal kell kezelni.
Mivel a múltbeli eseményekre csak következtetni tudunk, de pontos ismereteink nincsenek egy
filogenetikai analízis program esetenként nem a valóságnak megfelelő eredményeket
eredményezhet.
Filogenetikus analízis
-
18 Bioinformatika 22019.09.30.
1. Összerendezés
2. A helyettesítési (tk. evolúciós) modell meghatározása
3. Faépítés
4. A fa kiértékelése
A filogenetikai analízis lépései
-
19 Bioinformatika 22019.09.30.
Filogenetikus analízis – Összerendelés (HAL)
Az ismertetett módszerek (Clustal, MultAlin, stb.) elvégzik több szekvencia összerendelését:
-
20 Bioinformatika 22019.09.30.
Filogenetikus analízis – Összerendelés (HAL)
Az ismertetett módszerek (Clustal, MultAlin, stb.) kezdetleges filogenetikai analízist végeznek
a vezérfa felépítésekor, de ezek nem megbízhatóak
-
21 Bioinformatika 22019.09.30.
Filogenetikus analízis – Összerendelés
Clustal vezérfa az 5.8S rDNS szekvenciák alapján.
Míg a vörösmoszatok (red alga) és a tűlevelűek
(conifers) több törzsben szétszórva szerepelnek, a
páfrányok (ferns) és mohák (moss) viszont
összekerültek.
Az ismertetett módszerek (Clustal, MultAlin, stb.)
kezdetleges filogenetikai analízist végeznek a
vezérfa felépítésekor, de ezek nem megbízhatóak
-
22 Bioinformatika 22019.09.30.
A vezérfát és a biológiai háttértudást felhasználva az összerendezést alkalmassá kell
tenni az alaposabb filogenetikai analízisre
−−> "összerendezés−sebészet".
Ennek kivitelezése részletes biológiai / taxonómiai ismereteket és gondos elemző
munkát kíván
Filogenetikus analízis – Összerendelés
-
23 Bioinformatika 22019.09.30.
A helyettesítési (evolúciós) modell meghatározása
Három eleme (paramétere) van:
Bázisgyakoriságok
A bázisok egymás közti cseréjének gyakorisága
A szekvencián belüli pozíciók mutációgyakoriságának heterogenitása
Ezek meghatározásának két módja:
Empirikus módszer: korábbi elemzésekből meghatározott értékeket használunk fel, mint fix
értékeket.
Előny: könnyű számíthatóság. Hátrány: az adott adathalmazra nem biztos, hogy jók a
paraméterek.
Paraméteres módszer: magából a vizsgált adathalmazból vezetjük le a paramétereket.
Előny: pontosabb lehet. Hátrány: félrevezethet, ha az adatkészlet nem megfelelő.
-
24 Bioinformatika 22019.09.30.
A bázisok egymás közti cseréjének gyakorisága
Lehet előre rögzített mátrix pl.:
A C G T
A − 2 1 2
C 2 − 2 1
G 1 2 − 2
T 2 1 2 −
A pontszámok a csere költségét mutatják. Purinbázis pirimidinbázisra való cseréje (transzverzió)
ritkább, ezért költségesebb, mint a purin−purin és a pirimidin−pirimidin csere (tranzíció).
Dolgozhatunk az összerendezésből számított helyettesítési mátrixokkal is:
Időreverzibilis mátrixok: az oda− és visszacsere pontszáma azonos, akkor teljesül, ha nincs
meghatározott időbeli eltolódás a bázisfrekvenciákban (stacioner modell).
Létezik korrekciós módszer nem stacioner esetre.
A helyettesítési (evolúciós) modell meghatározása
-
25 Bioinformatika 22019.09.30.
A szekvencia mutációgyakoriságok heterogenitásaA szekvencián belül a mutációk gyakorisága erősen változó. Pl. fehérjét kódoló
szakasznál a kodonok harmadik bázisai sokkal variábilisabbak, mint az első kettő. A
fehérjék konzerválódott régióit kódoló részek is kevésbé variábilisek. Modellek a
mutációgyakoriság heterogenitásának leírására:
1. Nemparaméteres módszer: az egyes pozíciókat (pl. szekvenciaszakaszokat) kategóriákba
sorolja a megfigyelt mutációs gyakoriság alapján
2. Invariánsok módszere: A pozíciók egy bizonyos hányadát invariánsnak tekinti, a többit
azonos valószínûséggel változónak
3. Gamma eloszlás módszere (legkorszerűbb): feltételezi, hogy a mutációs gyakoriságok
eloszlása a gamma valószínûségeloszlás szerinti, ennek az alakját egy paraméter jellemzi,
melyet meg kell becsülni. Lehet folytonos vagy diszkrét.
A helyettesítési (evolúciós) modell meghatározása
valószínűségeloszlás
sűrűségfüggvénye,
valószínűségeloszlás
eloszlásfüggvénye,
-
26 Bioinformatika 22019.09.30.
A helyettesítési (evolúciós) modell meghatározása
Melyik helyettesítési modellt válasszuk? A kevés paraméterrel dolgozó modellek jobban
alkalmazhatóbbak, megbízhatóbbak, a túlságosan leegyszerűsített modellek viszont hibás
eredményt adhatnak.
Fontos a tranzíció és a transzverzió megkülönböztetése és a mutációgyakoriság
heterogenitásának figyelembe vétele. Gondosan kell kiválasztani az adott adatokhoz legjobban
illeszkedő evolúciós modellt.
-
27 Bioinformatika 22019.09.30.
Faépítés
Kétféle faépítő módszer különböztethető meg:
1.
Algoritmus alapú: egy algoritmus levezet egy bizonyos fát
Kritérium alapú: az összes lehetséges fát generálja, ezeket értékeli valamilyen optimalizációs
kritérium alapján.
2.
Távolság alapú: Páronkénti távolságokat számít a szekvenciák között, majd ezekkel a
távolságokkal dolgozik tovább, fákat levezetve belőlük. A távolságszámításnál mindig
információvesztés van.
Karakter alapú: (Karakter = pozíció az összerendezésben.) Olyan fákat származtat le, amelyek
mindegyik pozícióra optimalizálják az adatmintázatok eloszlását.
-
28 Bioinformatika 22019.09.30.
A szekvenciák közötti távolság egy határértéket ér el, ahogy a távolság nő. Ha egy pozícióban
már történt mutáció, a további mutációk már nem teszik távolibbá. A távolság alapú módszerek
korrigálnak erre az effektusra.
Neighbour Joining (NJ): Egy csillag alakú fából kiindulva a legközelebbi szomszédokat
összekapcsolja, helyettesíti őket az átlagukkal, majd ezt ismételgeti a teljes fa kialakulásáig.
Minimum Evolution (ME): A legrövidebb olyan fát találja meg, amely összeegyeztethető a
szekvenciák közötti távolságokkal. (A faágak hossza evolúciós távolságnak felel meg, így két
szekvencia távolsága a fa szerint számítható a megfelelő ágak hosszának összeadásával.)
Hasonló elven működik a Fitch−Margoliash (FM) módszer.
FaépítésTávolság alapú módszerek
-
29 Bioinformatika 22019.09.30.
Maximum Parsimony (MP): "legnagyobb takarékosság" módszere: Olyan fát épít, ami a lehető
legkevesebb mutációs eseménnyel magyarázza meg a meglévő szekvenciák létrejöttét.
Számos azonos pontszámú fát szolgáltat, ezek közös részét vehetjük mint megbízhatót. Nagy
távolságú szekvenciák esetében hátránya, hogy azonos bázis esetén azt tételezi fel, hogy nem
történt mutáció, holott valószínûbb a visszacserélődés.
·
Maximum Likelihood (ML): "legnagyobb valószínûség" módszere: Komplikált módszer.
Minden pozícióra kiszámítja, hogy adott fa és helyettesítési modell mellett mi a valószínűsége
annak, hogy a megfigyelt variációs mintázat jöjjön létre az adott pozícióban. Az egyes
pozíciókra kapott valószínűségek összeszorzásával adódik a teljes fa valószínűsége. Ezt sok
fára a legjobbat kiválasztja. Ezt többféle helyettesítési modell mellett is elvégezhetjük, ezek
közül is kiválasztva a legjobbat. Igen számításigényes, de ez a legmegbízhatóbb.
A fák kiértékelése (kétféle módszer):
Randomizált adatokra kapott eredményekkel való összehasonlítás.
A kapott fa alátámasztottságának tesztelése ún. "resampling" statisztikai módszerekkel
(bootstrapping, jackknife). Lényegük: a meglévõ adatokból véletlenszerûen mintákat veszünk,
ezekre végezzük el a számítást, majd statisztikát készítünk. (Nem részletezzük.)
FaépítésKarakter alapú módszerek
-
30 Bioinformatika 22019.09.30.
A helyettesítési (evolúciós) modell meghatározásaAz emberszabású majmok leszármazási viszonyai
-
31 Bioinformatika 22019.09.30.
ICF
vektorokMP
ML
Bayes
analízis
NJ
Jaccard
ICF
Manhattan
távolság
mátrix
NJ
szubsztitúciós
modell
távolság
mátrix
Hagyományos módszerek Diszkrét matematikai
módszer
22 mitokondriális tRNS gén
Öt módszer
Számos fa
Konszenzus törzsfák
A helyettesítési (evolúciós) modell meghatározásaAz emberszabású majmok leszármazási viszonyai
-
32 Bioinformatika 22019.09.30.
és
Bayes
A helyettesítési (evolúciós) modell meghatározásaAz emberszabású majmok leszármazási viszonyai
-
33 Bioinformatika 22019.09.30.
Filogenetikus analízis online
top related