Download - Allineamento multiplo. Allineamenti multipli Finora ci siamo occupati di allineamenti a coppie (pairwise), ma il modo migliore per conoscere le caratteristiche

Allineamento multiplo

Allineamenti multipli

Finora ci siamo occupati di allineamenti a coppie (pairwise), ma il modo migliore per conoscere le caratteristiche di una determinata famiglia è allineare molte proteine a funzione analoga.

I siti funzionalmente o strutturalmente più rilevanti tendono a mantenersi invariati nelle proteine omologhe, mentre i siti meno importanti possono cambiare anche

molto.

Osservare e studiare le conservazioni significa capire come le famiglie di proteine funzionano, cosa la rende diverse tra loro, se esistono o meno relazioni filogenetiche inter e intrafamiglia.

In questo modo è possibile individuare la funzione di una proteina ignota solo osservando la sequenza dei suoi residui.

Applicazioni dell’allineamento multiplo

‘Assemblaggio’ dei genomi

Primers per PCR

Consensi, motiviProfili, modelli markoviani

Definizione di famiglie

Filogenesi

Inferenze strutturali

Inferenze funzionali

Similitudine e omologia

Omologia: carattere QUALITATIVO che posseggono quelle sequenze che derivano da un antenato comune in seguito al processo evolutivo. O due geni sono omologhi o non lo sono. Non esiste una percentuale di omologia.

Similitudine: carattere QUANTITATIVO che origina da un allineamento. Il grado di identità che si determina tra i residui allineati o il fatto che residui simili possano corrispondere in un allineamento, può essere quantificato disponendo di metri di valutazione oggettivi, come le matrici di sostituzione.

=> un’alta similitudine tra proteine può essere indice di omologia, ma non si può escludere il contrario. Esistono infatti proteine molto simili in organismi filogeneticamente non correlati tra loro e proteine molto diverse che possono essere ricondotte a omologhe mediante altri studi

Geni ortologhi e geni paraloghi

Geni ortologhi: geni simili riscontrabili in organismi correlati tra loro. Il fenomeno della speciazione porta alla divergenza dei geni e quindi delle proteine che essi codificano.

es. l’ α-globina di uomo e di topo hanno iniziato a divergere circa 80 milioni di anni fa, quando avvenne la divisione che dette vita ai primati e ai roditori. I due geni sono da considerarsi ortologhi.

Geni paraloghi: geni originati dalla duplicazione di un unico gene nello stesso organismo.

es. α-globina e β-globina umana hanno iniziato a divergere in seguito alla duplicazione di un gene globinico ancestrale. I due geni sono da considerarsi paraloghi.

Le sequenze da multiallineare in genere si ottengono dalla ricerca in banca dati mediante i sistemi di ricerca per similarità come BLAST e FASTA.

Visto che derivano già da un allineamento (anche se prodotto con metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value), l’allineamento mutiplo su questi DATASET darà risultati soddisfacenti.

In un allineamento multiplo si prendono in considerazione le colonne di residui, più che le

proteine a cui appartengono. Ogni residuo incolonnato è da considerarsi in modo implicito

come evolutivamente correlato, in qualche modo.

Significato biologico dell’allineamento multiplo

L’allineamento multiplo riassume

La storia evolutiva di una famiglia di proteine

La conservazione dei residui dipendente dalla funzione

La conservazione dei residui dipendente dalla struttura

Allineamenti multipli Vs. allineamenti a coppie

EAGFPPGVVNVIPGFGPTAGAAHASHEDVDKVAFTGSTEVGHLIQVAEAGFPPGVVNIVPGFGPTAGAAIASHEDVDKVAFTGSTEIGRVIQVAQYMDQNLYLVVKGG-VPETTELL--KERFDHIMYTGSTAVGKIVMAANVFSPAWA-TVVEGDETISQQLL--QEKFDHIFFTGSPRVGRLIMAAEAGVPVGLVNVVQG-GAETGSLLCHHPNVAKVSFTGSVPTGKKVMEMDI-FPAGVINILFGRGKTVGDPLTGHPKVRMVSLTGSIATGEHIISH

1:2:3:4:5:6:

A

1 : 2 : 3 : 4 : 5 : 6 :

EAGFPPGVVNVIPGFGPTAGAAIASHEDVDKVAFTGSTEVGHLIQVAEAGFPPGVVNIVPGFGPTAGAAIASHEDVDKVAFTGSTEIGRVIQVAQYMDQNLYLVVKGG-VPETTELL--KERFDHIMYTGSTAVGKIVMAANVFSPAWA-TVVEGDETISQQLL--QEKFDHIFFTGSPRVGRLIMAAEAGVPVGLVNVVQG-GAETGSLLCHHPNVAKVSFTGSVPTGKKVMEMDI-FPAGVINILFGRGKTVGDPLTGHPKVRMVSLTGSIATGEHIISH

1:2:3:4:5:6:

B

Significato funzionale della conservazione

TRYI_DROME : ENTK_PIG/8 : THRB_BOVIN : KLK1_MOUSE : CTRA_BOVIN : CTR1_ANOGA : CTRL_HALRU :

IIGGSDQLIRNAPWQVSIQISAR----HECGGVIYSKEIIITAGHCLHER-SVTLMKV-----RVGA---QNHNYGG-TLVPVAAY--KVHEQFDSRFLH---IVGGNDSREGAWPWVVALYYNG----QLLCGASLVSRDWLVSAAHCVYG----RNLEPSKWKAILG--LHMTSNLTSPQIVTRLIDEIVINPHYNRRRKD---IVEGQDAEVGLSPWQVMLFRKSPQE--LLCGASLISDRWVLTAAHCLLYPPWDKNFTVDDLLVRIGK-HSRTRYERKVEKISMLDK-IYIHPRYNWKEN----IVGGFNCEKNSQPWQVAVYRFT----KYQCGGILLNVNWVLTAAHCHND-----KYQV-----WLGK-NNFLEDEPSAQHRLVSK--AIPHPDFNMSLLNEHTIVNGEEAVPGSWPWQVSLQDKTG---FHFCGGSLINENWVVTAAHCGVT----TSDVV-----VAGEFDQGSSSEK-IQKLKIAK--VFKNSKYNSLTIN---VVGGEVAKNGSAPYQVSLQVPGWG---HNCGGSLLNDRWVLTAAHCLVG-HAPGDLMV-----LVGT---NSLKEGG-ELLKVDK--LLYHSRYNLPRFH---IVGGSNAAAGEFPWQGSLQVRSGTSWFHICGCVLYTTSKALTAAHCLSN--SASSYRL--G---FGMLR-MNNVDGTEQYSSVTS--YTNHPNYNGNAAG---

: 84 : 90 : 95 : 86 : 85 : 85 : 90


--------YDIAVLRLSTP-LTFGLSTRAINLAS---TSP--SGGTTVTVTGWGH----TDNG---ALSDSLQKAQLQIIDRGECASQKFGYGAD-FVGEETI--------SDIAMMHLEFK-VNYTDYIQPICLPE---ENQVFPPGRICSIAGWGK---VIYQG---SPADILQEADVPLLSNEKCQQQMP-EYN---ITENMM------LDRDIALLKLKRP-IELSDYIHPVCLPDKQTAAKLLHAGFKGRVTGWGNRRETWTTSVAEVQPSVLQVVNLPLVERPVCKAS---TRIR--ITDNMFPQPEDDYSNDLMLLRLKKP-ADITDVVKPIDLPT---EEP--KLGSTCLASGWGS---ITPVKY--EYPDELQCVNLKLLPNEDCAKA---HIEK--VTDDML--------NDITLLKLSTA-ASFSQTVSAVCLPS---ASDDFAAGTTCVTTGWGL---TRYTNA--NTPDRLQQASLPLLSNTNCKKY---WGTK--IKDAMI--------NDIGLVRLEQP-VQFSELVQSVEYSE-----KAVPANATVRLTGWGR---TSANG---PSPTLLQSLNVVTLSNEDCNKK---GGDPGYTDVGHL------YPNDIAVLRLTSSMDTSSSAVGPSVWLL---------VERLCRTNMYDQR--MGKTQWRWQHPNNLQKVDMTVLTNSDCSSRWSGISGAT-VNSGHI

: 165 : 171 : 186 : 173 : 166 : 165 : 175


CAAS----TD-ADACTGDSGGPLVASSQ------LVGIVSWG-YRCADDNYPGVYADVAILRPWICAGYE--EGG-IDSCQGDSGGPLMCLEN--NRWLLAGVTSFG-YQCALPNRPGVYARVPKFTEWICAGYKPGEGKRGDACEGDSGGPFVMKSPYNNRWYQMGIVSWG-EGCDRDGKYGFYTHVFRLKKWICAGDM--DGG-KDTCAGDSGGPLICDGV------LQGITSWGPSPCGKPNVPGIYTRVLNFNTWICAGA----SG-VSSCMGDSGGPLVCKKN--GAWTLVGIVSWG-SSTCSTSTPGVYARVTALVNWVCTLTK---TG-EGACNGDSGGPLVYEGK------LVGVVNFG-VPCALG-YPDGFARVSYYHDWVCIFE----SG-RSACSGDSGGPLVCGNT------LTGITSWGISSCSGS-YPSVYTRVSSFYNWV

: 218 : 230 : 250 : 229 : 223 : 218 : 228

Conservazione degli amino acidi catalitici in alcuni membri della famiglia della tripsina

Significato strutturale dell’allineamento multiplo

PDBSUM of 1tlk

e f g

a b c C d

Sequenze molto divergenti del domino immunoglobulinico allineate manualmente sulla base dell’informazione della struttura di uno dei membri della famiglia (PDB 1tlk). Si noti la presenza di inserzioni o delezioni soprattutto in regioni corrispondenti a loop. Due residui di cisteina che formano un ponte disolfuro nel core idrofobico della proteina sono conservati in tutti i componenti della famiglia.

Somiglianze locali di struttura TbSP1 : MVKIAAIILLMGILANAAAIPVSEP-AALNKRGNAEVIAEQTGDVPDFNTQITEPTGEGNeu_1.629 : MK-FFSALALSSLLPTAAWAWTGSESDSTGADSLFRRAETIQ-QT--------------Neu_1.351 : MKPFFLISLLVTVFMSLMLATTAQPSLPLNNRRELAEHPPVKGNPPN------------Str_AL360055 : MHRRLATGLSAAALAVTTVVATAAA-ADAAPADKAQVLASWT-----------------Str_AL035654 : MRTTTRTRTTLAAVGAALALGVAAAPAQAAPADKPQVLASFT----------------- TbSP1 : DRGDVADETNLSTDIVPETEAASFAASSVSAALSPVSDTDRLLYSTAMPAFLTAKRNKNNeu_1.629 : --------------------------------------TDRYLFRITLPQFTAYRNARSNeu_1.351 : ----------------------------TGYALDWCKYTAGMLFQWDLPTFIKHREANFStr_AL360055 : -----------------------------------------QTSASSYQAWTAARANKSStr_AL035654 : -----------------------------------------QTSASSQNAWLAANRNQS TbSP1 : PGNL---DWSDDGCSKSPDRPAGFNFLDSCKRHDFGYRNYKKQHRFTEANRKRIDDNFKNeu_1.629 : PATL---DWSSDSCSYSPDNPLGFPFSPACNRHDFGYRNYKAQSRFTDNNKLKIDGNFKNeu_1.351 : SLGRLTWDWSSDGCTHVPDNPVGFPFKPACQRHDFGYRNYQVQFHFTPRARWKIDENFLStr_AL360055 : AWSAYGFDWTTDYCSSSPDNPFGFPFNTSCARHDFGYRNYKDAGTF-SANKSRLDSAFYStr_AL035654 : AWAAYEFDWSTDLCTQAPDNPFGFPFNTACARHDFGYRNYKAAGSF-DANKSRIDSAFY TbSP1 : KDLYNECAKYSGLESWKGVACRKIANTYYDAVRTFGWLNeu_1.629 : T-LYYQCDTHGYGS-----TCHALANVYYAAVREFGR-Neu_1.351 : K-MKFQCIGHNIFN-----ACHFMAHVYHWGVRTFYKGStr_AL360055 : EDLKRVCAGYGGATK---TACNSTAWTYYQAVKVFG--Str_AL035654 : EDMKRVCTGYTGEKN---TACNSTAWTYYQAVKIFG--

Fungal/bacterial Phospholipase A2

TbSP1 : DWSDDGCSKSPDR-----PAGFN-FLDSCKRHDFGYRNPLA2IX_snail : KINSNACSVPFSXI----PCQK-XFLAACDRHDTCYHCPLA2XII_human : PSPPNGCGSPLFGLN--IGIPS--LTKCCNQHDRCYETPLA2III_bee : YPGTLWCGHGNKSSGPNELGRFKHTDACCRTHDMCPDVPLA2XIA_rice : IRYGKYCGVGWSGCDGEEPCDD--LDACCRDHDHCVDKPLA2X_human : MKYGCFCGLGGHGQ----PRDA--IDWCCHGHDCCYTRPLA2V_human : GFYGCYCGWGGRGT----PKDG--TDWCCWAHDHCYGRPLA2IIA_human : GFYGCHCGVGGRGS----PKDA--TDRCCVTHDCCYKRPLA2IA_cobra : ADYGCYCGRGGSGT----PVDD--LDRCCQVHDNCYNE

Ca2+ loop Active site

Phospholipase A2 active site

Una regione conservata delle fosfolipasi A2 da funghi e batteri è allineabile con altre sequenze della famiglia. Inferenze strutturali e funzionali possono essere fatte sulla base della struttura della sequenza di cobra (PDB 1a3d)

Eli et al. EMBO, 2001

Allineamenti strutturalmente “corretti”

Un allineamento strutturalmente “corretto” non è sempre possibile. Solo il 50% dei residui è allineabile strutturalmente in proteine che hanno tra il 20% e il 30% di identità

Div

erge

nza

stru

ttura

le (

RM

S)

Divergenza di sequenza

Relazione tra la divergenza in struttura e in sequenza. La conservazione della struttura è sempre maggiore della conservazione di sequenza. Somiglianze che sono difficilmente riscontrabili in sequenza possono emergere chiaramente da un confronto strutturale.

Significato evolutivo dell’allineamento multiplo

In linea di principio esiste sempre un allineamento evolutivamente “corretto”. Tuttavia, non esiste un riferimento indipendente (come nel caso delle strutture cristallografiche), e la storia evolutiva delle sequenze deve anzi essere inferita dall’allineamento

Difficoltà dell’allineamento multiplo

• Complessità del problema - Tempo di elaborazione

• Funzione oggettiva di punteggio - ”Peso” da assegnare alle varie sequenze

Complessità dell’allineamento multiplo

Sulla superficie del cubo si hanno le matrici di confronto a coppie tra le sequenze A-B, B-C e A-C. L’allineamento ottimale di tre sequenze (A-B-C) richiede il riempimento del cubo e la valutazione di tutte le possibili mosse all’interno del cubo. La complessità di questo algoritmo è (O(LN)), dove L è la lunghezza e N il numero delle sequenze. Per tre sequenze di 300 amino acidi il numero di confronti è 2.7 x 107. Un algoritmo completo di programmazione dinamica è utilizzabile solo nel caso di tre sequenze.

Funzione oggettiva per l’allineamento multiplo

Seq1 A A A ASeq2 A A A ASeq3 A A A CSeq4 A A C C

Seq1 Seq2

Seq3 Seq4

Seq1

Seq2

Seq3

Seq4

Somma delle coppieN(N-1)/2 confronti

Possibile relazione filogenetica delle sequenze

Viene usato il metodo della somma delle coppie in ogni colonna per determinare il punteggio totale dell’allineamento. Questo metodo non tiene in considerazione la storia delle sequenze e il fatto che uno stesso carattere nella colonna può essere facilmente condiviso da sequenze molto simili per ragioni evolutive. Per ovviare a questo si assegna un peso alle sequenze in modo da aumentare il punteggio in confronti tra sequenze evolutivamente distanti e diminuirlo in confronti tra sequenze vicine.

AAAA AAAC

AAAA AACC

AAACAAAA

AAAA AAAC

AAAA AACC

Metodi per l’allineamento multiplo

• Allineamento ottimale

• Programmazione dinamica, MSA

• Allineamento euristico

• Progressivo globale (CLUSTALW,Pileup)

locale (PIMA)

• Iterativo globale (PRRP)

locale (DIALIGN)

Allineamento con programmazione dinamicaCarrillo & Lipmann, 1988

Per trovare un allineamento ottimale tra tre sequenze è necessario solo calcolare i punteggi all’interno del volume in grigio il volume è delimitato dalle proiezioni delle aree sulle facce del cubo. Le aree sulle facce del cubo sono definite da due segmenti. Uno è il percorso dall’allineamento ottimale a coppie, l’altro la proiezione dell’allineamento multiplo euristico. Questo algoritmo (implementato nel programma MSA) può essere utilizzato per poche (<10) sequenze corte.

http://stateslab.bioinformatics.med.umich.edu/ibc/msa.html

N sequenze (dataset) disposte a caso, non allineate

Determinare un albero guida basato

sui punteggi di similarità di tutte le

coppie

A partire dalla coppia più simile, determinare le colonne

conservate, e allineare la coppia successiva mantenendo queste colonne e ricalcolando lo score

complessivo

N sequenze (dataset) allineate

Allineare tutte le proteine con tutte le proteine, a

coppie ( N(N-1)/2 allineamenti)

Allineamento progressivo

consenso DHEKFGSSQRSGQRSG SeqCAggiunta della coppia C alprecedente allineamento

DGEKFGPPQRSGQRSG|||.||| ||||.|||DGERFGP-QRSGNRSG| |.||. .|||.|||DHEKFGSSQRSGQRSG

SeqA

SeqB

SeqC

Allineamento multiplo

DGEKFGPPQRSGQRSG|||.||| ||||.|||DGERFGP-QRSGNRSG

SeqA

SeqBAllineamento della coppia A-B

Allineamento di tre sequenze A, B, C per passi successivi

Allineamento progressivo

• Allineamenti a coppie [N(N-1)/2 confronti] di tutte le sequenze con programmazione dinamica o metodi approssimati (BLAST, FASTA). Calcolare una matrice diagonale di distanze.

• Costruire un albero (Neighbor-joining, UPGMA, etc.) sulla base della matrice. L’albero serve da guida per gli allineamenti successivi.

• Cominciando dal primo nodo aggiunto all’albero, che rappresenta le due sequenze più vicine, allineare via via gli altri nodi (i quali possono essere due sequenze, una sequenza ed un allineamento o due allineamenti) fino a che tutte le sequenze sono state allineate

Feng-Doolittle algorithmFeng-Doolittle algorithmFeng-Doolittle algorithmFeng-Doolittle algorithm

• Does all pairwise alignments and scores them• Converts pairwise scores to “distances”

• D = -log Seff = -log [(Sobs –Srand)/(Smax –Srand)]

• Sobs = pairwise alignment score

• Srand = expected score for random alignment

• Smax = average of self-alignments of the two sequences

• Does all pairwise alignments and scores them• Converts pairwise scores to “distances”

• D = -log Seff = -log [(Sobs –Srand)/(Smax –Srand)]

• Sobs = pairwise alignment score

• Srand = expected score for random alignment

• Smax = average of self-alignments of the two sequences

L’albero guida e la clusterizzazione

1 Hbb_human -2 Hbb_horse .17 -3 Hba_human .59 .60 - 4 Hba_horse .59 .59 .13 - 5 Myg_whale .77 .77 .75 .75 - b_hu b_ho a_hu a_ho M_w

12345

1°

2°

1°

2°3° 4°

E’ una matrice di distanze, minore è il numero, maggiore è la similitudine...

Ordine di clusterizzazione

PEEKSAVTALWGKVN--VDEVGG Hbb_human GEEKAAVLALWDKVN--EEEVGG Hbb_horsePADKTNVKAAWGKVGAHAGEYGA Hba_humanAADKTNVKAAWSKVGGHAGEYGA Hba_horseEHEWQLVLHVWAKVEAGVAGHGQ Myg_whale

Allineamento finale

Allineamento progressivo: CLUSTAL

Matrice di distanza ottenuta con confronti a coppie

Albero filogenetico di neighbor-joining costruito dalla matrice

Allineamento progressivo delle coppie (sequenza-sequenza, sequenza-profilo, profilo -profilo) utilizzando l’albero come guida

Higgins & Sharp 1988

CLUSTALW improvement

Le sequenze filogeneticamente più distanti ricevono un peso proporzionalmente più alto nell’allineamento

La penalità da assegnare ai gap dipende dal tipo di residui come osservato in sequenze a struttura nota (Pascarella & Argos)

La penalità dipende anche dalla posizione. Se ci sono gap nelle vicinanze la penalità aumenta

Thompson et al 1994

CLUSTALW e CLUSTALX

Allineamento delle globine ottenuto con CLUSTALW

CLUSTALX. Stesso algoritmo con interfaccia grafica (PC)

Valutare la bontà di un multi-allineamento

In genere: si sommano tutti gli score di tutte le possibili coppie di proteine allineate, pesando i valori in base alla similitudine nello stesso cluster per evitare che alcuni cluster prevalgano su altri nel conteggio finale. Ottengo un WSP (Weighted Sum of Pairs):

WSPscore = Σ Σ Wij ŜŜ(Aij)i = 1 j = 1

N-1 N

N: numero di sequenze i,j: coppia di sequenzeŜŜ: punteggio di similarità della coppia W: peso per la coppia

Il valore complessivo del WSP dipende dai criteri di punteggio utilizzati nell’allineamento più che da considerazioni biologiche, ma è comunque un criterio valido per tutti gli allineamenti con gli stessi parametri

Uno score così è chiamato Objective Function (OF)

Allineamento iterativo

Il primo allineamento multiplo viene usato per predire un nuovo albero, nuovi pesi e nuovi allineamenti fino a che non si ha un miglioramento nel punteggio dell’allineamento. Implementato in PRRP, DIALIGN

Comparazione dei metodi di allineamento multiplo

Set di riferimento BAliBASEUna bancadati di proteine allineate strutturalmente e suddivisa in set che rappresentano problemi tipici che si hanno in allineamenti multipli: - estensioni terminali - inserzioni - famiglia rispetto ad orfani

Thompson et al 1999

Comparazione dei metodi di allineamento multiplo

Sequenze di lunghezza simile

Col

o nn e

cor

r ett

a me n

t e a

llin

eat e

V1= <25% id.V2= 20-40% id.V3= >35% id.

Orfani allineati ad una famiglia Sequenze con estensioni terminali

Conclusioni: 1) per sequenze di lunghezza comparabile i sistemi globali e iterativi funzionano meglio; 2) per allineare una sequenza orfana ad una famiglia conviene usare i sistemi progressivi (CLUSTALX) e si ottengono risultati migliori se si usano molti membri della famiglia; 3) se le sequenze presentano diverse estensioni alle estremità N e C terminali conviene utilizzare sistemi di allineamento locale

Utilizzo dei colori

I file raw-text possono essere utilizzati per visualizzare le colonne, ma è possibile associare colori diversi per residui con caratteristiche chimico fisiche diverse. Questo facilita molto la visualizzazione dei multiallineamenti

Rappresentazioni dell’allineamento multiplo: conservazione

Rappresentazioni dell’allineamento multiplo: sostituzioni

Le sequenze consenso

Si definisce sequenza consenso una sequenza derivata da un multiallineamento che presenta solo i residui più conservati per ogni posizione

riassume un multiallineamento.

non è identica a nessuna delle proteine del dataset.

si possono definire dei simboli che la definiscano e che indichino anche conservazioni non perfette in una posizione.

è possibile utilizzare una formattazione precisa che permetta di capire anche le variazioni in una posizione, non solo le conservazioni.

GRVQGV--R------A--LG—-GWVGRVQGh-aRvvvvvvAvvLGivGWV

GRVQG[VI]-[FY]R------A—L----GWYGRVQGV--R-6A—LG--GWV

Consenso esatto

Consenso a simboli

Consenso con variazioni

Consenso con ripetizioni

Alcuni modi di indicare le

sequenze consenso

Profili dei multi-allineamenti

Un multi-allineamento genera molte più informazioni per l’individuazione dei residui importanti per una famiglia di proteine di tanti allineamenti a coppie.

Diventa quindi basilare poter riassumere le conservazioni osservate in un unico formato.

Inoltre multi-allineare proteine divergenti tra loro è molto più informativo rispetto alla stessa analisi fatta su proteine molto simili.

Un PROFILO è un metodo di SCORING in cui ad ognuno dei venti amino acidi viene assegnato un punteggio basato sulla frequenza e sul valore in una matrice di sostituzione. Ogni cella di un profilo esprime quindi il peso da attribuire ad ogni aminoacido in quella posizione

Profili

Cons A C D E F G H I K L M N P Q R S T V W Y Gap LenV 0.7 1.6 -3.1 -2.6 4.4 0.1 -2.7 10.9 -2.6 8.6 5.9 -3.3 -0.4 -3.0 -3.3 -1.3 1.3 12.6 -4.7 1.3 4.6 4.6A 3.3 0.0 3.3 3.7 -2.1 3.3 1.4 -1.3 2.1 -1.9 -1.0 4.1 0.3 1.7 -0.4 1.9 1.6 -0.6 -2.9 -0.9 2.1 2.1A 8.7 2.7 3.3 3.0 -4.3 7.7 -1.3 -1.0 0.0 -2.4 -1.3 2.4 3.6 1.3 -2.0 5.6 3.3 1.3 -5.9 -3.6 2.1 2.1A 2.1 0.4 0.4 0.4 -0.7 0.9 -0.1 0.0 0.0 -0.1 0.0 0.3 0.7 0.3 -0.4 0.6 0.6 0.3 -1.1 -0.4 1.6 1.6D 0.4 -0.7 2.1 1.4 -1.4 0.9 0.6 -0.3 0.4 -0.7 -0.6 0.9 0.1 0.9 0.0 0.3 0.3 -0.3 -1.6 -0.7 1.6 1.6N 1.7 -1.9 5.6 4.4 -4.1 2.9 4.7 -1.7 2.6 -2.9 -2.3 8.3 0.9 3.3 1.0 1.7 3.1 -1.7 -3.9 -1.1 1.6 1.6V 3.1 3.0 -0.3 -0.4 1.7 2.3 -1.3 5.0 -1.9 3.0 2.0 -0.6 0.0 -1.3 -3.0 0.4 1.6 6.3 -4.0 0.7 1.6 1.6A 6.7 -0.3 5.4 5.3 -5.4 5.9 0.9 -1.3 0.9 -2.6 -1.6 2.7 4.3 3.0 -0.9 3.1 2.7 0.4 -8.0 -4.3 1.6 1.6E 3.1 -1.7 5.3 6.4 -4.7 6.1 0.6 -1.4 3.0 -2.9 -1.1 3.4 1.7 2.7 0.1 3.0 4.1 0.0 -6.7 -4.4 1.6 1.6V 1.0 2.0 1.7 1.0 0.4 1.1 2.0 2.4 -0.6 1.1 0.1 1.0 0.1 0.1 -0.9 1.3 0.7 3.3 -2.0 1.0 4.6 4.6

Gribskov et al 1987

Sequenza di consenso dell’allineamento Penalità apertura gap

Penalità allungamento gap

Un profilo rappresenta l’informazione di un allineamento multiplo assegnando a ciascuna colonna dell’allineamento punteggi specifici per ciascun amino acido e per i gap. E’ rappresentato in figura un profilo ottenuto con una porzione allineata di alcune globine. In ciascuna riga è rappresentato l’amino acido di consenso ed i valori di punteggio per i vari amino acidi della corrispondente colonna dell’allineamento (la prima riga corrisponde alla prima colonna dell’allineamento e così via). Gli amino acidi che hanno punteggio maggiore (sottolineati) sono indicati nel consenso.

HBA_HUMAN ...vga--hagey...HBB_HUMAN ...v----nvdev...MYG_PHYCA ...vea--dvag-...GLB3_CHITP ...vkg------d...GLB5_PETMA ...vys--tyets...LGB2_LUPLU ...fna--nipkh...GLB1_GLYDI ...iagadngagv...

Calcolo dei punteggi nei profili

HBA_HUMAN ...vga--hagey...HBB_HUMAN ...v----nvdev...MYG_PHYCA ...vea--dvag-...GLB3_CHITP ...vkg------d...GLB5_PETMA ...vys--tyets...LGB2_LUPLU ...fna--nipkh...GLB1_GLYDI ...iagadngagv...

I punteggi per i vari amino acidi nelle colonne sono calcolati dalle matrici di sostituzione assegnando un “peso” diverso ai punteggi a seconda della frequenza degli amino acidi nell’allineamento. Non è un modello probabilisticamente rigoroso e produce alcune anomalie.

Punteggio di un aminoacido X per la prima colonna:

),(7

1),(

7

1),(

7

5XIsXFsXVs

Dove s(Y,X) è il punteggio della sostituzione dell’aminoacido Y in X nelle matrici PAM o BLOSUM.

Sequence logos

)(log21

i

M

ii PPH

Massima incertezza di osservare uno su M simboli equiprobabili H = log2(M) = - log2(P)

Rappresentazione grafica del grado di conservazione delle colonne dell’allineamento. Derivano dalla teoria dell’informazione di Shannon:

Quando i simboli non sono equiprobabili si utilizza la formula generale di Shannon

Nel grafico è rappresentata in ordinata la conservazione come diminuzione di incertezza.

Nel caso dei nucleotidi log2(4) - H. Per i gli aminoacidi log2(20) - H

La massima conservazione in bits è quindi 2 per i nucleotidi e 4.32 per gli amino acidi.

Hidden Markov Models (HMM)

Gli “Hidden Markov Models” (HMM) sono una classe di modelli probabilistici che si applicano a serie temporali o sequenze lineari. Un modello è caratterizzato da una determinata architettura composta da stati e da transizioni di stato. Ciascuno stato ha una data probabilità di emettere simboli o di effettuare una transizione. Il modello in figura rappresenta sequenze composte da due lettere (a,b) generate da due stati, ciascuno con una diversa probabilità di emissione. Partendo dalla stato 1 il modello ha generato una sequenza (aba) attraverso una successione di stati. Ciò che viene osservata è la sequenza di simboli, mentre la successione degli stati rimane nascosta (hidden). La probabilità combinata P(x, | HMM) della sequenza di simboli osservata è il prodotto di tutte le probabilità di emissioni e transizioni.

stato

transizioniKrog, HausslerEddy, Durbin

Profili HMM

inserzione

match

delezione

Gli HMM possono essere usati per modellare allineamenti multipli di sequenze di una data famiglia (profili HMM). L’architettura del modello prevede tre tipi di stati ( match, inserzione, delezione), più uno stato finale ed uno stato iniziale. L’HMM rappresentato in figura modella l’allineamento multiplo delle sei sequenze (3 colonne) visualizzato a fianco. La probabilità di emissione dei vari aminoacidi derivano dalle frequenze osservate nell’allineamento. Modelli generati con allineamento multipli possono essere impiegati per: 1) allineare nuove sequenze al modello; 2) individuare in un database sequenze aderenti al modello; 3) individuare corrispondenze tra una sequenza e un database di modelli.

Profili HMM: calcolo parametri seq1 ...xxx--xxxxx...seq2 ...x----xxxxx...seq3 ...xxx--xxxx-...seq4 ...xxx------x...seq5 ...xxx--xxxxx...seq6 ...xxx--xxxxx...Seq7 ...xxxxxxxxxx...

m1 m2 m8

D1

BEGIN END

I0

D2

I1

I parametri iniziali dipendono dal numero di simboli emessi e dal numero di transizioni (frecce che partono da uno stato). In questo modo, prima di leggere un allineamento le probabilità di emissione di ciascun amino acido dello stato m1 saranno eM1(x) = 1/20,Le probabilità di transizione dallo stato m1 saranno tM1M2=1/3, tM1D2=1/3, tM1I1 =1/3.

I parametri vengono quindi modificati in base all’allineamento in ragione delle occorrenze dei caratteri in una colonna e le occorrenze delle transizioni.

Il modello è costruito in modo da assegnare tanti stati “match” quante sono le colonne dell’allineamento in cui gli aminoacidi prevalgono sui gap.

tM1M2

tM1I1

tM1D2

Profili HMM: pseudocounts HBA_HUMAN ...vga--hagey...HBB_HUMAN ...v----nvdev...MYG_PHYCA ...vea--dvag-...GLB3_CHITP ...vkg------d...GLB5_PETMA ...vys--tyets...LGB2_LUPLU ...fna--nipkh...GLB1_GLYDI ...iagadngagv...

m1 m2 m8

D1

BEGIN END

I0

D2

I1

Quando una transizione o l’emissione di un particolare simbolo non si osserva è necessario aggiungere finti conti (“pseudocounts”) per evitare valori di probabilità zero. Il sistema più semplice di pseudocounts è la regola di Laplace: aggiungere 1 a tutte le frequenze.Usando questo sistema nella prima colonna occorre aggiungere 17 conti per gli aminoacidi “mancanti”. Il numero totale sarà quindi (5+1)v+(1+1)f+(1+1)i+(0+17)x = 27. Le probabilità di emissione saranno em1(V)= 6/27, em1(I)=2/27, em1(F)=2/27, em1(x)=1/27. Analogamente per le probabilità di transizione, in cui osserviamo 6 transizioni allo stato di match, 1 allo stato di delezione e zero allo stato di inserzione: tm1m2=7/9, tm1d2=2/9, tm1I1= 1/10.Questo sistema di pseudocount funziona solo quando il campione di sequenze è sufficientemente numeroso (>50); in altri casi vanno usati sistemi più sofisticati (misture di Dirichlet, misture basate sulle matrici di sostituzione, stime basate sull’ancestore).

Profili HMM: weighting

I parametri dell’HMM vanno stimati assegnando un peso minore all’informazione portata da sequenze simili ed un peso maggiore all’informazione portata da sequenze più divergenti.Vi sono metodi di weighting basati su alberi filogenetici ed altri indipendenti da questi (Voroni, Maximum discrimination, Maximum Entropy).

Tutti i sistemi di weighting soffrono di un problema comune. Se in un modello di una famiglia si inserisce una sequenza errata (non appartenente alla famiglia) questa avrà in proporzione molto peso sul modello finale.

V

In un intuitivo sistema di weighting si immagina di applicare un voltaggio alla radice dell’albero e di pesare le sequenze in proporzione alla corrente che arriva a ciascun nodo.

Questioni legate ai profili HMM

Dato un allineamento, quali sono la struttura e i parametri di un HMM che descrivono nel modo migliore possibile la conservazione (APPRENDIMENTO)?

Qual è la sequenza ottimale di stati con cui un HMM genera una data sequenza (ALLINEAMENTO)?

Qual è la probabilita che una data sequenza sia stata generata da un HMM (SIGNIFICATIVITA’)?

HmmerSean Eddy

Hmmer (pronunciato “hammer”) è un pacchetto di programmi per creare ed usare modelli markoviani di allineamenti di DNA e proteine. I programmi principali sono:

• Hmmalign: allineare sequenze ad un HMM

• Hmmbuild: creare un HMM a partire da un allineamento

• Hmmsearch: cercare un database di sequenze con un HMM

Protein family

PFAM (acronimo di Protein Families) è un database di domini di proteine descritti con modelli markoviani. E’ diviso in due sezioni: pfam-A contiene allineamenti curati da esperti; pfam-B contiene sequenze che vengono automaticamente raggruppate.

http://www.sanger.ac.uk/Pfam/

Pfam: family description

Ricerca di omologia in Pfam: “anatomia” delle proteine

Download - Allineamento multiplo. Allineamenti multipli Finora ci siamo occupati di allineamenti a coppie (pairwise), ma il modo migliore per conoscere le caratteristiche

Top Related