adam makuchowski institute of computer science silesian university of technology gliwice, 2010
Post on 21-Mar-2016
49 Views
Preview:
DESCRIPTION
TRANSCRIPT
Adam MakuchowskiInstitute of Computer Science Silesian University of Technology Gliwice, 2010
Wyszukiwanie konsensusów
w sekwencjach DNA
CelZnalezienie potencjalnych miejsc wiązań zarówno HSF1
(Heat Shock Trancription Factor) i NF-kB w genomie referencyjnym człowieka i myszy.
W celu weryfikacji w „obrębie” znalezionych miejsc należy znaleźć również consensus KOZAK, consensus TATA
KonsensusSekwencja konsensusu powstaje z macierzy
dopasowań stworzonej podczas dopasowania wielosekwencyjnego. Jest sposobem reprezentacji wyników, pokazującym, które z nukleotydów są najbardziej konserwatywne w dopasowaniu na każdej pozycji
Sequence logo
Oś y – Ilość informacji na każdej pozycji w sekwencji, mierzona w bitach.Oś x – pozycja w sekwencji
Obliczanie wysokości (logo) Informacja (y-axis) na i-tej pozycji zadana jest:
Dla aminokwasów, Ri = log2(20) − (Hi + en) Dla nukleotydów Ri = 2 − (Hi + en)
gdzie Hi jest wielkością entropii na itej pozycji:
Gdzie fa,i jest częstością wystąpienia nukleotydu/aminokwasu na i tej pozycji
Wysokośc = fa,i * RiDodatkowo jest wykorzystywana korekcja en, zadana wzorem:
Tworzenie konsesnusu
Frequency matrix -> position-specific scoring matrix w = log2 ( ( f + sqrt(N) * p ) / ( N +
sqrt(N) ) / p ) w = waga na każdej z pozycjif = liczebnośćN = łączna liczebność ( suma w kolumnie )p = prawdopodobieństwo, że wystąpi któryś nukleotyd ( p = 1/4 jedna z 4 możliwości, stale dla zadanego alfabetu ACGT)
FM -> PSSMA [ 2 3 4 ] A [ -0,668 -0,2497 0,0744 ]C [ 11 4 5 ] C [ 1,3428 0,07448 0,339 ]G [ 1 2 3 ] G [ -1,2613 -0,6686 -0,249 ]T [ 1 6 3 ] T [ -1,2613 0,5625 -0,2492 ]
Consensus TATA
A [ 61 16 352 3 354 268 360 222 155 56 83 82 82 68 77 ]C [145 46 0 10 0 0 3 2 44 135 147 127 118 107 101 ]G [152 18 2 2 5 0 20 44 157 150 128 128 128 139 140 ]T [ 31 309 35 374 30 121 6 121 33 48 31 52 61 75 71 ]
FREQUENCY MATRIX
Źródło: JASPAR CORE database
Consensus NFKB1
A [ 0 0 0 2 11 5 0 0 0 0 1 ]C [ 0 0 0 0 1 0 5 13 17 18 15 ]G [18 18 18 16 6 2 2 0 0 0 1 ]T [ 0 0 0 0 0 11 11 5 1 0 1 ]
Źródło: JASPAR CORE database
FREQUENCY MATRIX
Consensus KOZAK
A [ 50 30 17 100 0 0 30 ]C [ 12 40 45 0 0 0 20 ]G [ 30 20 28 0 0 100 43 ]T [ 8 10 10 0 100 0 7 ]
Obliczenia własne
FREQUENCY MATRIX Źródło: http://en.wikipedia.org/wiki/Kozak_consensus_sequence
Consensus HSF
A [ 9 4 0 0 34 0 90 97 25 25 4 6 0 0 ]C [ 14 6 100 28 14 0 4 1 25 25 6 0 100 28 ]G [ 0 0 0 12 42 100 6 2 25 25 0 0 0 12 ]T [ 77 90 0 60 14 0 0 0 25 25 90 94 0 60 ]
Obliczenia własne
FREQUENCY MATRIX Źródło: The Role of Heat Shock Transcription Factor 1 in the Genome-wide Regulation of the Mammalian Heat Shock Response□D Nathan D. Trinklein, John I. Murray, Sara J. Hartman, David Botstein,† andRichard M. Myers‡
Genom referencyjny człowiekaChromosom Liczba
genów Wielkość w parach
zasad
Chromosom 1 2 968 245 203 898
Chromosom 2 2 288 243 315 028
Chromosom 3 2 032 199 411 731
Chromosom 4 1 297 191 610 523
Chromosom 5 1 643 180 967 295
Chromosom 6 1 963 170 740 541
Chromosom 7 1 443 158 431 299
Chromosom 8 1 127 145 908 738
Chromosom 9 1 299 134 505 819
Chromosom 10 1 440 135 480 874
Chromosom 11 2 093 134 978 784
Chromosom 12 1 652 133 464 434
Chromosom 13 748 114 151 656
Chromosom 14 1 098 105 311 216
Chromosom 15 1 122 100 114 055
Chromosom 16 1 098 89 995 999
Chromosom 17 1 576 81 691 216
Chromosom 18 766 77 753 510
Chromosom 19 1 454 63 790 860
Chromosom 20 927 63 644 868
Chromosom 21 303 46 976 537
Chromosom 22 288 49 476 972
Chromosom X 1 184 152 634 166
Chromosom Y 231 50 961 097
SUMA 32 040 3 070 521 116
Tworzenie zapytańInterface graficzny w trakcie tworzeniaPrzykład 1profile.min.weight.percent=0.5profile.file=TATA,NFkB,HSF1,KOZAK,1000Przykład 2profile.min.weight.percent= TATA,0.7profile.min.weight.percent= NFkB,0.4profile.min.weight.percent= 0.8profile.file=TATA,NFkB, 49profile.file=NFkB, KOZAK,1000profile.file=NFkB,HSF1,250
Przetwanianie równoleg(parallel processing)Wczytywanie danych po stronie
klienta/serveraWywoływanie zadań wyszukujących
konsensusZbieranie wynikówWyszukiwanie konsensusu
Przetwarzanie rozproszone (distributed processing)
JAVA Remote Method Invocation (RMI)
Client zarządcaRozsyłanie zadań do listy serwerówZbieranie wyników
ArchitekturaDodawanie kolejnych zadań interface Taskclass TaskThreadclass CallThreadclass TaskMain
FindConsensus
KontrolowanieprzetwarzaniaZmiana parametrów przetwarzania tylko po stronie klienta
maksymalna liczba zadań wysłana do serweramaksymalna liczba wątków na które zadanie podzieli serwer
Wyszukane miejsca
Plik Cons. Pozycja Znaleziony konsensus Procent podobieńst.
chr1.fa TATA 000000751185 CTATAAAAGGCTGGG0.9181231365232926
chr1.fa NFkB 000000353757 GGGGGTTCCCC 0.9535948363631707chr1.fa NFkB 000001133537 GGGGGTTCCCC 0.9535948363631707chr1.fa NFkB 000001337194 GGGGATCCCCC 0.9403582823276164chr1.fa NFkB 000001970465 GGGGATTTCCC 0.927060010250697chr1.fa KOZAK 000001002722 ACCATGG 1.0chr1.fa KOZAK 000001020889 ACCATGG 1.0chr1.fa KOZAK 000001027846 ACCATGG 1.0chr1.fa HSF1 000218913800 TTCTTGAAGGTTCT
0.925472561340041
Przykładowe wyniki:
Przykładowe wyniki:
HSF1 18521971 TTCTGGAACCTTCT 1,000NFkB 18521469 GGGGAATTCCC 0,867Odstęp między 502 pozycji
NFkB 229269807 GGGGCTTCCCC 0,847HSF1 229269412 TTCTAGAAACTTCT 0,985Odstęp między 395 pozycji
NFkB 33516367 GGGGATGCCCC 0,881HSF1 33516006 TTCTGGAATTTTCC 0,946Odstęp między 361 pozycji
NFkB 224306741 GGGGATCTCCC 0,867HSF1 224306625 TTCTGGAAAATTCC 0,946Odstęp między 116 pozycji
Wyszukane miejsca
Wstępne porównanie czasów
Czas wminutach
PrzetwarzanieSekwencyjne 24,16PrzetwarzanieRównoległe 3,4PrzetwarzanieRozproszone 6,64
Wstępne czasy obliczeń
0
5
10
15
20
25
30
Przetwarzaniesekwencyjne
Przetwarzanierównoległe
Przetwarzanierozproszone
Czas w minutach
Test przeprowdzony na danych: Chromosom 1-Klient 2 rdzeniowy 1.66-Serwer4 rdzeniowy 2.8
Dalsze praceZaimplemtowanie zrównoleglonych
algorytmów dla problemu wyszukiwania motywów (NP-zupełny)Metody oparte o PSSM (alignment)
Gibbs Sampling Expectation Maximization
Inne metody HMMs Bayesian methods enumerative (combinatorial)
Inni też szukają motywów
top related