adam makuchowski institute of computer science silesian university of technology gliwice, 2010

21
Adam Makuchowski Institute of Computer Science Silesian University of Technology Gliwice, 2010 Wyszukiwanie konsensusów w sekwencjach DNA

Upload: cleo

Post on 21-Mar-2016

49 views

Category:

Documents


0 download

DESCRIPTION

Wyszukiwanie k onsensus ów w sekwencjach DNA. Adam Makuchowski Institute of Computer Science Silesian University of Technology Gliwice, 2010. Cel. Znalezienie potencjalnych miejsc wiązań zarówno HSF1 (Heat Shock Trancription Factor) i NF-kB w genomie referencyjnym człowieka i myszy. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

Adam MakuchowskiInstitute of Computer Science Silesian University of Technology Gliwice, 2010

Wyszukiwanie konsensusów

w sekwencjach DNA

Page 2: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

CelZnalezienie potencjalnych miejsc wiązań zarówno HSF1

(Heat Shock Trancription Factor) i NF-kB w genomie referencyjnym człowieka i myszy.

W celu weryfikacji w „obrębie” znalezionych miejsc należy znaleźć również consensus KOZAK, consensus TATA

Page 3: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

KonsensusSekwencja konsensusu powstaje z macierzy

dopasowań stworzonej podczas dopasowania wielosekwencyjnego. Jest sposobem reprezentacji wyników, pokazującym, które z nukleotydów są najbardziej konserwatywne w dopasowaniu na każdej pozycji

Sequence logo

Oś y – Ilość informacji na każdej pozycji w sekwencji, mierzona w bitach.Oś x – pozycja w sekwencji

Page 4: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

Obliczanie wysokości (logo) Informacja (y-axis) na i-tej pozycji zadana jest:

Dla aminokwasów, Ri = log2(20) − (Hi + en) Dla nukleotydów Ri = 2 − (Hi + en)

gdzie Hi jest wielkością entropii na itej pozycji:

Gdzie fa,i jest częstością wystąpienia nukleotydu/aminokwasu na i tej pozycji

Wysokośc = fa,i * RiDodatkowo jest wykorzystywana korekcja en, zadana wzorem:

Page 5: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

Tworzenie konsesnusu

Page 6: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

Frequency matrix -> position-specific scoring matrix w = log2 ( ( f + sqrt(N) * p ) / ( N +

sqrt(N) ) / p ) w = waga na każdej z pozycjif   = liczebnośćN = łączna liczebność ( suma w kolumnie )p = prawdopodobieństwo, że wystąpi któryś nukleotyd ( p = 1/4 jedna z 4 możliwości, stale dla zadanego alfabetu ACGT)

FM -> PSSMA [ 2  3  4  ] A [ -0,668  -0,2497 0,0744  ]C [ 11 4  5  ] C [ 1,3428  0,07448  0,339 ]G [ 1  2  3  ] G [ -1,2613  -0,6686 -0,249 ]T  [ 1  6  3  ] T [ -1,2613  0,5625  -0,2492 ]

Page 7: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

Consensus TATA

A [ 61 16 352 3 354 268 360 222 155 56 83 82 82 68 77 ]C [145 46 0 10 0 0 3 2 44 135 147 127 118 107 101 ]G [152 18 2 2 5 0 20 44 157 150 128 128 128 139 140 ]T [ 31 309 35 374 30 121 6 121 33 48 31 52 61 75 71 ]

FREQUENCY MATRIX

Źródło: JASPAR CORE database

Page 8: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

Consensus NFKB1

A [ 0 0 0 2 11 5 0 0 0 0 1 ]C [ 0 0 0 0 1 0 5 13 17 18 15 ]G [18 18 18 16 6 2 2 0 0 0 1 ]T [ 0 0 0 0 0 11 11 5 1 0 1 ]

Źródło: JASPAR CORE database

FREQUENCY MATRIX

Page 9: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

Consensus KOZAK

A [ 50 30 17 100 0 0 30 ]C [ 12 40 45 0 0 0 20 ]G [ 30 20 28 0 0 100 43 ]T [ 8 10 10 0 100 0 7 ]

Obliczenia własne

FREQUENCY MATRIX Źródło: http://en.wikipedia.org/wiki/Kozak_consensus_sequence

Page 10: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

Consensus HSF

A [ 9 4 0 0 34 0 90 97 25 25 4 6 0 0 ]C [ 14 6 100 28 14 0 4 1 25 25 6 0 100 28 ]G [ 0 0 0 12 42 100 6 2 25 25 0 0 0 12 ]T [ 77 90 0 60 14 0 0 0 25 25 90 94 0 60 ]

Obliczenia własne

FREQUENCY MATRIX Źródło: The Role of Heat Shock Transcription Factor 1 in the Genome-wide Regulation of the Mammalian Heat Shock Response□D Nathan D. Trinklein, John I. Murray, Sara J. Hartman, David Botstein,† andRichard M. Myers‡

Page 11: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

Genom referencyjny człowiekaChromosom Liczba

genów Wielkość w parach

zasad

Chromosom 1 2 968 245 203 898

Chromosom 2 2 288 243 315 028

Chromosom 3 2 032 199 411 731

Chromosom 4 1 297 191 610 523

Chromosom 5 1 643 180 967 295

Chromosom 6 1 963 170 740 541

Chromosom 7 1 443 158 431 299

Chromosom 8 1 127 145 908 738

Chromosom 9 1 299 134 505 819

Chromosom 10 1 440 135 480 874

Chromosom 11 2 093 134 978 784

Chromosom 12 1 652 133 464 434

Chromosom 13 748 114 151 656

Chromosom 14 1 098 105 311 216

Chromosom 15 1 122 100 114 055

Chromosom 16 1 098 89 995 999

Chromosom 17 1 576 81 691 216

Chromosom 18 766 77 753 510

Chromosom 19 1 454 63 790 860

Chromosom 20 927 63 644 868

Chromosom 21 303 46 976 537

Chromosom 22 288 49 476 972

Chromosom X 1 184 152 634 166

Chromosom Y 231 50 961 097

SUMA 32 040 3 070 521 116

Page 12: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

Tworzenie zapytańInterface graficzny w trakcie tworzeniaPrzykład 1profile.min.weight.percent=0.5profile.file=TATA,NFkB,HSF1,KOZAK,1000Przykład 2profile.min.weight.percent= TATA,0.7profile.min.weight.percent= NFkB,0.4profile.min.weight.percent= 0.8profile.file=TATA,NFkB, 49profile.file=NFkB, KOZAK,1000profile.file=NFkB,HSF1,250

Page 13: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

Przetwanianie równoleg(parallel processing)Wczytywanie danych po stronie

klienta/serveraWywoływanie zadań wyszukujących

konsensusZbieranie wynikówWyszukiwanie konsensusu

Page 14: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

Przetwarzanie rozproszone (distributed processing)

JAVA Remote Method Invocation (RMI)

Client zarządcaRozsyłanie zadań do listy serwerówZbieranie wyników

Page 15: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

ArchitekturaDodawanie kolejnych zadań interface Taskclass TaskThreadclass CallThreadclass TaskMain

FindConsensus

Page 16: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

KontrolowanieprzetwarzaniaZmiana parametrów przetwarzania tylko po stronie klienta

maksymalna liczba zadań wysłana do serweramaksymalna liczba wątków na które zadanie podzieli serwer

Page 17: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

Wyszukane miejsca

Plik Cons. Pozycja Znaleziony konsensus Procent podobieńst.

chr1.fa TATA 000000751185 CTATAAAAGGCTGGG0.9181231365232926

chr1.fa NFkB 000000353757 GGGGGTTCCCC 0.9535948363631707chr1.fa NFkB 000001133537 GGGGGTTCCCC 0.9535948363631707chr1.fa NFkB 000001337194 GGGGATCCCCC 0.9403582823276164chr1.fa NFkB 000001970465 GGGGATTTCCC 0.927060010250697chr1.fa KOZAK 000001002722 ACCATGG 1.0chr1.fa KOZAK 000001020889 ACCATGG 1.0chr1.fa KOZAK 000001027846 ACCATGG 1.0chr1.fa HSF1 000218913800 TTCTTGAAGGTTCT

0.925472561340041

Przykładowe wyniki:

Page 18: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

Przykładowe wyniki:

HSF1 18521971 TTCTGGAACCTTCT 1,000NFkB 18521469 GGGGAATTCCC 0,867Odstęp między 502 pozycji

NFkB 229269807 GGGGCTTCCCC 0,847HSF1 229269412 TTCTAGAAACTTCT 0,985Odstęp między 395 pozycji

NFkB 33516367 GGGGATGCCCC 0,881HSF1 33516006 TTCTGGAATTTTCC 0,946Odstęp między 361 pozycji

NFkB 224306741 GGGGATCTCCC 0,867HSF1 224306625 TTCTGGAAAATTCC 0,946Odstęp między 116 pozycji

Wyszukane miejsca

Page 19: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

Wstępne porównanie czasów 

Czas wminutach

PrzetwarzanieSekwencyjne 24,16PrzetwarzanieRównoległe 3,4PrzetwarzanieRozproszone 6,64

Wstępne czasy obliczeń

0

5

10

15

20

25

30

Przetwarzaniesekwencyjne

Przetwarzanierównoległe

Przetwarzanierozproszone

Czas w minutach

Test przeprowdzony na danych: Chromosom 1-Klient 2 rdzeniowy 1.66-Serwer4 rdzeniowy 2.8

Page 20: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

Dalsze praceZaimplemtowanie zrównoleglonych

algorytmów dla problemu wyszukiwania motywów (NP-zupełny)Metody oparte o PSSM (alignment)

Gibbs Sampling Expectation Maximization

Inne metody HMMs Bayesian methods enumerative (combinatorial)

Page 21: Adam Makuchowski Institute of Computer Science Silesian University of Technology  Gliwice, 2010

Inni też szukają motywów