Алгоритмы в биоинформатике, осень 2015: Множественные...

26
Ответы на вопросы

Upload: cs-center

Post on 15-Apr-2017

535 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Ответы на вопросы

Page 2: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Билеты к экзаменуФинальная версия – 2 декабря

1. Выравнивание последовательностей.1.

2.

3.

1.

2.

3.

4.

1.

2.

3.

Полное выравнивание последовательностей.

Матрица весов. Локальное выравнивание.

3-level Manhattan. Выравнивание с аффинными весами гэпов.

Описание HMM.

Задача о монете. Алгоритм Витерби.

Задача о монете. Алгоритм Forward-Backward.

HMM выравнивание.

Топология филогенетических деревьев.

WPGMA и UPGMA.

Neighbour-Joining.

6. Профили.1.

2.

1.

Типы профилей.

Методы получения матриц частот в профиле.

Алгоритм максимизации количества спаренных пар.

Zuker folding algorithm.

2. Скрытые марковские модели.

7. Анализ вторичной структуры РНК.3. Филогенетические деревья.

5. Множественные выравнивания.

1. Многомерная матрица. Жадный алгоритм.

4. Алгоритм Миллера-Маерса (Хиршберга). Выравнивание с линейной памятью.

4. Методы оценки качества деревьев.

4. Поиск подстрок.1.

2.

Хэш-функция. Рабин-Карп.

Префикс функция. Кнут-Морис-Пратт.

3. ???

2. Выравнивание с деревом подсказкой. ClustalW.

3. Оценка качества множественного выравнивания.

???

Page 3: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Множественные выравнивания

Профили

Page 4: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Обобщение парного выравнивания

• Выравнивание 2-х последовательностей –двумерная матрица

• 3-х последовательностей – 3-х мерная.

A T _ G C G _A _ C G T _ AA T C A C _ A

• Задача: больше консервативных столбцов, лучшевыравнивание

Page 5: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Глобальное выравнивание 3-хпоследовательностей

начало

конец

Page 6: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

3-D архитектура

(i-1,j-1,k-1) (i-1,j,k-1)

(i-1,j-1,k) (i-1,j,k)

(i,j,k-1)

(i,j-1,k-1)

(i,j-1,k) (i,j,k)

Page 7: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Алгоритм

si-1,j-1,k-1 + (vi, wj, uk) Нет гэпов

si-1,j-1,k + (vi, wj, _ )

si-1,j,k-1 + (vi, _, uk)Один гэп

si,j-1,k-1 + (_, wj, uk)

si-1,j,k + (vi, _ , _)

si,j-1,k + (_, wj, _) Два гэпа

si,j,k-1 + (_, _, uk)

• si,j,k = max

• (x, y, z) – запись в трехмерной матрице весов

Page 8: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Время работы алгоритма

• Для 3-х последовательностей длины n,время работы – 7n3; O(n3)

• Для k последовательностей - (2k-1)(nk);O(2knk)

Page 9: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Множественное выравнивание порождаетпарные выравнивания

x: AC-GCGG-Cy: AC-GC-GAGz: GCCGC-GAG

Порождает:

x: ACGCGG-C;

y: ACGC-GAC;

x: AC-GCGG-C;

z: GCCGC-GAG;

y: AC-GCGAG

z: GCCGCGAG

Page 10: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Обратная проблема

Имея 3 субъективных парных варнивания:

x: ACGCGG-C;

y: ACGC-GAC;

x: AC-GCGG-C;

z: GCCGC-GAG;

y: AC-GCGAG

z: GCCGCGAG

Page 11: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Хороший вариант

Плохой вариант

Page 12: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Выравнивание выравниваний

x GGGCACTGCAT

y GGTTACGTC--

z GGGAACTGCAG

w GGACGTACC--

v GGACCT-----

Alignment 1

Alignment 2

Page 13: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Описание выравнивания

GTCTGAGTCAGC

GTC[TA]G[AC] - профиль

G[5X][6X]

x

y

z

w

v

GGGCACTGCAT

GGTTACGTC--

GGGAACTGCAG

GGACGTACC--

GGACCT-----

GGACACAGCAT - консенсус

Page 14: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Матрица частот – методы вычисления

1. Наивный метод

bk (i) = Ek (i)/ ∑j Ek(j)

2. Метод Лапласа

bk (i) = (Ek(i) +1) / (∑j Ek(j)+ N)

3. Метод Байеса

bk (i) = (Ek(i) +Aqi) / (∑j Ek(j)+ A)

4. Метод матриц замен

Ek(i) = A∑j fkj P(i→j)

5. Метод общего предка

bk (i) = ∑j Pk(i→j) P(predk=j | alignment)

Page 15: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Множественное выравнивание – жадныйалгоритм

u1= ACGTACGTACGT…

u2 = TTAATTAATTAA…

u3 = ACTACTACTACT…

u1= AC[GT]TAC[GT]TAC[GT]T…

u2 = TTAATTAATTAA…

…k-1

k

uk = CCGGCCGGCCGG

uk = CCGGCCGGCCGG…

Время работы алгоритма на k последовательностях длины n – O(n2k2)

Page 16: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Прогрессивное выравниваниеClustalW

• Прогрессивное выравнивание –жадный алгоритм с более «умным»способом выбора пар.

• Три шага

1.) Построить парные выравнивания

2.) Построить дерево-подсказку

3.) Прогрессивное выравнивание подереву-подсказке

Page 17: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Шаг 1: Парные Выравнивания

• Выравнивания пар порождают матрицу

identity

v1 v2 v3 v4

-

.17 -

.87 .28 -

.59 .33 .62 -

v1

v2

v3

v4

(.17 значит идентичны на 17 % )

Page 18: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Шаг 2: Дерево-подсказка

v1

v2

v3

v4

v1 v2 v3 v4

-

.17 -

.87 .28 -

.59 .33 .62 -

v1

v3

v4

v2

Далее вычислить:v1,3 = выравнивание (v1, v3)v1,3,4 = выравнивание ((v1,3),v4)v1,2,3,4 = выравнивание ((v1,3,4),v2)

Page 19: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Шаг 3: Прогрессивное выравнивание

• Выравниванием 2 наиболее близких

последовательности.

• Следуя дереву - подсказке,

довыравниваем следующую

последовательность к имеющемуся

выравниванию

FOS_RAT

FOS_MOUSE

FOS_CHICK

FOSB_MOUSE

FOSB_HUMAN

PEEMSVTS-LDLTGGLPEATTPESEEAFTLPLLNDPEPK-PSLEPVKNISNMELKAEPFD

PEEMSVAS-LDLTGGLPEASTPESEEAFTLPLLNDPEPK-PSLEPVKSISNVELKAEPFD

SEELAAATALDLG----APSPAAAEEAFALPLMTEAPPAVPPKEPSG--SGLELKAEPFD

PGPGPLAEVRDLPG-----STSAKEDGFGWLLPPPPPPP-----------------LPFQ

PGPGPLAEVRDLPG-----SAPAKEDGFSWLLPPPPPPP-----------------LPFQ

. . : ** . :.. *:.* * . * **:

Точки и звезды отображают насколько консервативны столбцы.

Page 20: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Множественные Выравнивания:Взвешивание

• Количество полных совпадений

• Сумма по парам (SP-Score)

• Энтропия

Page 21: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Количество полных совпадений

AAAAAAAATATC

Page 22: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Количество полных совпадений

AAAAAAAATATC

• Хорошо только для очень близких

последовательностей

Page 23: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Сумма по парам (SP-Score)

• Построим парное выравнивание помножественному

• Посчитаем веса всех этих парныхвыравниваний – s(ai, aj)

• Просуммируем: s(a1,…,ak) = Σi,j s (ai, aj)

Page 24: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили
Page 25: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили
Page 26: Алгоритмы в биоинформатике, осень 2015: Множественные выравнивания и профили

Энтропия: ПримерЭнтропия столбца:

-( pA logpA + pC logpC + pG logpG + pT logpT)

A A A

A C C

•Столбец 1 = -[1*log(1) + 0*log0 + 0*log0 +0*log0]=0

•Столбец 2 = -[(1/4)*log(1/4) + (3/4)*log(3/4) + 0*log0 + 0*log0]= -[ (1/4)*(-2) + (3/4)*(-.415) ] = +0.811

A C G

A C T

•Столбец 3 = -[(1/4)*log(1/4)+(1/4)*log(1/4)+(1/4)*log(1/4)+(1/4)*log(1/4)] = 4* -[(1/4)*(-2)] = +2.0

•Энтропия выравнивания = 0 + 0.811 + 2.0 = +2.811