3 встреча — Биоинформатика (продолжение) (А. Фединцев)

38
Операции преобразования строк Подстановка kill bill Вставка kill skill Удаление fear ear

Upload: smolensk-computer-science-club

Post on 16-Jun-2015

260 views

Category:

Technology


0 download

DESCRIPTION

3 встреча Smolensk Computer Science Club Презентация Александра Фединцева про биоинформатику (продолжение) ВКонтакте: http://vk.com/scsc3 Видео: https://www.youtube.com/watch?v=sSr3zhFzUgIv=b3TZEeeIQ1c

TRANSCRIPT

Page 1: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Операции преобразования строк

Подстановка kill bill

Вставка kill skill

Удаление fear ear

Page 2: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

1. Расстояние Хэмминга (подстановка)

dH(GCAT,CGAT) = 2

2. Расстояние Левенштейна (удаление, вставка, подстановка) dE(CGACG, GTCGA) = 3

Page 3: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Рекуррентная формула для расстояния Левенштейна

Page 4: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Подсчет расстояния Левенштейна

“ T E S T

S

E

T

i

j

Page 5: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

“ T E S T

“ 0

S

E

T

Подсчет расстояния Левенштейна

0

0

Page 6: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

“ T E S T

“ 0

S 1

E

T

Подсчет расстояния Левенштейна

Page 7: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Подсчет расстояния Левенштейна

“ T E S T

“ 0

S 1

E 2

T

Page 8: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Подсчет расстояния Левенштейна

“ T E S T

“ 0

S 1

E 2

T 3

Page 9: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Подсчет расстояния Левенштейна

“ T E S T

“ 0 1 2 3 4

S 1

E 2

T 3

Page 10: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Подсчет расстояния Левенштейна

“ T E S T

“ 0 1 2 3 4

S 1 1

E 2

T 3

Page 11: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Восстановление редакционного предписания

1) вертикальный переход — удаление символа из s1;

2) горизонтальный переход — вставка символа из s2 в s1;

3) диагональный переход — совпадение или замена.

Page 12: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Подсчет расстояния Левенштейна

“ T E S T

“ 0 1 2 3 4

S 1 1 2 2 3

E 2 2 1 2 3

T 3 2 2 2 2

Page 13: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Алгоритм в виде, описанном выше, требует O(n*m) операций и такую же память. Последнее может быть неприятным: так, для сравнения файлов длиной в 10^5 строк потребуется около 40 гигабайт памяти.

Если требуется только расстояние, легко уменьшить требуемую память до O(min(n, m)) . Для этого надо учесть, что после вычисления любой строки предыдущая строка больше не нужна.

Page 14: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Взвешенный редакционный граф

Page 15: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Цели выравнивания двух последовательностей:

- соизмерить их сходство и установить соответствие между остатками;

- отметить консервативные и вариабельные участки;

- высказать соображения об эволюционных взаимосвязях.

Page 16: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Схожие трехмерные структуры белков

Вставка в «синей» последовательности

Page 17: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Типы выравнивания

- Локальное – поиск фрагментов наиболее похожих друг на друга

домовой домовой домовойскупидом водомерка водомерка

- Глобальное – сравнение последовательностей целиком: каждый нуклеотид (аминокислота) находит себе пару

лесовоз ---лесо---воз ледоход лед---оход---

Page 18: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Рекуррентная формула алгоритма Нидлмана-Вунша

Page 19: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1

R -2

T -3

T -4

E -5

I -6

N -7

Page 20: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2

T -3

T -4

E -5

I -6

N -7

Page 21: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3

T -4

E -5

I -6

N -7

Page 22: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4

E -5

I -6

N -7

Page 23: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5

I -6

N -7

Page 24: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -3

I -6

N -7

Page 25: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7

Page 26: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7 -6 -5 -4 -4 -4 -4

Page 27: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7 -6 -5 -4 -4 -4 -4

Page 28: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

NY

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7 -6 -5 -4 -4 -4 -4

Page 29: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

INTY

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7 -6 -5 -4 -4 -4 -4

Page 30: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

EIN-TY

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7 -6 -5 -4 -4 -4 -4

Page 31: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

TEINT-TY

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7 -6 -5 -4 -4 -4 -4

Page 32: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

TTEINET-TY

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7 -6 -5 -4 -4 -4 -4

Page 33: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

RTTEINRET-TY

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7 -6 -5 -4 -4 -4 -4

Page 34: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

PRTTEINPRET-TY

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7 -6 -5 -4 -4 -4 -4

Page 35: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Все замены аминокислот не являются равновероятными и в ходе эволюции чаще происходят замены на сходные по физико-химическим свойствам аминокислоты!!!

Так в ходе эволюции гидрофобный изолейцин достаточно часто заменяется на гидрофобный валин и редко на гидрофильный цистеин. Исследования эволюционных изменений различных белковых семейств позволили установить частоты фиксированных мутаций аминокислот и нуклеотидов и обобщить полученную информацию в виде матриц. В настоящее время используются серии белковых матриц Blosum и PAM.

Page 36: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Матрица РАМ 250

Page 37: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Матрица Blosum 45

Page 38: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Отличия матриц

Основными отличиями матриц РАМ и Blosum являются: 1) использование матрицами РАМ простой эволюционной модели (подсчет замен на ветвях филогенетического древа); 2) матрицы РАМ основаны на учете мутаций по принципу глобального выравнивания (в высококонсервативных и высокомутабельных участках), а матрицы Blosum – локального (только высококонсервативных участков); 3) для матриц РАМ замены в группах последовательностей подсчитываются сходным образом.