3 встреча — Биоинформатика (продолжение) (А. Фединцев)
DESCRIPTION
3 встреча Smolensk Computer Science Club Презентация Александра Фединцева про биоинформатику (продолжение) ВКонтакте: http://vk.com/scsc3 Видео: https://www.youtube.com/watch?v=sSr3zhFzUgIv=b3TZEeeIQ1cTRANSCRIPT
Операции преобразования строк
Подстановка kill bill
Вставка kill skill
Удаление fear ear
1. Расстояние Хэмминга (подстановка)
dH(GCAT,CGAT) = 2
2. Расстояние Левенштейна (удаление, вставка, подстановка) dE(CGACG, GTCGA) = 3
Рекуррентная формула для расстояния Левенштейна
Подсчет расстояния Левенштейна
“ T E S T
“
S
E
T
i
j
“ T E S T
“ 0
S
E
T
Подсчет расстояния Левенштейна
0
0
“ T E S T
“ 0
S 1
E
T
Подсчет расстояния Левенштейна
Подсчет расстояния Левенштейна
“ T E S T
“ 0
S 1
E 2
T
Подсчет расстояния Левенштейна
“ T E S T
“ 0
S 1
E 2
T 3
Подсчет расстояния Левенштейна
“ T E S T
“ 0 1 2 3 4
S 1
E 2
T 3
Подсчет расстояния Левенштейна
“ T E S T
“ 0 1 2 3 4
S 1 1
E 2
T 3
Восстановление редакционного предписания
1) вертикальный переход — удаление символа из s1;
2) горизонтальный переход — вставка символа из s2 в s1;
3) диагональный переход — совпадение или замена.
Подсчет расстояния Левенштейна
“ T E S T
“ 0 1 2 3 4
S 1 1 2 2 3
E 2 2 1 2 3
T 3 2 2 2 2
Алгоритм в виде, описанном выше, требует O(n*m) операций и такую же память. Последнее может быть неприятным: так, для сравнения файлов длиной в 10^5 строк потребуется около 40 гигабайт памяти.
Если требуется только расстояние, легко уменьшить требуемую память до O(min(n, m)) . Для этого надо учесть, что после вычисления любой строки предыдущая строка больше не нужна.
Взвешенный редакционный граф
Цели выравнивания двух последовательностей:
- соизмерить их сходство и установить соответствие между остатками;
- отметить консервативные и вариабельные участки;
- высказать соображения об эволюционных взаимосвязях.
Схожие трехмерные структуры белков
Вставка в «синей» последовательности
Типы выравнивания
- Локальное – поиск фрагментов наиболее похожих друг на друга
домовой домовой домовойскупидом водомерка водомерка
- Глобальное – сравнение последовательностей целиком: каждый нуклеотид (аминокислота) находит себе пару
лесовоз ---лесо---воз ледоход лед---оход---
Рекуррентная формула алгоритма Нидлмана-Вунша
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1
R -2
T -3
T -4
E -5
I -6
N -7
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2
T -3
T -4
E -5
I -6
N -7
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3
T -4
E -5
I -6
N -7
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4
E -5
I -6
N -7
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5
I -6
N -7
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -3
I -6
N -7
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7 -6 -5 -4 -4 -4 -4
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7 -6 -5 -4 -4 -4 -4
NY
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7 -6 -5 -4 -4 -4 -4
INTY
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7 -6 -5 -4 -4 -4 -4
EIN-TY
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7 -6 -5 -4 -4 -4 -4
TEINT-TY
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7 -6 -5 -4 -4 -4 -4
TTEINET-TY
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7 -6 -5 -4 -4 -4 -4
RTTEINRET-TY
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7 -6 -5 -4 -4 -4 -4
PRTTEINPRET-TY
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7 -6 -5 -4 -4 -4 -4
Все замены аминокислот не являются равновероятными и в ходе эволюции чаще происходят замены на сходные по физико-химическим свойствам аминокислоты!!!
Так в ходе эволюции гидрофобный изолейцин достаточно часто заменяется на гидрофобный валин и редко на гидрофильный цистеин. Исследования эволюционных изменений различных белковых семейств позволили установить частоты фиксированных мутаций аминокислот и нуклеотидов и обобщить полученную информацию в виде матриц. В настоящее время используются серии белковых матриц Blosum и PAM.
Матрица РАМ 250
Матрица Blosum 45
Отличия матриц
Основными отличиями матриц РАМ и Blosum являются: 1) использование матрицами РАМ простой эволюционной модели (подсчет замен на ветвях филогенетического древа); 2) матрицы РАМ основаны на учете мутаций по принципу глобального выравнивания (в высококонсервативных и высокомутабельных участках), а матрицы Blosum – локального (только высококонсервативных участков); 3) для матриц РАМ замены в группах последовательностей подсчитываются сходным образом.