Обзор математических задач сравнительной геномики

32
Обзор математических задач сравнительной геномики Адигеев М.Г. Ростов-на-Дону, 2010

Upload: dennis-holt

Post on 30-Dec-2015

60 views

Category:

Documents


1 download

DESCRIPTION

Обзор математических задач сравнительной геномики. Адигеев М.Г. Ростов-на-Дону, 2010. План доклада. Основные понятия: гены, хромосомы, геном. Выравнивание хромосом Другие метрики Медиана Филогенетический анализ. Основные понятия. Геном = совокупность хромосом . - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Обзор  математических задач сравнительной  геномики

Обзор математических задач сравнительной

геномики

Адигеев М.Г.Ростов-на-Дону, 2010

Page 2: Обзор  математических задач сравнительной  геномики

План доклада

OОсновные понятия: гены, хромосомы, геном.

OВыравнивание хромосомOДругие метрикиOМедианаOФилогенетический анализ

2

Page 3: Обзор  математических задач сравнительной  геномики

Основные понятияO Геном = совокупность хромосом.O Каждая хромосома =

последовательность нуклеотидов. Хромосома может быть линейной (linear) или кольцевой (circular).

O Отдельные участки нуклеотидной последовательности образуют гены.

O В математических моделях хромосомы представляются в виде цепочек либо нуклеотидов, либо сразу генов — в зависимости от стоящей задачи.

3

Page 4: Обзор  математических задач сравнительной  геномики

Выравнивание последовательностей

O Рассматриваются преобразования, действующие на отдельные нуклеотиды и участки хромосомы

O Надо: сопоставить последовательности друг с другом таким образом, чтобы были по максимуму сопоставлены одинаковые участки

4

Page 5: Обзор  математических задач сравнительной  геномики

Выравнивание последовательностей

A G A C T A G T T A CC G A – – – G A C A C

5

Page 6: Обзор  математических задач сравнительной  геномики

Алгоритмы выравнивания

6

O Точечная матрица (dot matrix)

Page 7: Обзор  математических задач сравнительной  геномики

Алгоритмы выравнивания

7

O Алгоритм Нидлмана-Вунша (глобальное выравнивание)

O Алгоритм Смита-Уотермана (локальное выравнивание)

Матрица замещений:+ штраф за разрыв

Page 8: Обзор  математических задач сравнительной  геномики

Другие метрики

8

Хромосома – последовательность генов.Можно представить перестановкой:

Но есть несколько важных «но»…

Или в виде графа:

Page 9: Обзор  математических задач сравнительной  геномики

Но № 1

9

У хромосомы нет различия между началом и концом.

Page 10: Обзор  математических задач сравнительной  геномики

Но № 2

10

Бывают циклические (закольцованные) хромосомы

Page 11: Обзор  математических задач сравнительной  геномики

Но № 3

11

Надо учитывать ориентацию каждого гена в последовательности

Поэтому рассматривают перестановки элементов со знаками

Page 12: Обзор  математических задач сравнительной  геномики

Breakpoint distance

12

Разрыв (точка разрыва, breakpoint) - ситуация, когда в одной из хромосом гены g и h расположены рядом (смежны, adjacent), а другая хромосома не содержит ни gh, ни –h–g.

«Разрывная» метрика = количество таких разрывов.

Page 13: Обзор  математических задач сравнительной  геномики

Transposition distance

13

Транспозиция —перенос фрагмента хромосомы в том же порядке в другое место хромосомы.

Транпозиционная метрика = (минимальное) количество транспозиций, преобразующих один геном в другой.

Page 14: Обзор  математических задач сравнительной  геномики

Медиана геномов

14

O A и B – два генома, для которых мы хотим найти общего предполагаемого предка

O Принцип экономии (parsimony principle)

O Выберем метрику. Пусть d(X,Y) – расстояние между геномами X и Y

O d(A, X) + d(B,X) min

O Вводим «внешний» геном (outgroup) C

Page 15: Обзор  математических задач сравнительной  геномики

Медиана геномов

15

d(A, X) + d(B,X)+ d(C,X) min

Page 16: Обзор  математических задач сравнительной  геномики

Алгоритмы нахождения медианы

16

O Структура алгоритма и его сложность зависит от используемой метрики и вида генома: Одна или несколько хромосом Вид хромосом: линейные, кольцевые,

смешанныеO Для большинства вариантов задача

является NP-трудной

Page 17: Обзор  математических задач сравнительной  геномики

Алгоритмы нахождения медианы

17

Page 18: Обзор  математических задач сравнительной  геномики

Алгоритмы нахождения медианы

18

Алгоритмы основаны на сведении к другим задачам:O Задача коммивояжёра

При решении с помощью ДП: O(n22n)O Задача целочисленного

программированияСложность: O(2n)

O Задача о максимальном паросочетании.Сложность: O(n3)

Page 19: Обзор  математических задач сравнительной  геномики

Пример

19

O Метрика: разрывная (breakpoint distance)

O Тип генома: мультихромосомныйO Тип хромосомы: смешаннаяO Пусть Г — множество всех генов из

заданных геномов.

Page 20: Обзор  математических задач сравнительной  геномики

Пример

20

O Построим граф G, у которого вершины гены и их инверсии: g, –g.

O Все вершины соединены рёбрами, и вес ребра (g, h) равен 3–u(g, h), где u(g, h) показывает, в скольких геномах (A, B, C) гены –g и h смежны.

O Для каждого гена g вводим ребро (g, –g) с весом Z.

Page 21: Обзор  математических задач сравнительной  геномики

Задача коммивояжера

21

Page 22: Обзор  математических задач сравнительной  геномики

Пример

22

O Решаем задачу коммивояжёраO Получаем решение вида

g1, -g1, g2, -g2,…,gn,-gn.O В этом случае медиана задаётся

последовательностью g1,g2,…gn.

Page 23: Обзор  математических задач сравнительной  геномики

Пример

23

Page 24: Обзор  математических задач сравнительной  геномики

Пример

24

Исключение:O Разрывная метрикаO Мультихромосомный геномO Смешанные или чисто линеные

хромосомы

Существует полиномиальный алгоритм (сведение к задаче о максимальном паросочетании)

Page 25: Обзор  математических задач сравнительной  геномики

Филогенетическое дерево

25

O Обобщение задачи о медиане: ищем не одного предка, а множество предполагаемых предков (видов).

O Строим дерево родственных связей – филогенетическое дерево

Page 26: Обзор  математических задач сравнительной  геномики

Филогенетическое дерево

26

Математическая формулировка:O Даны геномы G1, G2,…,Gn.O Построить дерево:

G1, G2,…,Gn – листья Внутренние вершины – надо найти

O Минимизировать суммарный вес дерева

O Можно ограничиться вариантом: у всех внутренних вершин степень = 3

Page 27: Обзор  математических задач сравнительной  геномики

Филогенетическое дерево

27

Page 28: Обзор  математических задач сравнительной  геномики

Филогенетическое дерево

28

Два варианта:O Малая филогенетическая задача:

Дерево известноНадо найти геномы для внутренних вершин

O Большая филогенетическая задача: Дерево тоже не известноСводится к задаче о дереве Штейнера

Page 29: Обзор  математических задач сравнительной  геномики

Способы решения

29

O Перебор всех вариантов и выбор наилучшего

Факт: в уже заполненном филогенетическом дереве геном, которым помечена внутренняя вершина, является медианой относительно соседних вершин

Поэтому порядок решения МФЗ такой:1. Инициализируем внутренние вершины.2. Решаем задачи о медианах от листьев к «корню».3. Если геномы изменились – повторяем п.2.

Page 30: Обзор  математических задач сравнительной  геномики

Способы решения

30

O Сразу строить решение (дерево и геномы)

Пока есть только эвристические алгоритмы…Например: построить граф разрывов (breakpoint graph) и с помощью набора преобразований построить для него дерево, близкое к оптимальному.

Page 31: Обзор  математических задач сравнительной  геномики

Способы решения

31

Page 32: Обзор  математических задач сравнительной  геномики

Основные источникиO Fertin G, Labarre A, Rusu I, Tannier E, Vialette S:

Combinatorics of Genome Rearrangements. MIT Press; 2009.

O Mount D.W. Bioinformatics. Sequence and genome analysis. Spring Harbor Press, May 2002.

O Blanchette M., Bourque G., Sankoff D. Breakpoint Phylogenies. [10.1.1.84.6956.pdf]

O Tannier E., Zheng C., Sankoff D. Multichromosomal median and halving problems under different genomic distances. [1471-2105-10-120.pdf]

O Sankoff D., El-Mabrouk N. Genome Rearrangement. [jiangbook.pdf]

O Niklas Eriksen Combinatorics of Genome Rearrangements and Phylogeny. [lic.pdf]

O Jason D. Bakos, Panormitis E. Elenis, A Special-Purpose Architecture for Solving the Breakpoint Median Problem. IEEE Trans. On Very Large Scale Integration (VLSI) SYSTEMS, Vol. 16, No. 12, December 2008.

32