Сборка генома: мифы и реальность. Доклад на пленарном...

Post on 26-Jun-2015

1.528 Views

Category:

Science

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Сборка генома: мифы и реальность

Царев Ф. Н., канд. техн. наук, доцент кафедры «Компьютерные технологии»

III Всероссийский конгресс молодых ученых

Санкт-Петербург, 08.04.2014

2

Зачем нужна биоинформатика?

2014 год

2030 год

10

Геном• Совокупность всей

наследственной информации организма

• Как правило – закодирован в молекуле ДНК (у некоторых вирусов – РНК)

• Двойная спираль• Четыре типа оснований:

– A – аденин– T – тимин– G – гуанин– C – цитозин

12

Размеры геномовТип Организм Размер генома Комментарий

VirusBacteriophage MS2

3,569 3.5kbПервый прочитанный РНК-геном

VirusPhage Φ-X174

5,386 5.4kbПервый прочитанный ДНК-геном

BacteriumEscherichia coli

4,600,000 4.6Mb

PlantArabidopsis thaliana

157,000,000 157Mb

Mammal Homo sapiens 3,200,000,000 3.2Gb

FishProtopterus aethiopicus

130,000,000,000 130GbСамый большой известный геном позвоночного

Plant Paris japonica 150,000,000,000 150GbСамый большой известный геном растения

С 1990 года по 2001 год3 000 000 000 «букв»

$3 000 000 000

Проект «Геном человека»

• Геном одного человека отличается от генома другого человека примерно в одном из 1000 символов

• Эти 0.1% отвечает за все различия между людьми

…CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTACCACATCGTAGCTACGATGCATTAGGATCGCGGGACTATTATCGACTACAGATAAAACATGCTAGTACAACAGTATACATAGCTGCGGGATACGATTAGCTAATAGCTGACGATATCCGA……CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTACAACATCGTAGCTACGATGCATTAGGATCGCGTGACTATTATCGACTACAGATGAAACATGCTAGTACAACAGTATACATAGCTGCGGGATACGATTAGCTAATAGCTGACGATATCCGA…

Геном человека

Чтение генома

Сборка генома

Анализ генома

На компьютере

17

Чтение и сборка геномаНесколько копий генома

18

Чтение и сборка геномаНесколько копий генома

Чтение

19

Чтение и сборка геномаНесколько копий генома

Чтения

Чтение

20

Чтение и сборка геномаНесколько копий генома

Чтения

Чтение

Сборка

21

Чтение и сборка геномаНесколько копий генома

Чтения

Собранный геном…GGCATGCGTCAGAAACTATCATAGCTAGATCGTACGTAGCC…

Чтение

Сборка

22

Чтение генома• Специальные

устройства - секвенаторы– Illumina– Life Technologies– Oxford Nanopore– Pacific Biotechnologies

23

Карта секвенаторовОбъем данным ~15PB/год

24

Взаимодействие биологов и

программистов

Сложная структура

генома

Очень большие объемы данных

Ошибки во входных данных

Сложность задачи сборки генома

Новые технологии секвенирования

Новые технологии сборки

Цель: один

геном за 1000$

Задача сборки генома

• Исходные данные – набор чтений

• Результат – геномная последовательность

• Проблема – не знаем из какой части генома прочитано каждое чтение

25

Объем данных

• Геном человека – 3 млрд. символов

• Покрытие чтениями – 40 раз• 120 Гб информации

Закон Мура – за 18 месяцев компьютеры

становятся в 2 раза быстрее

Секвенаторы – в 10 разРазработка алгоритмов сборки геномных последовательностей для вычислительных систем

экзафлопсного уровня производительности

28

Мифы о сборке генома

• Миф №1. Собрать геном – это просто• Миф №2. Есть понимание, что значит

«собрать геном»• Миф №3. Существующие программы

для сборки генома хорошо его собирают

29

Миф №1

Собрать геном – это просто

30

Кенигсбергские мосты

Эйлеров путь в графе

• Путь, который проходит по каждому ребру ровно один раз

• Существует способ быстро определить, есть ли в графе такой путь

31

Секвенирование с помощью ДНК-чипов

• С помощью чипа можно определить, содержит ли геном некоторую заданную подстроку

• Зафиксируем длину строки k

• Рассмотрим чип для всех 4k строк длины k

32

33

Граф де Брёйна

• Ориентированный граф• Вершины = строки

длины (k-1)• Ребра = строки длины k• Эйлеров путь в этом

графе соответствует геномной последовательности

34

Меньшее k

• AGCTAAGCTG• AGCT• GCTA• CTAA• TAAG• AAGC• AGCT• GCTG

35

Меньшее k

• GCTAAGCTG• Должно быть AGCTAAGCTG

• Проблема возникла из-за повторов!

36

Меньшее k

• Если знать точное число вхождений, то проблема исправлена

37

Миф №2

Есть понимание, что значит «собрать геном»

38

Математические модели сборки генома

• Наименьшая общая надстрока• Эйлеров путь в графе де Брейна• Кратчайший суперпуть в графе де Брейна• Суперпуть в графе де Брейна с кратностями• Путь в парном графе де Брейна

• Не учитывают ошибки секвенирования!

Наименьшая общая надстрока

Чтения генома: – AATGC– GCATA– CATAG

Искомая последовательность

AATGCATAG

Искомая последовательность

AATGCATAG

Искомая последовательность

AATGCATAG

Искомая последовательность

AATGCATAG

Проблема• В реальных геномов много повторяющихся

участков достаточно большой длины

AGCTAGCTATAGCT GCTA TAGC CTAT

TAGCTAT

Граф де Брёйна с кратностями

Чтения генома:– AGCT– GCTA– TAGC– CTAT

AGCT

AG GC

AGC

AGCT

GC CT

GCT

GCTA

GC CT

GCT

GCTA

CT TA

CTA

TAGC

TA AG

TAG

TAGC

AG GC

AGC

CTAT

CT TA

CTA

CTAT

TA AT

TAT

Кратчайший суперпуть в графе де Брёйна с кратностями

AG GC

CTTA

AT

2

1 22

1

AGCT

AG GC

CTTA

AT

2

1 22

1

GCTA

AG GC

CTTA

AT

2

1 22

1

TAGC

AG GC

CTTA

AT

2

1 22

1

CTAT

AG GC

CTTA

AT

2

1 22

1

AG GC

CTTA

AT

2

1 22

1

AG

AG GC

CTTA

AT

1

1 22

1

AGC

AG GC

CTTA

AT

1

1 12

1

AGCT

AG GC

CTTA

AT

1

1 11

1

AGCTA

AG GC

CTTA

AT

1

0 11

1

AGCTAG

AG GC

CTTA

AT

0

0 11

1

AGCTAGC

AG GC

CTTA

AT

0

0 01

1

AGCTAGCT

AG GC

CTTA

AT

0

0 00

1

AGCTAGCTA

AG GC

CTTA

AT

0

0 00

0

AGCTAGCTAT

68

Сложность сборки генома для различных моделей

• Наименьшая общая надстрока – NP-трудная (Gallant et al., 1980)

• Эйлеров путь в графе де Брейна – решается за время, пропорциональное размеру входных данных (Pevzner et al., 1989)

• Суперпуть в графе де Брейна – NP-трудная (Medvedev et al., 2007)

• Суперпуть в графе де Брейна с кратностями – NP-трудная (Kapun and Tsarev, 2013)

• Путь в парном графе де Брейна – NP-трудная (Kapun and Tsarev, 2013)

69

NP-трудность задачи сборки генома на графе де Брёйна с кратностями

• Открытая задача с 2009 года• Результаты работы представлены на

конференции RECOMB-Seq 2013 и опубликованы в журнале BMC Bioinformatics

70

NP-трудность задачи сборки генома на парном графе де Брёйна

• Открытая задача с 2011 года• Результаты работы представлены на

семинаре WABI в рамках конференции ALGO 2013

71

Миф №3

Существующие программы для сборки

генома хорошо его собирают

72

Как работают сборщики геномов?

• Основаны на эвристических или приближенных алгоритмах

• Собирают не целую геномную последовательность, а контиги и скэффолды

• Распространенные метрики сборки генома мало связаны с качеством сборки

73

Контиги

• Непрерывная последовательность, которая с большой долей уверенности является частью геномной последовательности

Contig

Скэффолд

• Скэффолд – последовательность контигов, для которых известен их относительный порядок и расстояния между ними

ContigContig Contig

Scaffold

74

75

Метрики сборки генома

• Длина кратчайшего контига/скэффолда

• Длина наибольшего контига/скэффолда

• Средняя длина контига/скэффолда

76

Метрики сборки генома

• N50/N90 – наибольшая длина контига такая, что в контигах не меньшей длины содержится 50/90% суммарной длины контигов

• NG50/N90 – наибольшая длина контига такая, что в контигах не меньшей длины содержится 50/90% суммарной длины генома

• Аналогично – для скэффолдов

77

Пример• Длина контигов: 5, 7, 10, 15, 22, 24, 30, 45

• Длина кратчайшего – 5• Длина наибольшего – 45• Средняя длина – (5 + 7 + 10 + 15 +

122+ 24 + 30 + 45) / 8 = 19.75

78

Пример• N50 = 24, так как

– 30 + 45 = 75 < 50% от 158– 24 + 30 + 45 = 99 > 50% от 158

• Если длина генома 100, то NG50 = 30

• Если длина генома 200, то NG50 = 22

79

Что же делать?

• Сравнительные исследования работы сборщиков на известных геномах

• Новые метрики, которые оценивают насколько результат сборки соответствует чтениям, которые были на входе

80

Выводы• Есть разрыв между теорией и

практикой сборки генома• У задачи сборки генома нет

универсального решения• Необходимы новые

математические модели, алгоритмы сборки генома и метрики качества

81

Благодарности

• Научный руководитель, зав. каф. ТП, докт. техн. наук, проф. А. А. Шалыто

• Декан факультета ИТиП, докт. техн. наук, проф. В. Г. Парфенов

• Ректор НИУ ИТМО, докт. техн. наук, проф., чл.-корр. РАН В. Н. Васильев

82

Благодарности

• Директор центра «Биоинженерия» РАН академик РАН К. Г. Скрябин

• Зав. лаб. геномики и эпигеномики позвоночных Центра «Биоинженерия» РАН, докт. биол. наук Е. Б. Прохорчук

83

Благодарности

• Сотрудники лаборатории «Алгоритмы сборки геномных последовательностей»:– Евгений Капун– Алексей Сергушичев– Антон Александров– Сергей Казаков– Павел Федотов– Антон Ахи– Сергей Мельников

• Сотрудники МНЛ «Компьютерные технологии»

84

Сотрудничество с Washington University St. Louis

• Системная биология и биоинформатика• Объединение нескольких видов

биологических данных для анализа одного и того же процесса в клетке

85

Email: fedor.tsarev@gmail.com Twitter: @fedortsarev

Web: http://genome.ifmo.ru

Спасибо за внимание!

Сборка генома: мифы и реальность

Царев Ф. Н., канд. техн. наук, доцент кафедры «Компьютерные технологии»

III Всероссийский конгресс молодых ученых

Санкт-Петербург, 08.04.2014

top related