Сборка генома: мифы и реальность. Доклад на пленарном...

86
Сборка генома: мифы и реальность Царев Ф. Н., канд. техн. наук, доцент кафедры «Компьютерные технологии» III Всероссийский конгресс молодых ученых Санкт-Петербург, 08.04.2014

Upload: fedor-tsarev

Post on 26-Jun-2015

1.528 views

Category:

Science


3 download

TRANSCRIPT

Page 1: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

Сборка генома: мифы и реальность

Царев Ф. Н., канд. техн. наук, доцент кафедры «Компьютерные технологии»

III Всероссийский конгресс молодых ученых

Санкт-Петербург, 08.04.2014

Page 2: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

2

Зачем нужна биоинформатика?

Page 3: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

2014 год

Page 4: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых
Page 5: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых
Page 6: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых
Page 7: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

2030 год

Page 8: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых
Page 9: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых
Page 10: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

10

Геном• Совокупность всей

наследственной информации организма

• Как правило – закодирован в молекуле ДНК (у некоторых вирусов – РНК)

• Двойная спираль• Четыре типа оснований:

– A – аденин– T – тимин– G – гуанин– C – цитозин

Page 11: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых
Page 12: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

12

Размеры геномовТип Организм Размер генома Комментарий

VirusBacteriophage MS2

3,569 3.5kbПервый прочитанный РНК-геном

VirusPhage Φ-X174

5,386 5.4kbПервый прочитанный ДНК-геном

BacteriumEscherichia coli

4,600,000 4.6Mb

PlantArabidopsis thaliana

157,000,000 157Mb

Mammal Homo sapiens 3,200,000,000 3.2Gb

FishProtopterus aethiopicus

130,000,000,000 130GbСамый большой известный геном позвоночного

Plant Paris japonica 150,000,000,000 150GbСамый большой известный геном растения

Page 13: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

С 1990 года по 2001 год3 000 000 000 «букв»

$3 000 000 000

Проект «Геном человека»

Page 14: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых
Page 15: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

• Геном одного человека отличается от генома другого человека примерно в одном из 1000 символов

• Эти 0.1% отвечает за все различия между людьми

…CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTACCACATCGTAGCTACGATGCATTAGGATCGCGGGACTATTATCGACTACAGATAAAACATGCTAGTACAACAGTATACATAGCTGCGGGATACGATTAGCTAATAGCTGACGATATCCGA……CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTACAACATCGTAGCTACGATGCATTAGGATCGCGTGACTATTATCGACTACAGATGAAACATGCTAGTACAACAGTATACATAGCTGCGGGATACGATTAGCTAATAGCTGACGATATCCGA…

Геном человека

Page 16: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

Чтение генома

Сборка генома

Анализ генома

На компьютере

Page 17: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

17

Чтение и сборка геномаНесколько копий генома

Page 18: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

18

Чтение и сборка геномаНесколько копий генома

Чтение

Page 19: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

19

Чтение и сборка геномаНесколько копий генома

Чтения

Чтение

Page 20: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

20

Чтение и сборка геномаНесколько копий генома

Чтения

Чтение

Сборка

Page 21: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

21

Чтение и сборка геномаНесколько копий генома

Чтения

Собранный геном…GGCATGCGTCAGAAACTATCATAGCTAGATCGTACGTAGCC…

Чтение

Сборка

Page 22: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

22

Чтение генома• Специальные

устройства - секвенаторы– Illumina– Life Technologies– Oxford Nanopore– Pacific Biotechnologies

Page 23: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

23

Карта секвенаторовОбъем данным ~15PB/год

Page 24: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

24

Взаимодействие биологов и

программистов

Сложная структура

генома

Очень большие объемы данных

Ошибки во входных данных

Сложность задачи сборки генома

Новые технологии секвенирования

Новые технологии сборки

Цель: один

геном за 1000$

Page 25: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

Задача сборки генома

• Исходные данные – набор чтений

• Результат – геномная последовательность

• Проблема – не знаем из какой части генома прочитано каждое чтение

25

Page 26: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

Объем данных

• Геном человека – 3 млрд. символов

• Покрытие чтениями – 40 раз• 120 Гб информации

Page 27: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

Закон Мура – за 18 месяцев компьютеры

становятся в 2 раза быстрее

Секвенаторы – в 10 разРазработка алгоритмов сборки геномных последовательностей для вычислительных систем

экзафлопсного уровня производительности

Page 28: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

28

Мифы о сборке генома

• Миф №1. Собрать геном – это просто• Миф №2. Есть понимание, что значит

«собрать геном»• Миф №3. Существующие программы

для сборки генома хорошо его собирают

Page 29: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

29

Миф №1

Собрать геном – это просто

Page 30: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

30

Кенигсбергские мосты

Page 31: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

Эйлеров путь в графе

• Путь, который проходит по каждому ребру ровно один раз

• Существует способ быстро определить, есть ли в графе такой путь

31

Page 32: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

Секвенирование с помощью ДНК-чипов

• С помощью чипа можно определить, содержит ли геном некоторую заданную подстроку

• Зафиксируем длину строки k

• Рассмотрим чип для всех 4k строк длины k

32

Page 33: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

33

Граф де Брёйна

• Ориентированный граф• Вершины = строки

длины (k-1)• Ребра = строки длины k• Эйлеров путь в этом

графе соответствует геномной последовательности

Page 34: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

34

Меньшее k

• AGCTAAGCTG• AGCT• GCTA• CTAA• TAAG• AAGC• AGCT• GCTG

Page 35: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

35

Меньшее k

• GCTAAGCTG• Должно быть AGCTAAGCTG

• Проблема возникла из-за повторов!

Page 36: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

36

Меньшее k

• Если знать точное число вхождений, то проблема исправлена

Page 37: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

37

Миф №2

Есть понимание, что значит «собрать геном»

Page 38: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

38

Математические модели сборки генома

• Наименьшая общая надстрока• Эйлеров путь в графе де Брейна• Кратчайший суперпуть в графе де Брейна• Суперпуть в графе де Брейна с кратностями• Путь в парном графе де Брейна

• Не учитывают ошибки секвенирования!

Page 39: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

Наименьшая общая надстрока

Чтения генома: – AATGC– GCATA– CATAG

Page 40: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

Искомая последовательность

AATGCATAG

Page 41: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

Искомая последовательность

AATGCATAG

Page 42: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

Искомая последовательность

AATGCATAG

Page 43: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

Искомая последовательность

AATGCATAG

Page 44: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

Проблема• В реальных геномов много повторяющихся

участков достаточно большой длины

AGCTAGCTATAGCT GCTA TAGC CTAT

TAGCTAT

Page 45: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

Граф де Брёйна с кратностями

Чтения генома:– AGCT– GCTA– TAGC– CTAT

Page 46: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

AGCT

AG GC

AGC

Page 47: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

AGCT

GC CT

GCT

Page 48: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

GCTA

GC CT

GCT

Page 49: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

GCTA

CT TA

CTA

Page 50: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

TAGC

TA AG

TAG

Page 51: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

TAGC

AG GC

AGC

Page 52: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

CTAT

CT TA

CTA

Page 53: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

CTAT

TA AT

TAT

Page 54: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

Кратчайший суперпуть в графе де Брёйна с кратностями

AG GC

CTTA

AT

2

1 22

1

Page 55: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

AGCT

AG GC

CTTA

AT

2

1 22

1

Page 56: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

GCTA

AG GC

CTTA

AT

2

1 22

1

Page 57: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

TAGC

AG GC

CTTA

AT

2

1 22

1

Page 58: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

CTAT

AG GC

CTTA

AT

2

1 22

1

Page 59: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

AG GC

CTTA

AT

2

1 22

1

AG

Page 60: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

AG GC

CTTA

AT

1

1 22

1

AGC

Page 61: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

AG GC

CTTA

AT

1

1 12

1

AGCT

Page 62: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

AG GC

CTTA

AT

1

1 11

1

AGCTA

Page 63: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

AG GC

CTTA

AT

1

0 11

1

AGCTAG

Page 64: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

AG GC

CTTA

AT

0

0 11

1

AGCTAGC

Page 65: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

AG GC

CTTA

AT

0

0 01

1

AGCTAGCT

Page 66: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

AG GC

CTTA

AT

0

0 00

1

AGCTAGCTA

Page 67: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

AG GC

CTTA

AT

0

0 00

0

AGCTAGCTAT

Page 68: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

68

Сложность сборки генома для различных моделей

• Наименьшая общая надстрока – NP-трудная (Gallant et al., 1980)

• Эйлеров путь в графе де Брейна – решается за время, пропорциональное размеру входных данных (Pevzner et al., 1989)

• Суперпуть в графе де Брейна – NP-трудная (Medvedev et al., 2007)

• Суперпуть в графе де Брейна с кратностями – NP-трудная (Kapun and Tsarev, 2013)

• Путь в парном графе де Брейна – NP-трудная (Kapun and Tsarev, 2013)

Page 69: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

69

NP-трудность задачи сборки генома на графе де Брёйна с кратностями

• Открытая задача с 2009 года• Результаты работы представлены на

конференции RECOMB-Seq 2013 и опубликованы в журнале BMC Bioinformatics

Page 70: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

70

NP-трудность задачи сборки генома на парном графе де Брёйна

• Открытая задача с 2011 года• Результаты работы представлены на

семинаре WABI в рамках конференции ALGO 2013

Page 71: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

71

Миф №3

Существующие программы для сборки

генома хорошо его собирают

Page 72: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

72

Как работают сборщики геномов?

• Основаны на эвристических или приближенных алгоритмах

• Собирают не целую геномную последовательность, а контиги и скэффолды

• Распространенные метрики сборки генома мало связаны с качеством сборки

Page 73: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

73

Контиги

• Непрерывная последовательность, которая с большой долей уверенности является частью геномной последовательности

Contig

Page 74: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

Скэффолд

• Скэффолд – последовательность контигов, для которых известен их относительный порядок и расстояния между ними

ContigContig Contig

Scaffold

74

Page 75: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

75

Метрики сборки генома

• Длина кратчайшего контига/скэффолда

• Длина наибольшего контига/скэффолда

• Средняя длина контига/скэффолда

Page 76: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

76

Метрики сборки генома

• N50/N90 – наибольшая длина контига такая, что в контигах не меньшей длины содержится 50/90% суммарной длины контигов

• NG50/N90 – наибольшая длина контига такая, что в контигах не меньшей длины содержится 50/90% суммарной длины генома

• Аналогично – для скэффолдов

Page 77: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

77

Пример• Длина контигов: 5, 7, 10, 15, 22, 24, 30, 45

• Длина кратчайшего – 5• Длина наибольшего – 45• Средняя длина – (5 + 7 + 10 + 15 +

122+ 24 + 30 + 45) / 8 = 19.75

Page 78: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

78

Пример• N50 = 24, так как

– 30 + 45 = 75 < 50% от 158– 24 + 30 + 45 = 99 > 50% от 158

• Если длина генома 100, то NG50 = 30

• Если длина генома 200, то NG50 = 22

Page 79: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

79

Что же делать?

• Сравнительные исследования работы сборщиков на известных геномах

• Новые метрики, которые оценивают насколько результат сборки соответствует чтениям, которые были на входе

Page 80: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

80

Выводы• Есть разрыв между теорией и

практикой сборки генома• У задачи сборки генома нет

универсального решения• Необходимы новые

математические модели, алгоритмы сборки генома и метрики качества

Page 81: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

81

Благодарности

• Научный руководитель, зав. каф. ТП, докт. техн. наук, проф. А. А. Шалыто

• Декан факультета ИТиП, докт. техн. наук, проф. В. Г. Парфенов

• Ректор НИУ ИТМО, докт. техн. наук, проф., чл.-корр. РАН В. Н. Васильев

Page 82: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

82

Благодарности

• Директор центра «Биоинженерия» РАН академик РАН К. Г. Скрябин

• Зав. лаб. геномики и эпигеномики позвоночных Центра «Биоинженерия» РАН, докт. биол. наук Е. Б. Прохорчук

Page 83: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

83

Благодарности

• Сотрудники лаборатории «Алгоритмы сборки геномных последовательностей»:– Евгений Капун– Алексей Сергушичев– Антон Александров– Сергей Казаков– Павел Федотов– Антон Ахи– Сергей Мельников

• Сотрудники МНЛ «Компьютерные технологии»

Page 84: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

84

Сотрудничество с Washington University St. Louis

• Системная биология и биоинформатика• Объединение нескольких видов

биологических данных для анализа одного и того же процесса в клетке

Page 85: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

85

Email: [email protected] Twitter: @fedortsarev

Web: http://genome.ifmo.ru

Спасибо за внимание!

Page 86: Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых

Сборка генома: мифы и реальность

Царев Ф. Н., канд. техн. наук, доцент кафедры «Компьютерные технологии»

III Всероссийский конгресс молодых ученых

Санкт-Петербург, 08.04.2014