Опыт применения данных секвенирования на платформе...

13
Опыт применения данных секвенирования на платформе Illumina секвенирования на платформе Illumina в генетике растений М.Д. Логачева, Московский государственный университет им. М.В. Ломоносова, НИИ ФХБ имени А.Н. Белозерского

Upload: ilya-klabukov

Post on 29-Jun-2015

652 views

Category:

Documents


5 download

DESCRIPTION

М.Д. Логачева,Московский государственный университет им. М.В.Ломоносова, НИИ ФХБ имени А.Н. Белозерского

TRANSCRIPT

Page 1: Опыт применения данных секвенирования на платформе Illumina в генетике растений

Опыт применения данных секвенирования на платформе Illuminaсеквенирования на платформе Illuminaв генетике растений

М.Д. Логачева, Московский государственный университет им. М.В. Ломоносова, НИИ ФХБ имени А.Н. Белозерскогор

Page 2: Опыт применения данных секвенирования на платформе Illumina в генетике растений

640kb ought to be enough for anybody

While Solexa sequencing is the most economical

g g y y

gtechnology for deep coverage of transcriptomes, de novo assembly of short Solexa sequences for non-model species remains ansequences for non model species remains an unresolved challenge. (Wall et al. 2009 BMC Genomics, 10:347)

A short read-based technology such as Solexa has been used for re-sequencing in Brassica napusbeen used for re sequencing in Brassica napus (Trick et al. 2009) but not for de novo sequencing.(Brautigam, Gowik 2010, Plant Biology 12: 831–841)

Page 3: Опыт применения данных секвенирования на платформе Illumina в генетике растений

Секвенирование транскриптома нута (Сicer arietinum): первый пример сборки растительного транскриптомасборки растительного транскриптома с помощью коротких чтений

исходные данные:106 660 317 чтений: 50 523 492 парных (72 bp), 56 136 815 о о (50 bp)одиночных (50 bp)результат:53 409 контигов с N50=900, из них 42 012 имеют значимое сходство с известными генами

Page 4: Опыт применения данных секвенирования на платформе Illumina в генетике растений

транскриптом Taxus mairei (Hao et al. 2011

Секвенирование de novo других растительных транскриптомов

PLoS ONE 6(6): e21220): исходные данные - 13 737 528 парных чтений по 76 bp

б 36 493

идентификация генов, отвечающих за синтез биологически активных

результат сборки - 36 493 контигов, 23515 имеют значимое сходство с известными генами

веществ

транскриптом Ipomoea batatas (Wang et al. 2010 BMC Genomics, 11:726): исходные данные – 59 233 468 парных

й 75 b широкомасштабнаячтений по 75 bpрезультат сборки – 56 516 контигов средней длиной 581 bp, 35 051 имеют значимое сходство с известными

широкомасштабная идентификация SSR

значимое сходство с известными генами

транскриптом Fagopyrum esculentumтранскриптом Fagopyrum esculentum(Логачева с соавт., неопубл.): исходные данные – 85 891 935 парных чтений по 100 bp

выявление полиморфизма между сортом и предковой

результат сборки – 49 446 контигов, 23 031 имеют значимое сходство с известными генами

сор о ред о оформой

Page 5: Опыт применения данных секвенирования на платформе Illumina в генетике растений

Секвенирование геномов органеллпластидный геном растений: митохондриальный геном пластидный геном растений:

• небольшой (100-200 Кб) размер• консервативность порядка и

растений:

• размер 0.1 – 2.9 Мбр р дсостава генов• относительно низкая скорость замен

• высочайшая вариабельность состава и порядка генов•большое количество

• почти нет повторяющихся элементов (кроме IR)• секвенирован > 150 видов

повторяющихся элементов, в том числе видоспечифичных• горизонтальный перенос генов секвенирован у 25 видов• секвенирован у 25 видов

• изучение молекулярной генетики фотосинтеза;

ЗАЧЕМ?• изучение молекулярной генетики фотосинтеза;• изучение координации работы двух геномов (более 2/3 протеомахлоропластов – белки, кодируемые ядерным геномом. Ключевой фермент фотосинтеза –Рубиско: малая субъединица – ядерный геном, большая – хп.);Рубиско: малая субъединица ядерный геном, большая хп.);• модельная система для изучения горизонтального переноса генов;• популяционная генетика и биогеография, ДНК-штрихкодирование,изучение гибридизации;у р д ц

• молекулярная филогенетика и эволюция;

Page 6: Опыт применения данных секвенирования на платформе Illumina в генетике растений

Секвенирование пластидных геномовПроблемы:Проблемы:

• не всегда возможно получить чистую пластидную ДНК в нужных количествах• гомополимерные участки• гомополимерные участки• псевдогены пластидного происхождения в митохондриальном и ядерном геномах

Возможные пути решения:

• полногеномная амплификация с помощью long PCRCronn et al. 2008, Nucleic Acids Res. 36(19): e122, Parks et al. 2009, BMC Biology 2009, 7:84: внутривидовой полиморфизм и филогения рода Pinus (сосна)

б й ДНК• обогащение пластидной ДНКхорошо подходит для видов с большим ядерным геномом (Atherton et al. 2010, Plant Methods, 6:22, Zhang et al. 2011, PLoS ONE 6(5): e20596 )

• секвенирование тотальной ДНКдля видов с небольшим геномом или при наличии референсного геномапластидный геном 5 15 % от общего числа чтенийпластидный геном – 5-15 % от общего числа чтений

Page 7: Опыт применения данных секвенирования на платформе Illumina в генетике растений

Секвенирование ядерных геномов de novoСеквенирование генома Brassica rapa:• экономически значимое растение (репа, турнепс, пекинская капуста) • близкородственен модельному объекту Arabidopsis thalianaблизкородственен модельному объекту Arabidopsis thaliana• один из предков аллополиплоидного вида Brassica napus (рапс)

б бдлина фрагментов библиотеки

общая длина прочтенных последовательностей (Gb)

глубина секвенирования

длина чтения (bp)

Основные выводы:• Brassica rapa – сравнительно недавний (5-9 млн. лет назад)

гексаплоид (Gb)

184 2.482 5.045 101200 14.940 30.366 44,75

гексаплоид

• интенсивная потеря генов после полиплоидизации (из ожидаемых 90

тысяч обнаружено 41174)200 14.940 30.366 44,75500 7.810 15.874 44,752 Kb 3.580 7.276 44

тысяч обнаружено 41174)

• потеря генов – не случайный процесс: гены "домашнего хозяйства"

теряются, гены, участвующие в ответе на стресс и других 5 Kb 3.210 6.524 458 Kb 2.460 5.000 4410 Kb 1 522 3 093 44

взаимодействиях с окружающей средой остаются многокопийными

10 Kb 1.522 3.093 44

Page 8: Опыт применения данных секвенирования на платформе Illumina в генетике растений

Секвенирование ядерных геномов de novoСеквенирование генома Phoenix dactylifera (финиковая пальма):• первый из секвенированных геномов однодольных-не злаков• первый из секвенированных геномов двудомных растений

сборка исходных данных (526 443 374 парных чтений длиной 36–84 bp)

добавление данных секвенирования mate-paired библиотек

референсный геном (женская особь

Kh l )mate paired библиотек

57277 скаффолдов с N50=30480 bpсорта Khalas)

аннотация

поиск участковпоиск участков с аномально

высоким покрытиемпоиск SNP

поиск участков, обогащенных различиями

между мужскими и женскими особямиженскими особями

геномы женских и мужских особей других сортов

Page 9: Опыт применения данных секвенирования на платформе Illumina в генетике растений

Идентификация генов, охарактеризованных по мутациям"постгеномная эра" только для Arabidopsis!постгеномная эра – только для Arabidopsis!

Задача: идентифицировать ген, локализованный с точностью до 100-300 Кб.

долго, но не дорого (если повезёт!):• выявить полиморфизм между референсным геномом и геномом расы,

быстро, но дорого :• подобрать праймеры для секвенирования каждого генарефере с е о о е о о рас ,

на фоне которой получена мутация• разработать систему детекции полиморфизма (скорее всего,

секвенирования каждого гена (включая интроны и регуляторные области) в этом районе (40-50 генов)рф ( р

основанную на расщеплении амплифицированных фрагментов –метод CAPS или его модификация

районе (40 50 генов)• секвенировать (по Сэнгеру) каждый ген у дикого типа и у мутанта

dCAPS)• проверить состояние полиморфного маркера - 7-10 маркеров - у 400-500

мутанта• сравнить последовательности ДТ и мутанта, выявить изменение

растений F2 (выделение ДНК→ПЦР →рестрикция →форез)•

Page 10: Опыт применения данных секвенирования на платформе Illumina в генетике растений

быстро и недорого :• ресеквенирование генома дикого типа имутанта

дикий типbractea

у• картирование чтений на референсный геном• выявление SNP и других изменений винтересующем участке генома дикого типа имутанта по отношению к референсному геному• выявление изменения, уникального длямутанта

Q E V M E F L D Y W G L I Q E V M E F L D Y * G L IQ E V M E F L D Y W G L I Q E V M E F L D Y G L I

Пенин с соавт., неопубл.

Page 11: Опыт применения данных секвенирования на платформе Illumina в генетике растений

Идентификация генов, охарактеризованных по мутациям

Задача: идентифицировать ген с неизвестной локализациейЗадача: идентифицировать ген с неизвестной локализацией

очень долго и дорого:классическое картирование → задача сводится к предыдущей

Пример: идентификация генов, отвечающих за процессинг предшественника микроРНК MIR390a (Cuperus et al. 2010 Proc Natl Acad Sci USA. 107(1):466 471)классическое картирование → задача сводится к предыдущей

быстро и недорого :• ресеквенирование генома растений F2, имеющих мутантный фенотип

107(1):466-471)

EMS-мутагенез( C )

отбор растений с проверка уже известных (линия Col-0) интересующим фенотипом кандидатных генов

скрещивание с линией Ler, отбор растений с получение популяции F2 мутантным фенотипом

(221 млн. чтений по 36 bp)

секвенирование смеси ДНКэтих растений

поиск SNP и определение их соотношений

(221 млн. чтений по 36 bp)

В участке локализации мутации должны преобладать SNP, характерныедля Col-0, в остальных участках Col-0/Ler в соотношении 1/1

Page 12: Опыт применения данных секвенирования на платформе Illumina в генетике растений

Построение генетических карт

Brassica napus (рапс) полиплоидBrassica napus (рапс) – полиплоид, предковые виды – Brassica rapa и B. oleraceaГеном ~ 1 2 ГбГеном 1.2 Гб

Page 13: Опыт применения данных секвенирования на платформе Illumina в генетике растений

Благодарю за внимание!