Опыт применения данных секвенирования на платформе...
DESCRIPTION
М.Д. Логачева,Московский государственный университет им. М.В.Ломоносова, НИИ ФХБ имени А.Н. БелозерскогоTRANSCRIPT
Опыт применения данных секвенирования на платформе Illuminaсеквенирования на платформе Illuminaв генетике растений
М.Д. Логачева, Московский государственный университет им. М.В. Ломоносова, НИИ ФХБ имени А.Н. Белозерскогор
640kb ought to be enough for anybody
While Solexa sequencing is the most economical
g g y y
gtechnology for deep coverage of transcriptomes, de novo assembly of short Solexa sequences for non-model species remains ansequences for non model species remains an unresolved challenge. (Wall et al. 2009 BMC Genomics, 10:347)
A short read-based technology such as Solexa has been used for re-sequencing in Brassica napusbeen used for re sequencing in Brassica napus (Trick et al. 2009) but not for de novo sequencing.(Brautigam, Gowik 2010, Plant Biology 12: 831–841)
Секвенирование транскриптома нута (Сicer arietinum): первый пример сборки растительного транскриптомасборки растительного транскриптома с помощью коротких чтений
исходные данные:106 660 317 чтений: 50 523 492 парных (72 bp), 56 136 815 о о (50 bp)одиночных (50 bp)результат:53 409 контигов с N50=900, из них 42 012 имеют значимое сходство с известными генами
транскриптом Taxus mairei (Hao et al. 2011
Секвенирование de novo других растительных транскриптомов
PLoS ONE 6(6): e21220): исходные данные - 13 737 528 парных чтений по 76 bp
б 36 493
идентификация генов, отвечающих за синтез биологически активных
результат сборки - 36 493 контигов, 23515 имеют значимое сходство с известными генами
веществ
транскриптом Ipomoea batatas (Wang et al. 2010 BMC Genomics, 11:726): исходные данные – 59 233 468 парных
й 75 b широкомасштабнаячтений по 75 bpрезультат сборки – 56 516 контигов средней длиной 581 bp, 35 051 имеют значимое сходство с известными
широкомасштабная идентификация SSR
значимое сходство с известными генами
транскриптом Fagopyrum esculentumтранскриптом Fagopyrum esculentum(Логачева с соавт., неопубл.): исходные данные – 85 891 935 парных чтений по 100 bp
выявление полиморфизма между сортом и предковой
результат сборки – 49 446 контигов, 23 031 имеют значимое сходство с известными генами
сор о ред о оформой
Секвенирование геномов органеллпластидный геном растений: митохондриальный геном пластидный геном растений:
• небольшой (100-200 Кб) размер• консервативность порядка и
растений:
• размер 0.1 – 2.9 Мбр р дсостава генов• относительно низкая скорость замен
• высочайшая вариабельность состава и порядка генов•большое количество
• почти нет повторяющихся элементов (кроме IR)• секвенирован > 150 видов
повторяющихся элементов, в том числе видоспечифичных• горизонтальный перенос генов секвенирован у 25 видов• секвенирован у 25 видов
• изучение молекулярной генетики фотосинтеза;
ЗАЧЕМ?• изучение молекулярной генетики фотосинтеза;• изучение координации работы двух геномов (более 2/3 протеомахлоропластов – белки, кодируемые ядерным геномом. Ключевой фермент фотосинтеза –Рубиско: малая субъединица – ядерный геном, большая – хп.);Рубиско: малая субъединица ядерный геном, большая хп.);• модельная система для изучения горизонтального переноса генов;• популяционная генетика и биогеография, ДНК-штрихкодирование,изучение гибридизации;у р д ц
• молекулярная филогенетика и эволюция;
Секвенирование пластидных геномовПроблемы:Проблемы:
• не всегда возможно получить чистую пластидную ДНК в нужных количествах• гомополимерные участки• гомополимерные участки• псевдогены пластидного происхождения в митохондриальном и ядерном геномах
Возможные пути решения:
• полногеномная амплификация с помощью long PCRCronn et al. 2008, Nucleic Acids Res. 36(19): e122, Parks et al. 2009, BMC Biology 2009, 7:84: внутривидовой полиморфизм и филогения рода Pinus (сосна)
б й ДНК• обогащение пластидной ДНКхорошо подходит для видов с большим ядерным геномом (Atherton et al. 2010, Plant Methods, 6:22, Zhang et al. 2011, PLoS ONE 6(5): e20596 )
• секвенирование тотальной ДНКдля видов с небольшим геномом или при наличии референсного геномапластидный геном 5 15 % от общего числа чтенийпластидный геном – 5-15 % от общего числа чтений
Секвенирование ядерных геномов de novoСеквенирование генома Brassica rapa:• экономически значимое растение (репа, турнепс, пекинская капуста) • близкородственен модельному объекту Arabidopsis thalianaблизкородственен модельному объекту Arabidopsis thaliana• один из предков аллополиплоидного вида Brassica napus (рапс)
б бдлина фрагментов библиотеки
общая длина прочтенных последовательностей (Gb)
глубина секвенирования
длина чтения (bp)
Основные выводы:• Brassica rapa – сравнительно недавний (5-9 млн. лет назад)
гексаплоид (Gb)
184 2.482 5.045 101200 14.940 30.366 44,75
гексаплоид
• интенсивная потеря генов после полиплоидизации (из ожидаемых 90
тысяч обнаружено 41174)200 14.940 30.366 44,75500 7.810 15.874 44,752 Kb 3.580 7.276 44
тысяч обнаружено 41174)
• потеря генов – не случайный процесс: гены "домашнего хозяйства"
теряются, гены, участвующие в ответе на стресс и других 5 Kb 3.210 6.524 458 Kb 2.460 5.000 4410 Kb 1 522 3 093 44
взаимодействиях с окружающей средой остаются многокопийными
10 Kb 1.522 3.093 44
Секвенирование ядерных геномов de novoСеквенирование генома Phoenix dactylifera (финиковая пальма):• первый из секвенированных геномов однодольных-не злаков• первый из секвенированных геномов двудомных растений
сборка исходных данных (526 443 374 парных чтений длиной 36–84 bp)
добавление данных секвенирования mate-paired библиотек
референсный геном (женская особь
Kh l )mate paired библиотек
57277 скаффолдов с N50=30480 bpсорта Khalas)
аннотация
поиск участковпоиск участков с аномально
высоким покрытиемпоиск SNP
поиск участков, обогащенных различиями
между мужскими и женскими особямиженскими особями
геномы женских и мужских особей других сортов
Идентификация генов, охарактеризованных по мутациям"постгеномная эра" только для Arabidopsis!постгеномная эра – только для Arabidopsis!
Задача: идентифицировать ген, локализованный с точностью до 100-300 Кб.
долго, но не дорого (если повезёт!):• выявить полиморфизм между референсным геномом и геномом расы,
быстро, но дорого :• подобрать праймеры для секвенирования каждого генарефере с е о о е о о рас ,
на фоне которой получена мутация• разработать систему детекции полиморфизма (скорее всего,
секвенирования каждого гена (включая интроны и регуляторные области) в этом районе (40-50 генов)рф ( р
основанную на расщеплении амплифицированных фрагментов –метод CAPS или его модификация
районе (40 50 генов)• секвенировать (по Сэнгеру) каждый ген у дикого типа и у мутанта
dCAPS)• проверить состояние полиморфного маркера - 7-10 маркеров - у 400-500
мутанта• сравнить последовательности ДТ и мутанта, выявить изменение
растений F2 (выделение ДНК→ПЦР →рестрикция →форез)•
быстро и недорого :• ресеквенирование генома дикого типа имутанта
дикий типbractea
у• картирование чтений на референсный геном• выявление SNP и других изменений винтересующем участке генома дикого типа имутанта по отношению к референсному геному• выявление изменения, уникального длямутанта
Q E V M E F L D Y W G L I Q E V M E F L D Y * G L IQ E V M E F L D Y W G L I Q E V M E F L D Y G L I
Пенин с соавт., неопубл.
Идентификация генов, охарактеризованных по мутациям
Задача: идентифицировать ген с неизвестной локализациейЗадача: идентифицировать ген с неизвестной локализацией
очень долго и дорого:классическое картирование → задача сводится к предыдущей
Пример: идентификация генов, отвечающих за процессинг предшественника микроРНК MIR390a (Cuperus et al. 2010 Proc Natl Acad Sci USA. 107(1):466 471)классическое картирование → задача сводится к предыдущей
быстро и недорого :• ресеквенирование генома растений F2, имеющих мутантный фенотип
107(1):466-471)
EMS-мутагенез( C )
отбор растений с проверка уже известных (линия Col-0) интересующим фенотипом кандидатных генов
скрещивание с линией Ler, отбор растений с получение популяции F2 мутантным фенотипом
(221 млн. чтений по 36 bp)
секвенирование смеси ДНКэтих растений
поиск SNP и определение их соотношений
(221 млн. чтений по 36 bp)
В участке локализации мутации должны преобладать SNP, характерныедля Col-0, в остальных участках Col-0/Ler в соотношении 1/1
Построение генетических карт
Brassica napus (рапс) полиплоидBrassica napus (рапс) – полиплоид, предковые виды – Brassica rapa и B. oleraceaГеном ~ 1 2 ГбГеном 1.2 Гб
Благодарю за внимание!