jetbrains biolabs Шпынов Олег · 2016-03-15 · История Термин...
TRANSCRIPT
![Page 1: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/1.jpg)
JetPoint Meeting
JetBrains BioLabsШпынов Олег
6.03.2013
![Page 2: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/2.jpg)
JetBrains
At JetBrains, we have a passion for making people more productive through smart software solutions that help them focus more on what they really want to accomplish, and less on mundane, repetitive "computer busy work".
![Page 3: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/3.jpg)
Эпигенетика
Эпигенетика (греч. επί — над, выше, внешний) — в биологии, в частности, в генетике представляет собой изучение закономерностей эпигенетического наследования — изменения экспрессии генов или фенотипа клетки, вызванных механизмами, не затрагивающими изменение последовательности ДНК.
![Page 4: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/4.jpg)
История● Термин «эпигенетика» был предложен Конрадом Уоддингтоном в 1942 году,
как производное от слов генетика и эпигенез. Когда Уоддингтон ввел этот термин, физическая природа генов не была до конца известна, поэтому он использовал его в качестве концептуальной модели того, как гены могут взаимодействовать со своим окружением при формировании фенотипа.
●
![Page 5: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/5.jpg)
Информация
● Генетическая – ДНК, одинакова во всех клетках организма
● Эпигенетическая – специфична для конкретной клетки
Каждый вид информации обеспечен своими системами:
– Кодирования
– Хранения
– Передачи
![Page 6: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/6.jpg)
Изменения
Эпигенетические
● Обратимы
● Не затрагивают изменений последовательности ДНК
● Долговременные или кратковременные
Генетические
● Необратимы (мутации)
● Изменения последовательности ДНК
● Стабильно наследуемые
![Page 7: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/7.jpg)
Эпигеном
Эпигеном - это совокупность всех эпигенетических маркеров, обусловливающих экспрессию генов в данной клетке.
![Page 8: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/8.jpg)
Виды эпигенетических модификаций
● Метилирование ДНК
● Модификации гистонов
● Гидроксиметилирование ДНК
● ?
![Page 9: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/9.jpg)
Связь
● Метилирование ДНК -> деацетилирование гистонов -> образование гетерохроматина
● Деметилирование ДНК -> ацетилирование гистонов -> образование эухроматина
![Page 10: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/10.jpg)
Эмбриогенез
![Page 11: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/11.jpg)
Эпигенетика – СИЛА!
● Эмбриогенез
● Дифференциация
● Регуляция
● Защита
● Старение?
● Рак?
● ???
![Page 12: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/12.jpg)
Методы исследования● Метилирование ДНК
BS-seqChIP-seqIllumina27/450K
● Модификации гистоновChIP-seq
● ДНК + гистоныChIP-BS-Seq
![Page 13: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/13.jpg)
Open Data
- Локальность исследований
- Часто очень шумные
- Часто не верифицируемы
+ Много данных в открытом доступе
![Page 14: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/14.jpg)
Wet Labs problems
- Загрязнения проб
- Несоблюдение протоколов
- Использование просроченных реагентов или их заменителей
![Page 15: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/15.jpg)
Academic software
● Много низкокачественного софта, нужного только для публикации.
● Есть реальные примеры софта, в котором отсутствует заявленная функциональность, но на который есть ссылки в статьях.
● A Farewell to Bioinformaticshttp://madhadron.com/a-farewell-to-bioinformatics “Fuck you, bioinformatics. Eat shit and die.”
![Page 16: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/16.jpg)
JetBrains BioLabs
Мы пытаемся применять методы статистики и машинного обучения для выявления фундаментальных эпигенетических механизмов
![Page 17: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/17.jpg)
Гипотеза
Механизм эпигенетических модификаций управляется последовательностью ДНК
![Page 18: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/18.jpg)
Мотивация?
● RNA-directed DNA methylation in Arabidopsis
![Page 19: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/19.jpg)
Механизм
![Page 20: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/20.jpg)
Задачи
● Исследование закономерностей в геноме● Анализ данных метилирования● Анализ данных гистонных модификаций● Анализ причинно-следственных связей● Разработка системы экспериментов
![Page 21: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/21.jpg)
Подходы к изучению
● Построение адекватных математических моделей по имеющимся данным
● Применение техник машинного обучения для описания регионов генома, где происходят важные с биологической точки зрения события.
● Верификация данных с помощью коллег -биологов
![Page 22: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/22.jpg)
Исследование промоутеров
● Вычислительная задача, не имеющая точного решения
● SVM + Ada Boost ML. Простейшие классификаторы – n-мер и его позиция на участке. Обучение и верификация на реальных данных.
● Tradeoff: полнота и точность● Точность ~ 80%
![Page 23: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/23.jpg)
Экзон-интрон
● Proof of concept для AdaBoost● Точность ~ 99%● ML подход – работает!
![Page 24: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/24.jpg)
ML для регионов smRNA
Значимость различных простейших классификаторов
![Page 25: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/25.jpg)
Исследование метилирования
● Исследование BS-Seq данных – выявление паттернов метилирования
● Исследование паттернов в метилировании в различных регионах генома, smRNA, PiRNA, lncRNA, etc
● Корреляция метилирования и других эпигенетических модификаций
● Исследование различий метилирования в гомологичных участках разных животных
● Построение математических моделей, которые описывают метилирование в клетке
● Сравнение разных клеточных линий
![Page 26: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/26.jpg)
Illumina450K
● Infinium Methylation 450K is a hybrid of two different assays, Infinium I and II.
● Due to its design, Infinium Methylation 450K technology generates a dataset that should be viewed as two distinct datasets. Infinium II data are less accurate and reproducible than Infinium I data.
● Peak-based correction makes it possible to treat Infinium I and Infinium II data as a single dataset.
● Infinium Methylation 450K is one of the most attractive powerful and cost-effective tool currently available for generating quantitative DNA methylomes for health and disease, notably in the framework of large biomarker discovery studies.
![Page 27: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/27.jpg)
Illumina450K
● Beta = methylated / (methylated + unmethylated)
![Page 28: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/28.jpg)
Illumina 450K
● Фильтрация + subset quantile normalization
![Page 29: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/29.jpg)
Illumina450K
● Загрузка● Фильтрация● SNP-процессинг● Subset Quantile Normalization● Batch effects● Сравнение локусов (genes, gene regions,
etc) с использованием Mann-Whitney U-test● Результат: NDA
![Page 30: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/30.jpg)
Исследование гистонов
● Построение математических моделей модификаций гистонов
● Сравнение разных клеточных линий● Связь модификаций гистонов с другими
организмами● Поиск схожих паттернов модификаций
гистонов
![Page 31: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/31.jpg)
Математические модели модификаций гистонов
● Данные – покрытие генома после ChIP-seq● Большинство генома не покрыто● Рассматриваем покрытие по корзинам● Можно предполагать, что покрытие разных
корзин порождено независимыми случайными величинами
● Плотность распределения
![Page 32: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/32.jpg)
Poisson Mixture
● Бимодальное распределение● Рассматриваем как смесь двух
Пуассоновских распределений● Методом оценки максимального
правдоподобия получаем скрытые состояния корзин
● Скрытые состояния – есть гистонная модификация или нет?
![Page 33: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/33.jpg)
Poisson Mixture + HMM
● А вдруг соседние корзины не независимы? Введем скрытую Марковскую цепь с вероятностями переходов.
● Оценка методом максимального правдоподобия + алгоритм Виттерби для оценки всех параметров системы
● Есть и более сложные модели, например для сравнения двух измерений
![Page 34: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/34.jpg)
Сравнение моделей
● Критерий Акайке
AIC = 2*freedom_degrees – log(likelihood)●
![Page 35: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/35.jpg)
Chromasig
● Нахождение схожих паттернов метилирования и модификации гистонов
● Инструмент для поиска мотивов для ChIP-Seq данных - Chromasig
![Page 36: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/36.jpg)
Реализация алгоритма из статьи
![Page 37: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/37.jpg)
Анализ результатов Chromasig
● Онтологии генов участков генома – Функции
– Компартменты клетки
– Наличие у разных организмов
![Page 38: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/38.jpg)
Разработка системы экспериментов
● Данные: описывать входные данные, с удобной системой хранения и доступа, разделять данные полученные нами и из сторонних источников, переиспользование данных
● Эксперименты: описание входные данных, описание экспериментов, формат для переиспользования
● Имеющиеся системы громоздки● Не удовлетворяют запросам
![Page 39: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/39.jpg)
Tools
● Java● R● Big server computations (Linux)● Confluence, Bamboo, Crucible● Continuous integration, tests
![Page 40: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/40.jpg)
Проекты JetBrains в биоинформатике
● JetBrains BioLabs● LabBook - электронный лабораторный
журнал. Проблема разрозненности данных. Большинство отчетов в Excel. Несоответствие модели данных и инструментов.
● Genome query – студенческий проект.● Genestack Platform - universal collaborative
ecosystem for bioinformatics research and development. http://genestack.com
![Page 41: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/41.jpg)
JetBrains BioLabs
● Алексей Диевский● Сергей Дмитриев● Евгений Курбацкий● Сергей Лебедев● Роман Чернятчик● Олег Шпынов
![Page 42: JetBrains BioLabs Шпынов Олег · 2016-03-15 · История Термин «эпигенетика» был предложен Конрадом Уоддингтоном](https://reader034.vdocuments.pub/reader034/viewer/2022050607/5fae7cf02108bf3a8922b2db/html5/thumbnails/42.jpg)
Вопросы?