Обработка данных секвенирования следующего ...

19
Обработка данных секвенирования следующего поколения в один клик Афанасьев Андрей, Генеральный директор iBinom

Upload: audra

Post on 21-Mar-2016

103 views

Category:

Documents


2 download

DESCRIPTION

Обработка данных секвенирования следующего поколения в один клик. Афанасьев Андрей, Генеральный директор iBinom. Проблемы текущих решений. Сложная установка Сложная настройка Медленная работа Плохая воспроизводимость результатов Плохая визуализация результатов. Задача. - PowerPoint PPT Presentation

TRANSCRIPT

Обработка данных секвенирования следующего поколения в один клик

Афанасьев Андрей,Генеральный директор iBinom

Проблемы текущих решений

• Сложная установка• Сложная настройка• Медленная работа• Плохая воспроизводимость результатов• Плохая визуализация результатов

Задача

Сделать продукт по анализу данных NGS для диагностики наследственных заболеваний для врачей:– Простой интерфейс– Минимум настроек– Высокая скорость работы и воспроизводимость

результатов– Высокая точность

Технические сложности

• Алгоритмическая сложность и ресурсоемкость (до 1000 CPU*h на анализ)

• Большой объем входных данных (1-500 Гб)• Разные форматы данных FastQ (длины

ридов, качество в phred33/phred64)• Обеспечение безопасности передачи и

хранения данных

Подход

• Фильтрация ридов по качеству• Картирование• Фильтрация по таргетным регионам• Поиск SNP и коротких indel• Аннотация• Сортировка по патогенности и

формирование отчета

Реализация

• Распределенные вычисление в облаке Amazon в рамках парадигмы MapReduce (неограниченная масштабируемость)

• Хранение данных в S3• Картирование BWA-MEM• Референс hg19 GRCh37.p13 assembly, ver. 73.37• Коллинг SamTools• Аннотация SnpEff• Собственная оценка патогенности –

ibinom score

Выравнивание(симулированные данные)

Total Correct Reads (%) Incorrectly Mapped Reads (%)

Unmapped Reads (%)

iBinom 7863529 101527 7

98.73% 1.27% 0.00%

Bowtie2 7670364 251234 41901

96.32% 3.15% 0.53%

Bwa 7363467 81561 518471

92.47% 1.02% 6.51%

Коллинг

Коллинг

iBinom Score

• Машинное обучение с помощью алгоритма градиентного бустинга

• Обучающая выборка: – Патогенные: записи из dbsnp c clinvar clinical

significance = pathogenic– Непатогенные: записи из dbsnp c частотой

самого редкого аллеля >5% во всех популяциях

iBinom Score

Точность: 93.44%Полнота: 90.96%F-measure: 92.18%

Обучение по базам и скорам:1000genomes, ClinVar, dbSNP, dbNSFP, Ensembl Project, EntrezGene, Exome Variant Server, GeneReviews, GERP++, GO, MutationAssessor, MutationTaster, Orpha Date, Reactome, RefSeq, SeattleSeq, SiPhy, snpEff, UniProt и др.

Использование iBinom

1. Поддерживается любой FASTQ файл, включая архивы .gz, кроме colorspace2. Встроенный тримминг адаптеров3. Можно объединять несколько файлов в один образец4. Можно скачать vcf-файл (в формате v.4.1)5. Для передачи используется шифрованное соединение https

Планы

1. Система подбора болезней(по симптомам, по списку генов, по списку болезней)

2. Ветвление пайплайна(например, выравнивание TMAP для IonTorrent)

3. Переделка и упрощение интерфейса программы

Приглашаем к сотрудничеству!

[email protected]