ugene – интегрированные инструменты биолога
DESCRIPTION
UGENE – интегрированные инструменты биолога. Константин Оконечников, НЦиТ Унипро 20 10. Вычислительная биология. Примеры характерных задач : Поиск гомологов Поиск и анализ схожести между генетическими последовательностями, различные виды выравниваний Определение генов - PowerPoint PPT PresentationTRANSCRIPT
UGENE – интегрированные
инструменты биолога
Константин Оконечников, НЦиТ Унипро 2010
Вычислительная биология
Примеры характерных задач:
• Поиск гомологов– Поиск и анализ схожести между генетическими
последовательностями, различные виды выравниваний
• Определение генов– Идентификация генов и аннотация их функций
• Сборка контигов– Сборка цельных геномов из известных частей полученных в
результате секвенирования
• Анализ структуры белка– Предсказание вторичной и третичной структуры,
определение функций
• …и многое другое2
Форматы и базы данных
Genbank
EMBLCLUSTAL
MSF
STOCKHOLM
FASTA
FASTQNEWICK
NEXUSABI
SCF
EMBL
MMDBPDB
GFF
SAM
UniProtACE
NCBI
Колоссальный объем информации! Например: Количество записей в NCBI Genbank на 2010 год – 120 000 000Количество публикаций в PubMed на 2010 год – 20 000 000
3
Многообразие подходовBLAST,FASTA,SSEARCH,CLUSTAL,MUSCLE,MAFFT,KALIGN,UCLUST,HMMER2,
HMMER3,GARLIC,CONSED,CGVIEW,ERGO,EBBIE,MAUVE,MATTREE,COVE, PSIBLAST, GOR, PSIPRED, EXPASY, EMBOSS, PHYLIPP, SAM, CASP, BLOCKS, PRIMER3,
CSBLAST,HHPRED,BIOCONDUCTOR,MUMMER,
FEAST,BOWTIE,MAQ,SOAP,BIOPERL,POA, PRANK, FOLDALIGN,RMAP,SITECON,SHRIMP,BATWING,ASAP,
BEAST,MEGA,MESQUITE,SEMPHY,TNT,BIOEDIT,BIOPYTHON,GALAXY, TAVERNA, GENEMARK, AMAP, MEME, PPSEARCH, ELPH, GENESCAN, ARTEMIS, CLANN, GENLUX, CRNPRED, BRAGI,
DIP4FISH ANGIS,AFFYMETRIX,GENECHIP,ARLEQUIN,BIOPHP,BIORUBY,BIOEXTRACT,
BIOSLAX,BISKIT,CYTOSCAPE,DAVID,DIALIGN-T,DIALIGN-TX,DNASTAR,ETBLAST FOLDX,FORMATDB,GENSCAN,GENTLE,GESS,
GENMAPP,GENE,ACE, UGENE, ARGO, DESIGNER,GENEDATA,ENEPATTERN,GENEVESTIGATOR,JALIGNER,MEGAN,ARKA
MODELLER,OLIGO,JPRED,STRIDE,TESS,GLIMMER,BIOECLIPSE,ENSEMBL,ASTERIAS,DPVIEW,
PAUP,PSORT,PHYLOSCAN,PUPASUITE,PYMOL,RAPTOR,RASMOL,STING,SIMBIOSYS,SNAGGER,SOAPLAB,SPLITSTREE,ST
EMLOC,T-COFFEE,PILER,USEARCH,DELTASTAT,DCSE,ASID,ARB,ANGLER, TREEFINDER,UCSF CHIMERA,UTOPIA,VECTOR NTI,YASS,MUSCA,JASPAR
…………………….
4
Минусы существующих подходов
• Зачастую средства и алгоритмы анализа генетических данных не согласуются между собой.Суть проблемы: необходима целостность в управлении данными, возможность построения составных методов анализа.
• Популярные инструменты не всегда пригодны для систематического анализа большого количества данныхСуть проблемы: сложность обработки промежуточных результатов и другие ограничения.
• Многие задачи гораздо эффективнее решаются посредством использования высокопроизводительных ресурсовСуть проблемы: нужен специальный опыт в этой области.
5
UGENE – предлагаемое решение
Цель проекта – интеграция наиболее используемых алгоритмов анализа генетических данных в единой визуальной рабочей среде, удобной для прикладного специалиста.
• Свободная лицензия, русификация;
• Кросс-платформенность (MS Winodws, Mac, Linux);
• Модульная архитектура, более 30 расширений;
• Единый, удобный пользовательский интерфейс;
• Концептуальная целостность в работе данными;
• Эффективное использование вычислительных ресурсов;
• Поддержка составных методов анализа данных.
6
Краткий обзор возможностей UGENE
• Автоопределение форматов данных, поддержка более 20 форматов.
• Поиск паттернов и парное выравнивание (Smith Waterman)
• Сборка контигов (Bowtie, UGENE Genome Aligner)
• Множественное выравнивание: MUSCLE, Kalign, Clustal, Mafft
• Сверхбыстрый поиск повторов
• Визуализация и редактирование хроматограмм
• Анализ гомологии на основе цепей Маркова (HMMER)
• Построение филогенетических деревьев (Phylip)
• Поиск открытых рамок считывания для всех генетических таблиц
• Поддержка запросов к удаленным базам данных ( BLAST, CDD)
• Сайты рестрикции, cайты связывания транскрипционных факторов
7
Возможности UGENE
• Удобный редактор аннотаций
• Мощные возможности по визуализации и редактированию последовательностей
• ДНК• РНК• Аминокислотные
8
Возможности UGENE
• Редактор множественных выравниваний • Просмотрщик филогенетических деревьев
• Визуализатор трехмерных макромолекулярных биологических структур с возможностью экспорта 9
Составные методы анализа
Дизайнер вычислительных схем (Workflow Designer) – комплексный инструмент автоматизации вычислительных процессов, входящий в среду UGENE.
• Интуитивно понятный интерфейс пользователя;
• Расширяемость – легкое добавление новых вычислительных блоков;
• Каждый блок может иметь различные оптимизированные реализации для различных платформ;
• Автоматическая загрузка всех доступных вычислительных ресурсов;
• Интерактивность.10
Пример вычислительной схемы
11
Эффективное использование вычислительных ресурсов
• Многоядерные процессоры• Кластеры и грид-системы• Платформо-зависимые оптимизации, GPGPU• Облачные вычисления Удаленный сервис запуска задач основанный на
мощностях Amazon EC2
Для пользователя запуск вычислительных задач и работа с платформой не усложняется!
12
Сравнение с аналогамиСLCBio Workbench VectorNTI Geneious Unipro UGENE
Web-Сайт: http://www.clcbio.com http://www.invitrogen.com http://www.geneious.comhttp://
ugene.unipro.ru
Функциональность:
Поиск гомологов + + + +
Сборка контигов + - + +
Анализ структуры белка - + - -
Клонирование “in silico” + + + -
Поддержка HPC + + - +
Построение вычислительных
схем- - - +
Стоимость программного пакета:
Лицензия на полгода, 1
пользователь~1200$ ~1500$ ~700$* 0
13* может быть бесплатным при определенных условиях
Демонстрация
14
Текущее состояние проекта
• Более 1000 активных пользователей• Проект входит в официальные версии
дистрибутивов Linux: Ubuntu, Fedora, Arch
• Взаимодействие с российскими и рядом зарубежных институтов в области вычислительной молекулярной биологии
• Перенос задач на суперкомпьютеры
15
Перспективы
• Анализ данных секвенирования, визуализация
• Удобный язык для Дизайнера вычислительных схем
• Новая разработка Query Designer• Объединенное рабочее пространство
для группы исследователей• Дальнейшее развитие удаленного
сервиса UGENE16
Вы и UGENE
• Использование UGENE в повседневной работе
• Обратная связь• Специализированные feature-
request’ы• Совместная работа над большими
проектами• Использование UGENE в
образовательных проектах17
Полезные ссылки
• Сайт: http://ugene.unipro.ru• Почтовый алиас: [email protected]• Форум: http://ugene.unipro.ru/forum• Видео-канал: http://youtube.com/uniprougene• Твиттер:
http://twitter.com/uniprougene
18
Спасибо за внимание!
Вопросы
?19