bio4j: графовая база...
TRANSCRIPT
![Page 1: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/1.jpg)
Bio4j: графовая базаданных
Алексей Алехин29 июля 2014
![Page 2: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/2.jpg)
Что такое Bio4j?Bio4j — это биоинформатическая графовая база данных,содержащая информацию связанную с протеинами из
самых крупных открытых источников
![Page 3: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/3.jpg)
Источники данных (SwissProt +
Trembl) (GO)
(50,90,100)
UniProt KB
Gene OntologyUniRefRefSeqNCBI TaxonomyExpasy Enzyme DB
![Page 4: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/4.jpg)
Открытость!
Исходники распространяются под лицензией Интегрированны только открытые данные ( )Процесс разработки на абсолютно прозрачен
AGPLv3Open Data
GitHub
![Page 5: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/5.jpg)
Базы данных в биологииОгромный объем взаимосвязанной ипересекающейся информациираспределённой по разным источниками хранящейся в реляционных базах данных,а иногда даже просто в CSV файлах
Это может быть приемлемо в простых задачах, но когда
количество разнородной информации увеличивается,модель данных становится слишком сложной
![Page 6: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/6.jpg)
Это реальная схема базы данных GO
![Page 7: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/7.jpg)
Реляционная модельВ реляционной модели отношение
Сущность ⇔ Таблицане является взаимным, что порождаетвспомогательные таблицыискуственные идентификаторыработу с таблицами представляющимисвязи, вместо работы с самими связями
![Page 8: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/8.jpg)
Биология ≠ ТаблицаВозможно, биологическаяинформация не на на 100% графно уж точно не набор таблиц!
![Page 9: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/9.jpg)
Графовые базы данныхДанные хранятся в соответствиисо своей семантической структуройПростота интеграции новых данныхведёт к масштабируемостиЛокальные индексы (vertex-centric)позволяют избежать проблем с вершинами,которые имеют слишком большоеколичество связей ( )supernode problem
![Page 10: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/10.jpg)
Облачные технологии
Data as a ServiceУдобное взаимодействиемежду сервисамиБезопасное хранениелюбого объема данныхМасштабируемостьРентабельность
![Page 11: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/11.jpg)
Bio4j=
Биологические данные+
Графовые БД+
Облако
![Page 12: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/12.jpg)
Модель данных Bio4j2 × 108 вершин 40 типов109 связей 150 типов6 × 108 свойств (аттрибутов)
![Page 13: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/13.jpg)
Структура Bio4jИнтегрированные данные имеют модульную структуру,
позволяющую выделить только интересующие части
![Page 14: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/14.jpg)
Как Bio4j используется в Era7 — система аннотации бактериальных геномов — система метагеномного анализа
Сравнительная геномика, анализ сетей взаимодействиябелков, сборка геномов и т.д.
BG7MG7
![Page 15: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/15.jpg)
Другие пользователи Bio4j
Ohio State UniversityИнтеграция и анализ Chip-seq данныхМоделирование геномной информациии регуляторных генетических сетей
Berkeley Phylogenomics Group
Графовая БД для геномного анализаразработанная на основе Bio4j
![Page 16: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/16.jpg)
Внутреннее устройство Bio4j1. Абстрактная модель данных с чёткой типизацией2. Универсальная реализация с помощью 3. Конкретные реализации:
(в разработке) (планируется)
Blueprints
Neo4jTitanDBDynamoDBOrientDB
Различная топология графов на уровне хранилища,но единая модель данных в пользовательском коде
![Page 17: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/17.jpg)
Немного технических деталейИсходный код на Java и Scala
для модульной системы для автоматизации
сборки кода, тестирования и релизов для совместной работы
и координации всего рабочего процесса
StatikaSBT
Git + Github
![Page 18: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/18.jpg)
Кто разрабатывает Bio4jисследовательская группа
Ohnosequences!Era7 bioinformatics
руководитель проектаархитектура и технологииинтеграция данныхинтеграция данныхмодульная системаоблачная архитектура
Pablo ParejaEduardo Pareja-Tobes
Raquel TobesMarina ManriqueАлексей АлехинЕвдоким Ковач
![Page 19: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/19.jpg)
КонтактыTwitter: Github: Google group: Linkedin:
@bio4jbio4j
bio4j-userbio4j
bio4j.com
![Page 20: Bio4j: графовая база данныхbioinformaticsinstitute.ru/sites/default/files/4_alyohin.pdf · Базы данных в биологии Огромный объем](https://reader035.vdocuments.pub/reader035/viewer/2022081600/605b80d660cde8705535430e/html5/thumbnails/20.jpg)
Спасибо за внимание!
Исходники и последняя версия этой презентации на GutHub’е:github.com/laughedelic/bioinformatics-summer-school-2014