vvedenie v bioinformatiku_5_2

Молекулярный филогенез

ancestor

descendant 1 descendant 2

Предположение: жизнь - монофилетична

Любые два организма имеют общего предка в прошлом

extinct

extant 1 extant 2

Дистанцию (в генетическом смысле) между двумя огранизмами расчитываема.

И эта дистанция может быть переведена во временную шкалу

(5 M лет)Общий предок

(120 M лет)Общий предок

(1,500 M лет)Общий предок

(1,500 M лет)

(120 M лет)

(5 M лет)

Древо Жизни (The Tree of Life Homepage (University of Arizona))http://tolweb.org/tree/phylogeny.html

2002

Задачи филогенеза

• Реконструкция достоверных генеалогических ветвей биологических сущностей

• Оценка времени расхождения организмов

• Хронометраж последовательности событий вдоль вектора эволюции

Источники информации и базы данных в Интернете

Типы баз данных

• Всеобъемлющие базы данных

• Организмоспецифические

• Молекулярноспецифические

• Дополнительные базы данных

Проблемы• Биологические базы данных росли последние 20 лет:

1. Избыточность: множественные записи.

2. Неверные последовательности и записи.

• Открытость (данные добавляются пользователями):1. Изменения вносятся владельцами записей.

2. Старые последовательности.

3. Неверные последовательности.

4. Неполные аннотации.

Полные базы данных

Большие базы данных ДНК, РНК и белков.

Примеры: GenBank, EMBL, swissprot.

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exp’ profiles

NCBI - GenBank

• GenBank: открытая база данных нуклеотидных и аминокислотных последовательностей

• Источники информации: 1. Прямая подача от исследователей.

2. Литература.

3. Центры исследований последовательностей (Sanger, TIgr)

4. Обмен с другими базами (swiss-prot, PDB).

NCBI - GenBank

• GenBank поделён на подбазы:

1. Organism specific (Human, Bacteria, etc).

2. Molecule specific (DNA, RNA, protein).

3. Sequence specific (Genome, mRNA, ESTs etc).

EMBL

Параллельная GenBank база данных.

Swiss prot

База данных белков:

1. Очень хорошо аннотированная.

2. Отсутствует избыточность.

3. Имеются перекрёстные ссылки.

4. ID для нескольких связанных файлов белков

Организмоориентированные базы

http://www.yeastgenome.org/index.html

Молекулоспецифические базы

• Базы даных, ориентированные на группы молекул

GtRDB: The Genomic tRNA Database

PDB – Protein Data Bank

• Главная база данных 3D структур белков

• Включает порядка 23,000 белковых структур.

• Белки организованы в группы, семейства и т.д.

• Имеет порядка 5600 точных структур.

SCOP - Structural Classification Of Proteins

• Организована в соответствии со структурными семействами белков.

• Иерархическая система.

http://scop.mrc-lmb.cam.ac.uk/scop/

Текстовый поиск

Общие принципы:

1. Все главные базы предоставляют удобные средства для тектового поиска.

2. Поиск по ключевым словам или полям.

3. Одновременный поиск в нескольких базах.

4. Дополнительные условия (дата, длина и т.д.).

NCBI - Entrez

• Entrez - поисковая машина для баз NCBI.

• Поиск начинается с выбора адекватной области для поикса (Nucleotide, белки).

• Можно использовать определители полей, логические операторы, условия и т.д.

NCBI - Entrez

Ограничения:

Эффективность поискаЭффективность: время и адекватные результаты!

SRS (Sequence Retrieval System).

• Исталлирована на множестве серверов.

• Имеет связи со многими базами данных.

• Предоставляет множество инструментов и служб для анализа.

• Позволяет сохранить результаты работы и анализа и продолжить работу локально.

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Проект ENCODEhttp://genome.ucsc.edu/

vvedenie v bioinformatiku_5_2

Documents