vvedenie v bioinformatiku_5_2

31
Молекулярный филогенез

Upload: bioinformaticsinstitute

Post on 25-Dec-2014

75 views

Category:

Documents


3 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Vvedenie v bioinformatiku_5_2

Молекулярный филогенез

Page 2: Vvedenie v bioinformatiku_5_2

ancestor

descendant 1 descendant 2

Предположение: жизнь - монофилетична

Любые два организма имеют общего предка в прошлом

Page 3: Vvedenie v bioinformatiku_5_2

extinct

extant 1 extant 2

Дистанцию (в генетическом смысле) между двумя огранизмами расчитываема.

И эта дистанция может быть переведена во временную шкалу

Page 4: Vvedenie v bioinformatiku_5_2

(5 M лет)Общий предок

Page 5: Vvedenie v bioinformatiku_5_2

(120 M лет)Общий предок

Page 6: Vvedenie v bioinformatiku_5_2

(1,500 M лет)Общий предок

Page 7: Vvedenie v bioinformatiku_5_2

(1,500 M лет)

(120 M лет)

(5 M лет)

Page 8: Vvedenie v bioinformatiku_5_2

Древо Жизни (The Tree of Life Homepage (University of Arizona))http://tolweb.org/tree/phylogeny.html

2002

Page 9: Vvedenie v bioinformatiku_5_2
Page 10: Vvedenie v bioinformatiku_5_2
Page 11: Vvedenie v bioinformatiku_5_2

Задачи филогенеза

• Реконструкция достоверных генеалогических ветвей биологических сущностей

• Оценка времени расхождения организмов

• Хронометраж последовательности событий вдоль вектора эволюции

Page 12: Vvedenie v bioinformatiku_5_2

Источники информации и базы данных в Интернете

Page 13: Vvedenie v bioinformatiku_5_2

Типы баз данных

• Всеобъемлющие базы данных

• Организмоспецифические

• Молекулярноспецифические

• Дополнительные базы данных

Page 14: Vvedenie v bioinformatiku_5_2

Проблемы• Биологические базы данных росли последние 20 лет:

1. Избыточность: множественные записи.

2. Неверные последовательности и записи.

• Открытость (данные добавляются пользователями):1. Изменения вносятся владельцами записей.

2. Старые последовательности.

3. Неверные последовательности.

4. Неполные аннотации.

Page 15: Vvedenie v bioinformatiku_5_2

Полные базы данных

Большие базы данных ДНК, РНК и белков.

Примеры: GenBank, EMBL, swissprot.

Имеется обмен информацией между базами

Page 16: Vvedenie v bioinformatiku_5_2

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exp’ profiles

Page 17: Vvedenie v bioinformatiku_5_2

NCBI - GenBank

• GenBank: открытая база данных нуклеотидных и аминокислотных последовательностей

• Источники информации: 1. Прямая подача от исследователей.

2. Литература.

3. Центры исследований последовательностей (Sanger, TIgr)

4. Обмен с другими базами (swiss-prot, PDB).

Page 18: Vvedenie v bioinformatiku_5_2

NCBI - GenBank

• GenBank поделён на подбазы:

1. Organism specific (Human, Bacteria, etc).

2. Molecule specific (DNA, RNA, protein).

3. Sequence specific (Genome, mRNA, ESTs etc).

Page 19: Vvedenie v bioinformatiku_5_2

EMBL

Параллельная GenBank база данных.

Page 20: Vvedenie v bioinformatiku_5_2

Swiss prot

База данных белков:

1. Очень хорошо аннотированная.

2. Отсутствует избыточность.

3. Имеются перекрёстные ссылки.

4. ID для нескольких связанных файлов белков

Page 21: Vvedenie v bioinformatiku_5_2

Организмоориентированные базы

Page 22: Vvedenie v bioinformatiku_5_2

Молекулоспецифические базы

• Базы даных, ориентированные на группы молекул

GtRDB: The Genomic tRNA Database

Page 23: Vvedenie v bioinformatiku_5_2

PDB – Protein Data Bank

• Главная база данных 3D структур белков

• Включает порядка 23,000 белковых структур.

• Белки организованы в группы, семейства и т.д.

• Имеет порядка 5600 точных структур.

Page 24: Vvedenie v bioinformatiku_5_2

SCOP - Structural Classification Of Proteins

• Организована в соответствии со структурными семействами белков.

• Иерархическая система.

Page 25: Vvedenie v bioinformatiku_5_2

Текстовый поиск

Общие принципы:

1. Все главные базы предоставляют удобные средства для тектового поиска.

2. Поиск по ключевым словам или полям.

3. Одновременный поиск в нескольких базах.

4. Дополнительные условия (дата, длина и т.д.).

Page 26: Vvedenie v bioinformatiku_5_2

NCBI - Entrez

• Entrez - поисковая машина для баз NCBI.

• Поиск начинается с выбора адекватной области для поикса (Nucleotide, белки).

• Можно использовать определители полей, логические операторы, условия и т.д.

Page 27: Vvedenie v bioinformatiku_5_2

NCBI - Entrez

Ограничения:

Page 28: Vvedenie v bioinformatiku_5_2

Эффективность поискаЭффективность: время и адекватные результаты!

Page 29: Vvedenie v bioinformatiku_5_2

SRS (Sequence Retrieval System).

• Исталлирована на множестве серверов.

• Имеет связи со многими базами данных.

• Предоставляет множество инструментов и служб для анализа.

• Позволяет сохранить результаты работы и анализа и продолжить работу локально.

Page 30: Vvedenie v bioinformatiku_5_2

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Page 31: Vvedenie v bioinformatiku_5_2

Проект ENCODEhttp://genome.ucsc.edu/