Банки информации
DESCRIPTION
Банки информации. в молекулярной биологии С.А.Спирин 11 /III – 2006. Пример информации. последовательность ДНК. gatcaacactacttgacttcaagacttaccataaagaaaactatagtgtggtattggcaa aagacaagacaaatagatcaacataacaaaataaagggccatgaaatagacccatatagt - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/1.jpg)
Банки информациив молекулярной биологии
С.А.Спирин11/III – 2006
![Page 2: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/2.jpg)
Пример информациипоследовательность ДНК
gatcaacactacttgacttcaagacttaccataaagaaaactatagtgtggtattggcaaaagacaagacaaatagatcaacataacaaaataaagggccatgaaatagacccatatagtcaattgatttttgacaaagaaggattggcaatagaatggggtaaagatagtcttctcaacaaacggtaccagaatgactgaatacccacatgcaaaaagaaaaagaaatgaacctagacacagatcttatacagttcacaaaaatgtaactcaaaatgaatcatagacctaaatataatattcaagactataaaaccctaaaatataacataggggaaaatctaaacaatcttgagtttgttaatgactttttagatacaataccaaaggcaggatccaggaaagaatcgataagctgggcttcattaaaattaaaatatttctgctctatgaagccactgtcaagagaaggaaaaggcaagccatagactgggagaaaatatttacaaaagacatacatgataaaggactattatccaaaatgtacaaagaactctaaaaaacttaacaataagaaaacaaacccaactaaaaactgggccaaagatcttaacagatatattaccaaagaagatacacagatggcaaataagcataaaaagattaaccacatcatacgtcattaagaaattgcaaattaaaacaacaatgagacaccattatacacctagtagaatgacccaaatccagattactgacataatcaaatgctgacaaggatgtggagaaacaggaactgccattcttgggttgtgggaatgccaaatggtatgcctgctttggaagacagcttggtggtttcttacaacactaagcatactcttaccaaaagatcgagca
![Page 3: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/3.jpg)
Вообще-то ДНК — это молекула...
Примеры молекул:
Сульфат Фенол Фосфат тиамина(атомы водорода не показаны)
![Page 4: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/4.jpg)
Молекула ДНК
A C G TC N O P
![Page 5: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/5.jpg)
Одну нить ДНК можно условно обозначить последовательностью букв
CGCCATAAATCAC
![Page 6: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/6.jpg)
Детали строения молекул в микроскоп не видны!
~ 0,00001 мм
Существуют сложные и дорогие методы расшифровки структуры молекул
![Page 7: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/7.jpg)
В конце 1970-х годов был открыт относительнобыстрый и дешёвый метод расшифровки
последовательности оснований в ДНК
Организм ДНК «в пробирке» Последовательность
выделение секвенирование...CGCCATAAATCAC...
![Page 8: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/8.jpg)
Последовательность ДНК (пример)
gatcaacactacttgacttcaagacttaccataaagaaaactatagtgtggtattggcaaaagacaagacaaatagatcaacataacaaaataaagggccatgaaatagacccatatagtcaattgatttttgacaaagaaggattggcaatagaatggggtaaagatagtcttctcaacaaacggtaccagaatgactgaatacccacatgcaaaaagaaaaagaaatgaacctagacacagatcttatacagttcacaaaaatgtaactcaaaatgaatcatagacctaaatataatattcaagactataaaaccctaaaatataacataggggaaaatctaaacaatcttgagtttgttaatgactttttagatacaataccaaaggcaggatccaggaaagaatcgataagctgggcttcattaaaattaaaatatttctgctctatgaagccactgtcaagagaaggaaaaggcaagccatagactgggagaaaatatttacaaaagacatacatgataaaggactattatccaaaatgtacaaagaactctaaaaaacttaacaataagaaaacaaacccaactaaaaactgggccaaagatcttaacagatatattaccaaagaagatacacagatggcaaataagcataaaaagattaaccacatcatacgtcattaagaaattgcaaattaaaacaacaatgagacaccattatacacctagtagaatgacccaaatccagattactgacataatcaaatgctgacaaggatgtggagaaacaggaactgccattcttgggttgtgggaatgccaaatggtatgcctgctttggaagacagcttggtggtttcttacaacactaagcatactcttaccaaaagatcgagca
![Page 9: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/9.jpg)
Для хранения все возрастающей информации о последовательностях
ДНК в 1982 году был основан GenBank
GenBank — хранилище последовательностей нуклеиновых кислот в виде компьютерных файлов
Объем GenBank’а:1982: 680 338 букв в 606 последовательностях
1992: 101 008 486 букв в 78 608 последовательностях
2002: 28 507 990 166 букв в 22 318 883 последовательностях 2004: 44 575 745 176 букв в 40 604 319 последовательностях 2005: 56 037 734 462 букв в 52 016 762 последовательностях (из ~165 000 организмов)
Размер файлов — 196 Gb
![Page 10: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/10.jpg)
International Nucleotide Sequence Database Collaboration
GenBank(США)
EMBL(Европа)
DDBJ(Япония)
Ежедневный обменданными
![Page 11: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/11.jpg)
Структура документа GenBank’а
Описание
Последовательность
![Page 12: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/12.jpg)
GenBank — архивная база данных
Один эксперимент — один документ
Зачем в документе GenBank’а описательная часть?
Ответы: 1) чтобы пользователь банка мог найти интересующую его последовательность;2) для хранения дополнительной информации (откуда ДНК, кто проводил эксперимент по секвенированию,биологическая роль данной последовательности и т.д.)
![Page 13: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/13.jpg)
Основная проблема больших банков данных — быстрый поиск нужной информации
Для удобства пользования описательная часть документа GenBank разбита на так называемые поля (“fields”)
Общий принцип: любая база данных состоит, с одной стороны, из записей (или «документов»), а с другой стороны, из полей. Каждаязапись есть наполнение содержанием нескольких (или всех) полей.
Пример базы данных — телефонная книга.
Записи соответствуют абонентам.Примеры полей: фамилия, инициалы, адрес, телефон.
![Page 14: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/14.jpg)
Основная проблема больших банков данных — быстрый поиск нужной информации
Как найти интересующую нас последовательность в GenBank’е?
Существуют специальные компьютерные программы (например, SRSили Entrez), предназначенные для поиска по ключевым словам в банкахпоследовательностей.
Пользователь указывает программе, по каким полям нужно искать икакое слово (или слова). Программа выдаёт список записей банка,в которых указанные слова встретились в указанных полях.
![Page 15: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/15.jpg)
Примеры задания на поиск
• “gene” в поле DEFINITION
• “yeast” в поле ORGANISM
• “Ivanov” в поле AUTHORS
• “yeast” в поле ORGANISM И “tRNA” в поле DEFINITION
• “mouse” ИЛИ “rat” в поле ORGANISM
![Page 16: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/16.jpg)
Как искать?
• Перебрать все 52 млн. записей, и в каждой посмотреть, есть ли в соответствующем поле заданное слово.
• Заранее создать индексную таблицу каждого из полей и при каждом запросе обращаться к ней
Это долго даже современному компьютеру!
![Page 17: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/17.jpg)
Мораль: при создании программ для работыс биологическими базами данных
необходимо использовать достижениятеории алгоритмов
![Page 18: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/18.jpg)
Что такое биоинформатика?
• Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции).
• Изучение и внедрение в компьютерную науку «биологических» методов анализа информации (нейросетей, генетических алгоритмов, нечеткой логики и др.).
• Применение компьютерных методов для решения биологических задач.
• Телепатия, парапсихология, информационные поля и т.п.
?
![Page 19: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/19.jpg)
Что такое биоинформатика?
• Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции).
• Изучение и внедрение в компьютерную науку «биологических» методов анализа информации (нейросетей, генетических алгоритмов, нечеткой логики и др.).
• Применение компьютерных методов для решения биологических задач.
• Телепатия, парапсихология, информационные поля и т.п.
![Page 20: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/20.jpg)
Биоинформатикаи её связи с другими дисциплинами
Биоинформатика(компьютерная молекулярная биология)
Молекулярная биология
Информатика(в том числе теория алгоритмов)
Теория вероятностейи математическая статистика
![Page 21: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/21.jpg)
Основные объекты современной биоинформатики
• Последовательности нуклеиновых кислот
• Последовательности белков
• Пространственные структуры макромолекул (белков, ДНК и РНК) и их комплексов (друг с другом и с малыми молекулами)
![Page 22: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/22.jpg)
Что такое белок
Пространственная структура
RRNFSKQASE ILNEYFYSHLSNPYPSEEAK EELARKCGITVSQVSNWFGN KRIRYKKNI
Последовательность
![Page 23: Банки информации](https://reader030.vdocuments.pub/reader030/viewer/2022032709/568132aa550346895d994f4a/html5/thumbnails/23.jpg)
Банки структурной биологической информации
GenBank, EMBL, DDBJ RefSeq
Архивные базы последовательностейнуклеиновых кислот
Автоматическая базаразличных последовательностей НК
SwissProt
Курируемая базапоследовательностейбелков
TrEMBL
Автоматическая базапредсказанийпоследовательностей белков
PDB
Архивная база пространственныхструктур макромолекул
И многие другие...