vvedenie v bioinformatiku_5_1

58
Структурное выравнивание Структурное выравнивание - Структура vs Структура - Докинг Структурное моделирование (Структура vs Структура) - Homology modeling - Fold recognition/ Threading

Upload: bioinformaticsinstitute

Post on 23-Dec-2014

95 views

Category:

Documents


2 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Vvedenie v bioinformatiku_5_1

Структурное выравнивание

• Структурное выравнивание

- Структура vs Структура

- Докинг

• Структурное моделирование (Структура vs Структура)

- Homology modeling

- Fold recognition/ Threading

Page 2: Vvedenie v bioinformatiku_5_1

Structural Alignment

1) Conserved 1º sequences похожие структуры

2) Похожие структуры conserved 1º sequences

?

Page 3: Vvedenie v bioinformatiku_5_1

Почему структурное выравнивание?

• Группировка/классификация белков по структурам (по схожести)

• Определение вклада отдельных аминокислот в образование 3D структуры

• Определение дистантных гомологов в белковых семействах

• Предсказание функции белков с низким уровнем sequence similarity с другими белками

• Исследования:– Структурно-функциональные отношения

– Эволюция

– Общие блоки\сайты связывания - мотивы

Page 4: Vvedenie v bioinformatiku_5_1

Distance Based Matrix

A B

DDM’s

• Самый простой метод сравнения структур

• Не требует ни трансформаций, ни поворотов, ни совмещений

• Очень эффективен для поиска движений в шарнирах или локальных отличий

• Интуитивно понятная мера похожести

Page 6: Vvedenie v bioinformatiku_5_1

Выравнивание структур белков

• Уровни описания структуры: – Atom

– Group

– Fragment

– Элементы вторичной структуры (SSE)

• Описание структуры - особенности: – Геометрия/архитектура - координаты/относительные позиции

– Топология - порядок аминокислот в белке, взаиморасположение мотивов

– Свойства - физико-химические свойства аминокислот

6

Page 7: Vvedenie v bioinformatiku_5_1

Описание структурStructure I Structure II

Feature Extraction

Structure Description I

Structure Description II

Comparison Algorithm

ConstrainsScoring

Equivalence

RMSScoring

Assessment

Statistical Significant? Accurate?

•Scoring Equivalences:•Coordinate based - defined using a transformation of one structure onto the other:root mean square deviation – RMSd•Similarity of properties between equivalenced elements - conserved/similar amino acid•Similarity of relations between pairs of equivalenced elements - similar distances, internal RMSd

•Pitfalls of RMSD:•all atoms are treated equally (residues on the surface have a higher degree of freedom than those in the core)•best alignment does not always mean minimal RMSD•significance of RMSD is size dependent

•Alternative RSMDs•aRMSD = best root-mean-square deviation calculated over all aligned alpha-carbon atoms •bRMSD = the RMSD over the highest scoring residue pairs •wRMSD = weighted RMSD

( W. Taylor(1999), Protein Science, 8: 654-665.http://www.prosci.uci.edu/Articles/Vol8/issue3/8272/8272.html#relat)

Page 8: Vvedenie v bioinformatiku_5_1

Поиск оптимального выравнивания

B

• Поиск наибольшего количества атомов, выравненных с наименьшим RMSD (Root Mean Squared Deviation)

• Поиск баланса между локальными областями с очень хорошим выравниванием и общим выравниванием

Page 9: Vvedenie v bioinformatiku_5_1

Требования для сравнения структур

1. Какой атом структуры A соответствует другому атому структуры B?

Вариант ответа – в выравнивании последовательнсотей

THESESENTENCESALIGN----NICLEY

| | | | | | | | | | | | | | | | | | | | |

THE—SEQ--ENCE--ALIGNEDNICELY

2. Позиции\координаты атомов в структуре? Ответ: PDB-файлы (Dihedral angles, bond lengths …)

9

How good is a particular choice How good is a particular choice of heuristic and what is the of heuristic and what is the computational cost of the computational cost of the search?search?

Page 10: Vvedenie v bioinformatiku_5_1

Локальное выравнивание вторичных структур

Поиск первичного выравнивания двух белков при помощи динамического программирования для векторов вторичной структуры

A B

Page 11: Vvedenie v bioinformatiku_5_1

Сопоставление атомов

• Применение жадных методов ближайшего соседа для минимизации RMSD между Cα атомами пробы и шаблона (i.e. поиск локальных минимумов в пространстве выравнивания)

Page 12: Vvedenie v bioinformatiku_5_1

Core Superposition

Поиск лучшего выравнивания последовательно идущих Cα атомов и минимизация RMSD между ними

Page 13: Vvedenie v bioinformatiku_5_1

RMSD в множественном выравнивании структур

A B

Page 14: Vvedenie v bioinformatiku_5_1

RMSD без выравнивания

• 0.0-0.5 Å -> Essentially Identical

• <1.5 Å -> Very good fit

• < 5.0 Å -> Moderately good fit

• 5.0-7.0 Å -> Dubious relationship

• > 7.0 Å -> Structurally related

• > 12.0 Å -> Completely unrelated

Page 15: Vvedenie v bioinformatiku_5_1

Пример: Zinc Fingers

248 atoms RMS = 1.42Å

3znf and 4znf

30 CA atoms RMS = 0.70Å

Page 16: Vvedenie v bioinformatiku_5_1

Сервера для выравнивания структур

• LOCK - hierarchical protein structureSuperposition

• 3dSearch - fast secondary structuresuperposition

• CE - Tools for 3-D Protein Structure Comparison and AlignmentUsing the Combinatorial Extension (CE) Method (no hetero atoms).

•Дополнительная информация об алгоритмах

•http://cmgm.stanford.edu/~brutlag/Papers/singh00.pdf

Page 17: Vvedenie v bioinformatiku_5_1

Алгоритмы структурного выравнивания

Distance based methods: DALI (Holm and Sander): Aligning scalar distance plots (similarity between the 2-D distance

matrices)

STRUCTAL (Gerstein and Levitt): Dynamic programming using pair wise inter-molecular distances

SSAP (Orengo and Taylor): Dynamic programming using intra-molecular vector distances MINAREA (Falicov and Cohen): Minimizing soap-bubble surface area

Vector based methods:

VAST (Bryant): Graph theory based secondary structure alignment 3dSearch (Singh and Brutlag): Fast secondary structure index lookup

Both

LOCK (Singh and Brutlag): Hierarchically uses both secondary structure vectors and atomic distances

Page 18: Vvedenie v bioinformatiku_5_1

Docking и Scoring

Page 19: Vvedenie v bioinformatiku_5_1

How Do You Du(o)ck?

Page 20: Vvedenie v bioinformatiku_5_1

Ресурсы

Reviews in computational chemistry, vol. 17, 2001, 1-59http://www.zbi.uni-saarland.de/zbi/stud/lehrveranstaltungen/ws01/bioinformatikI/materialien/PL-Docking.pdfReviews in comp. chem., Vol 17. 2001. Ed. Kenny B. Lipkowitz, Donald B. Boyd

Page 21: Vvedenie v bioinformatiku_5_1

Почему докинг?

Молекулярное узнавание – центральный феномен в биологии• Ферменты Субстраты• Рецепторы Сигналы (лиганды)• Антитела Антигены

Классификация проблем докинга • Докинг белок-лиганд

–Rigid-body докинг–Flexible докинг

• Докинг белок-белок• Докинг белок-ДНК

Page 22: Vvedenie v bioinformatiku_5_1

Проблема молекулярного докинга

Дано: две молекулы в 3D с атомарным разрешением:

• Связываются ли они друг с другом? Если да:• Как выглядит комплекс?• Насколько сильно связывание?

Структуры белок-лиганд• X-ray (PDB: 20946 entries from X-ray)• NMR

Важность 3D структур• Разрешение < 2.5Å• Проблема моделирования гомологов

Page 23: Vvedenie v bioinformatiku_5_1

Основные принципыСвязывание молекул основано на взаимодействии

• H-связи, солевые мостики, гидрофобные контакты, эдектростатические взаимодействия

• Очень сильное отталкивающее влияние VdW на коротких дистанциях.

Случайные взаимодействия – слабые и короткие.• Сильное связывание предполагает комплементарность

поверхностей.Большинство молекул гибкие.

Page 24: Vvedenie v bioinformatiku_5_1

Binding Affinity

Склонность к связыванию – энергетическая разность между связанным и свободным состояниями.

• Среда (обычно вода) играет важную роль.• Энтропия вносит значимый вклад.

Binding affinity описывает комплекс, а не единичные структуры.

Page 25: Vvedenie v bioinformatiku_5_1

Applications

Оценка склонности к связыванию• Поиск ключевых структур для белка\ов

(виртуальный скрининг).• Оценка влияния модификаций ключевых

структур.• Дизайн лигандов De Novo.• Создание библиотек.

Предсказание молекулярных комплексов.• Распознавание вида связывания.• Оптимизация ключевых структур.

Page 26: Vvedenie v bioinformatiku_5_1

Docking и Scoring

Идентификация верного связывания лиганда с активным сайтом

• Пробы• Spatial DOF• Internal DOF

Идентификация верного связывания по наименьшей энергии

• Функции скоринга - оценка

ТребованияХарактеристки

Page 27: Vvedenie v bioinformatiku_5_1

Требования и характеристики

Требования• Осуществить докинг и его оценку для базы

структурно различных (гипотетически) соединений.• Идентифицировать weak binders среди non-binders.• Идентифицировать как минимум одно соединение с

низкой IC50 mM активностью.• Оценить ~10000 лигандов в день на процессор.• RMS между экспериментом и моделью дока < 2Å -

допустимо.

Характеристики• Высокий уровень false positives и false negatives.• Отсутствие универсальной функции оценки.

Page 28: Vvedenie v bioinformatiku_5_1

False Positive и False negative

База данных – 100000 соединений, среди которых 20 - хорошо связывающихся.

При 50% false negatives имеем 10 binders.

При 1% false positives имеем 1000 false positives.

Если мы можем лабораторными методами проверить 50 50 молекул (серьезный труд) из 1010 позитивных хитов, то 60% за то, что мы не получим ни одного верного соединения.

Для того, чтобы достичь 90% успеха в определении верного хита уровень false positives должен быть 0.2%

Допустим

Page 29: Vvedenie v bioinformatiku_5_1

Что такое Docking?

• Вычислительный подход к предсказанию взаимодействий между белками или между белками и другими молекулами (лигандами)

• Предположение: компоненты, которые хорошо стыкуются, могут и связываться друг с другом.

• Предсказание какие протеины могут взаимодействовать друг с другом

• Предсказание сайтов для такого взаимодействия

• Автоматизированное предсказание для белок–лекарственного взаимодействия

• Улучшение и облегчение инженерии белков и разработки лекарств (drug design)

Page 30: Vvedenie v bioinformatiku_5_1

Docking – почему это важно?

• Биомолекулярные взаимодействия – ядро всех регуляторных и метаболических процессов.

• Роль компьютерного анализа возрастает, поскольку растут объёмы баз данных известных структур.

• Увеличение вычислительных мощностей позволяет производить более детальный анализ и предсказание молекулярных взаимодействий.

• Автоматизированное предсказание молекулярных взаимодействий – ключ к рациональной разработке новых лекарств.

Page 31: Vvedenie v bioinformatiku_5_1

Цели докинга

• Для двух заданных биомолекул определить:

1. Могут ли они взаимодействовать согласно Gibbs free energy

Есть ли такая энергетически выгодная ориентация двух молекул,

при которой одна может модифицировать функцию\свойства

другой?

Могут ли две молекулы «соответствовать» друг другу в каком-

либо энергетически выгодном состоянии?

2. Если могут, то какова их ориентация, которая сделает взаимодействие

максимальным при минимизации общей «энергии» комплекса?

• Цель: Найти такие молекулы в базах данных молекулярных структур.

Page 32: Vvedenie v bioinformatiku_5_1

Docking – Совмещение (Superposition)

• Найти матрицу трансформации, которая наилучшим образом перекроет стол и стул. Иными словами найти такую матрицу трансформации, которая минимизирует RMS между соответствующими точками стола и стула.

• Соответствия:

• Верх стула – верх стола

• Бок стула – бок стола и т.д.

Page 33: Vvedenie v bioinformatiku_5_1

Алгоритм абсолютной ориентации

Ключ – нахождение соответствующих точек между двумя структурами

Docking – Совмещение (Superposition)

Page 34: Vvedenie v bioinformatiku_5_1

Docking – почему это так непросто?

Обе молекулы гибкие и могут изменять друг друга во время взаимодействия:

• Степени свободы

• Допустимые конформации

Page 35: Vvedenie v bioinformatiku_5_1

Белок-белковое взаимодействие

• Обе молекулы рассматриваются как rigid bodies (но можно и иначе!).

• Огромная область для поиска (6 dof: 3 поворота, 3 перемещения)

• Стерические/энергетические ограничения для уменьшения области поиска.

Page 36: Vvedenie v bioinformatiku_5_1

Полости, впадины и взаимодействие

•CASTp Идентификация и характеризация областей на поверхности (и внутренних, недоступных для взаимодействия) белков и иных молекул. •MolSurfer Белок-белковые интерфейсы •PASSБыстрое определение и визуализация впадин для предсказания сайтов связывания•Surface RacerРасчет доступной дл явзаимодействия поверхности, её кривизны и впадин (включая внутренние). •SURFNETПоверхности и доступные области на молекулярных поверхностях•ASC Набор скриптов для расчета поверхностей на базе PDB файла

Page 37: Vvedenie v bioinformatiku_5_1

CAPRI

• CAPRI: Critical Assessment of PRediction of Interactions

First community wide experiment on the comparative evaluation of protein-protein docking for structure prediction

Hosted By EMBL/EBI-MSD Group

Page 38: Vvedenie v bioinformatiku_5_1

Жесткий докинг

Допущения• Ригидный белок• Ригидный лиганд

Применения метода• Докинг малых или очень ригидных молекул.• Докинг фрагментов (гибкий докинг дизайн De

Novo).• Докинг по базе мульти-конформеров.

Page 39: Vvedenie v bioinformatiku_5_1

The Clique MethodСопоставляем подходящие точки/характеристики двух молекул (рецептора и лиганда).

1. Для N сайтов рецептора и n сайтов лиганда образуем N x n узлов.2. Для каждой пары узлов определяем Δd = D receptor sites – D ligand sites.3. При Δd < ε, соединяем узлы линиями.4. A clique – подграф, в котором все узлы соединены между собой.

A

BC

D

рецептор

b

ca

лиганд

Aa

Ab

Ba

Ca CbAc

BcBb

Cc

Da

Db

Dc

Distance compatibility graph

Page 40: Vvedenie v bioinformatiku_5_1

The Dock Programhttp://www.cmpharm.ucsf.edu/kuntz/dock35/dock_demo.html

X-ray structure of HIV protease Connolly surface for active site

Active site заполнен сферами. Их центры – потенциальные места для атомов лиганда.

Page 41: Vvedenie v bioinformatiku_5_1

The Dock Program

Центры сфер соответствуют атомам лиганда. Используя clique technique (до 4 точек на cliques), можно определить возможные ориентации лиганда. Обычно генерируется несколько десятков тысяч ориентаций для каждой молекулы.

Лиганд представляется как перекрывающиеся сферы (или как атомы)

ScoringShape scoring – используя аппроксимацию: Lennard-Jones potential.Electrostatic scoring – ПО DELPHI , расчет электростатического потенциала.Force-field scoring – потенциал AMBER.

Модель с наивысшим score vs X-ray структура

Page 42: Vvedenie v bioinformatiku_5_1

Гибкий докинг: ДопущенияГибкость лиганда ограничена торзионными углами + кольцевыми структурами.

• Конформационные ансамбли–Жесткий докинг пула конформаций для каждой

молекулы (DOCK).• Фрагментация лиганда

–Постепенно наращиваемые конструкции (FlexX)–«Вписываем-соединяем»

• Явный конформационный поиск–Генетические алгоритмы (GOLD)–Monte Carlo (LigandFit)

• СимуляцииБелок рассматривается как почти полностью жесткая молекула

• Множественные модели белка (FlexE)• Симуляции

Page 43: Vvedenie v bioinformatiku_5_1

Гибкий докинг: Применения

Анализ комплексов, поиск возможных вариантов связывания.

Виртуальный скрининг по базам малых молекул.

Page 44: Vvedenie v bioinformatiku_5_1

Incremental Construction

Стратегия• Разбиение молекулы на фрагменты.• Вставка одного или нескольких фрагментов в активный

сайт, игнорируя положение остальных.• Последовательное добавление остальных фрагментов.

Стратегия поиска• Жадный поиск: После добавления фрагмента – выбор

конформацию с наивысшей оценкой. Остальные отбрасываем.

–Линейный масштаб от количества фрагментов.–Без учета возможных взаимодействий между

фрагментами.

Page 45: Vvedenie v bioinformatiku_5_1

The FlexX Programhttp://cartan.gmd.de/flexx/

Взаимодействия белок-лиганд описываются типами и геометрией.Типы взаимодействия делятся на группы и «антигруппы».

Уровень взаимодействия - геометрия.Чем выше уровень, тем более строгие требования к геометрии взаимодействия.

Group Counter group Level

Hydrogen bond acceptor Hydrogen bond donor 3Metal acceptor Metal 3Aromatic ring atom, methyl, amide Aromatic ring center 2Aliphatic carbons, aromatic carbons, sulfur 1

Page 46: Vvedenie v bioinformatiku_5_1

Геометрия взаимодействияВзаимодействие между группой A лиганда и группой B белка наблюдается, если:1. Группа взаимодействия B находится в антигруппе A.2. Центр взаимодействия A лежит примерно на

поверхности взаимодействия B и наоборот.

O Центр взаимодействия

Поверхность взаимодействия

O

HN

H-bond donor

H-bond acceptor

Page 47: Vvedenie v bioinformatiku_5_1

Геометрия взаимодействия

Hydrogen bonds (3)

Hydrophobic:Aromatic (2)

Hydrophobic: Aliphatic (1)

Page 48: Vvedenie v bioinformatiku_5_1

Гибкость белков

• Protein flexibility and drug design: how to hit a moving target

• Несмотря на миллионы лет эволюции, создававшей рецепторы, которые могут распознавать специфический лиганд мы все ещё можем идентифицировать молекулы, которые связываются с ним с большей афинностью

• Сайт связывания может взаимодействовать с множеством молекул – существует возможность реорганизации сайта с относительно небольшим «штрафом» для соответствия малой молекуле.

• Двойная природа сайта связывания– высокая стабильность и высокая гибкость (зачастую большая, чем у белка в целом).

• Парадигма «Ключ-замок» устарела. Белок – совокупность предопределенных состояний.

Carlson/ Curr. Op. Chem. Biol. 2002, 6: 447-452.

Page 49: Vvedenie v bioinformatiku_5_1

Решения

Использование единичной структуры белка в эксперименте докинга может пропустить возможное взаимодействие

Cross docking• Докинг всех лигандов на все имеющиеся структуры

белка с дальнейшим объединением в ранжированный список.

• Ограничено имеющимися конформациями белка.Protein flexibility

• FlexE–Включает все комбинации структур белка.

Page 50: Vvedenie v bioinformatiku_5_1

Гибкость белков

Page 51: Vvedenie v bioinformatiku_5_1

Взаимодействие «Белок-Лиганд»

Идентификация сайтов взаимодействия между белком (rigid body) и подвижной, гибкой малой молекулой (лигандом)

Очень большое поле поиска

Рассматривать лиганд как rigid body

Или как фрагменты rigid body, соединенные гибкими связками.

Метод Монте-Карло или MD.

Page 52: Vvedenie v bioinformatiku_5_1

Лиганд2 типа:

-Связывание средней силы, но в конформации c минимальной свободной энергией (most populated).

или

- Сильное связывание с менее выгодной конформацией (less populated). Связывание может сдвигать распределение (induced-fit system).

Page 53: Vvedenie v bioinformatiku_5_1

Взаимодействие «белок-лиганд». Серверы

LPC-CSU Server: Предсказание контактов «лиганд-белок» и контактов структурных элементов

LigBase: Структурная БД сайтов связывания

Page 54: Vvedenie v bioinformatiku_5_1

Multiple Protein Structure•Abl связывается с STI-571 в неактивной конформации петли Abl.

•Abl связывается с PD173955 – «петля активации» в иной конформации (активная киназа).

Nagar et al./ CANCER RESEARCH 62, 4236–4243, August 1, 2002

Page 55: Vvedenie v bioinformatiku_5_1

MPS

Nagar et al./ CANCER RESEARCH 62, 4236–4243, August 1, 2002

Page 56: Vvedenie v bioinformatiku_5_1

Grid Based Dock Scoring• Сначала - Расчет вероятных взаимодействий

•Построение сети – объем такой же, как и у белка

• Расчет стерических и электростатических взаимодействий в каждой точке сети

• Ориентация лиганда – scoring суммированием взаимодействий с точками сети

Пренебрегаем:

• электростатические взаимодействия с растворителем

• изменения энтропии

• изменения конформации белка

Page 57: Vvedenie v bioinformatiku_5_1

Drug Design

Page 58: Vvedenie v bioinformatiku_5_1

Drug Design

~6-7 лет. 3 фазы