Хемоинформатика – это новое или забытое...

Post on 24-Jul-2020

12 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

Хемоинформатика – новое или забытое старое

И.С. Антипин, Т.И.Маджидов

2

Казань С.-

Петербург

Москва Варшава Киев Харьков

Н.Н.Зинин 1835-1847 1847-1880

А.М.Бутлеров 1850-1868 1868-1893

В.В.Марковников 1860-1871 1873-1904

А.М.Зайцев 1865-1910

А.Н.Попов 1865-1869 1869-1881

Е.Е.Вагнер 1874-1876 1886-1903

С.Н.Реформатский 1882-1891 1891-1934

А.А.Альбицкий 1882-1903 1903-1920

А.Е.Арбузов 1911-1968

Колыбель российской органической химии

И.С. Антипин, Т.И.Маджидов

Нет ничего практичнее хорошей теории Густав Роберт Кирхгоф

и ничего разрушительнее плохой

4

Хемоинформатика – новое или забытое старое

И.С. Антипин, Т.И.Маджидов

Нет ничего практичнее хорошей теории Густав Роберт Кирхгоф

и ничего разрушительнее плохой

5

Факты без теории – не наука А.М.Бутлеров

Теория химического строения органических соединений

> 65,000,000 химических соединений

Наиболее фундаментальной и привлекательной задачей синтеза является не создание новых соединений, а создание новых свойств.

Norris Award Lecture, 1968

Стартовая гипотеза

Синтез соединения

Анализ активности

Новое свойство!

Новая гипотеза

6

Метод проб и ошибок

Нобелевская премия по химии 2013 года:

за "развитие многомасштабных моделей комплексных химических систем"

Мартину Карплюсу (университет Страсбурга)

Майклу Левитту (Стенфордский университет)

Арье Варшель (университет Южной Каролины)

Квантовая химия Методы силовых полей (молекулярная

механика и динамика)

Хемоинформатика

Молекула = электроны и ядра Молекула = атомы и связи

Молекула = графы, свойства, характеристики, дескрипторы

Основные математические подходы

Квантовая химия

Методы силовых полей

Хемоинформатика

•Приближенное решение уравнения Шредингера:

HF, DFT, СI, …

•Классическая механика •Статистическая механика

•Теория графов •Математическая статистика •Теория компьютерного обучения

1-10 молекул 400 атомов

тысячи молекул миллион атомов

миллионы молекул

Хемоинформатика = (chemoinformatics, cheminformatics) Химическая информатика

7

Иохан Гаштайгер Computer-Chemie-Centrum and Institute for Organic Chemistry

University of Erlangen-Nürnberg

Хемоинформатика - применение методов информатики для решения химических проблем

Хемоинформатика – использование IT для решения химических задач

Хемоинформатика

Базы данных соединений, смесей и

реакций: создание, оперирование

данными, организация поиска

Предсказание свойств соединений и материалов:

физические, химические, физико-химические,

биологические, токсичность и многие другие

Структуры соединений, обладающих заданными свойствами:

лекарства, комплексо-образователи,

деэмульгаторы, растворители и их смеси, антипирены и

многие другие

Оптимизация свойств смесей и композитов Предсказание

условий химических реакций Предсказание

катализаторов

Основное применение в настоящее время:

Большая фармацевтическая промышленность

Химическая промышленность

Что дает хемоинформатика сейчас:

• Снижение на 15-30% финансовых затрат на разработку лекарств

• Экономия до 300 млн. $ США на разработку одного лекарства

12

G.M. Milne, Jr., F. Boca Grande, Annual Reports in Medicinal Chemistry, 2003, 38, 383-396

HITS

Докинг

~101 – 103 молекул

~106 – 109 молекул

Неактивные, неперспективные

Химическая база данных

Виртуальный скрининг

Поиск по подобию

Простые фильтры

Фармакофорные модели

(Q)SAR

1D 2D 3D

14

В 1869 году Д.И. Менделеев опубликовал первую версию его периодической системы. Даже в этой ранней версии он оставил места под неизвестные элементы

Периодический закон: Свойства соединений и соединений, ими образуемых, изменяются в периодической зависимости от атомных весов

16

Хемоинформатика – это новое !

Задача поиска требуемого соединения или реакции из существующего количества химических веществ и реакций сложнее, чем поиск иголки в стоге сена.

50 миллионов соломинок

> 65∙106 соединений в крупнейшей базе (SciFinder) > 55∙106 реакций в крупнейшей базе (SciFinder) ≈ 1060-10100 соединений может быть синтезировано (атомов < 15)

50∙106 соломинок в стоге (≈ 10 т) ≈1015 соломинок производится на земном шаре ежегодно ≈1080 -10108 атомов во Вселенной

18

Pyridoxine

(Vitamin B6)

Тривиальное название

4,5-bis(hydroxymethyl)-2-methylpyridin-3-ol

Номенклатурное название

Cc1ncc(CO)c(CO)c1O

Представление SMILES

InChI=1S/C8H11NO3/c1-5-8(12)7(4-11)6(3-10)2-9-5 /h2,10-12H,3-4H2,1H3

InChI - международный

химический идентификатор

Структурная формула

Представление в виде графа

узел -кислород

узел -азот

узел -углерод

ребро –двойная связь

ребро –одинарная связь

Представление химических структур

19

Линейная зависимость между x и y

Y = mx + b

Многопараметровые корреляции

Y = f (X1, X2…Xn)

Что такое дескриптор?

QSAR - Qualitative Structure-Activity Relationships

Физические свойства

◦ Молекулярный вес, log P (коэффициент распределения октанол/вода, температура кипения, плавления, дипольный момент, растворимость.

Структурные дескрипторы

◦ 2D

Количество атомов/связей

Число каждой функциональной группы

2C цепи, 3C цепи, 4C цепи, 5C цепи и т.д.

Кольца и их размер

◦ 3D

Число возможных конформаций

Площадь поверхности

Топологические дескрипторы

20

Гамметт (Hammett) (1930-1940) COOH COO + H K0

COOH COO + H KpX X

COOH COO + H Km

X X

para = log10

meta = log10

Kp

Km

K0

K0

CH2COOH CH2COO + H K'x

log10K'xK'0

X X

=

Биоактивность = log1/C C, концентрация лекарства обладающая терапевтической активностью (EC50, GI50,etc.) EL (электронный дескриптор): - константа Гаммета ( m, p, p

0, p

+, p-, R, F )

HPh (дескриптор гидрофобности): - константа гидрофобности заместителя, log P – коэффициент распределения вода-октанол ST (стерический дескриптор): Es - стерическая константа Тафта

Биоактивность = f (EL, ST, HPh) + constant

Hansch, C.; Fujita, T. J. Am. Chem. Soc., 1964, 86, 1616.

log1/C = a ( log P )2 + b log P + + Es + C

22

1χS = 0.25 Z Z / ( )

n

i j i j1/ 2

2

2

2 2

2

2 2

2

3

2

2

2

2 2

1

2

2 1

1

2 4

1 1

1

1

1

3 1

Соединение CH3CH2CH2CH3 CH3OC(CH3)2SH CH2=C(CF3)2

1χS 1.914 2.811 2.309

Молекулярный граф

Zi

δi

Алканы: циклические, линейные, разветвленные

Сольватационный топологический индекс

23

A. Cherkasov, University of Britain Columbia 24

Магаинин,

антибактериальный пептид с последовательностью:

GIGKFLHSAKKFGKAFVGEIMNS

не приводит к резистентности!

Michael A. Zasloff (NIH) Proc. Nat. Acad. Sci. USA 84, 5449-5453 (1987)

25 A. Cherkasov, University of Britain Columbia

26 A. Cherkasov, University of Britain Columbia

I. Billard, G. Marcou, A. Ouadi, A. Varnek, University of Strasbourg 27

Ионные жидкости для «тренировки» модели:

• Взяты из литературных данных, • Вязкость при 25°С от 40 до 800 сР

Сations Anions

imidazolium 47 (CF3SO2)2N− 28

tetraalkylammonium 46 PF6− 5

pyridinium 2 BF4− 5

pyrolidinium 4 fluorinated boron-containing alkyl chains

39

cyanamide 4

trifluoroacetyl-trifluoromethane-sulfonylazanide

7

carbanion 9

Дескрипторы:

Цепочки атомов Атом с ближайшим

окружением

Модель: искусственная нейронная сеть (ANN) R2 = 0.73 and RMSE = 67.5 cP

Получены компанией Solvionics

Ошибка предсказания (~70 cP) близка к

«шуму» в экспериментальных данных,

использованных для тренировки модели

I. Billard, G. Marcou, A. Ouadi, A. Varnek, University of Strasbourg

I. Billard, G. Marcou, A. Ouadi, A. Varnek, University of Strasbourg

Комбинаторно

сгенерировано

1000 IL

Модель

Выбраны 3 IL

для синтеза

(вязкость

различна)

Синтез и

измерение

вязкости

IL Предсказанная вязкость

Экспериментальная вязкость

N1 28 56

N2 53 49

N3 469 600

N1:

N2:

N3:

Предсказание пути синтеза

Предсказание условий проведения реакций

Автоматизированные системы химического синтеза

30

НИЛ Хемоинформатика и молекулярное

моделирование

The race is on to build a machine that can

synthesize any organic compound. It could

transform chemistry.

M. Peplow, Organic synthesis: The robo-chemist.

Nature (2014), 512, 20–22

Интеллектуальный анализ данных по

химическим реакциям

31

Около 108 реакций аннотировано в базах данных

Автоматически обрабатывать информацию о химических реакциях сложно. Большинство попыток получить полезную информацию или модели для химических реакций, основаны на анализе небольших, собранных вручную наборов данных.

> 40 млн. реакций

> 76 млн. реакций

Struebing, H. et al. Nat. Chem. 2013, 5 (11), 952–957. Marcou, G. et al. J. Chem. Inf. Model. 2015, 55 (2), 239–250.

«Большие данные» о химических реакциях

32

НИЛ Хемоинформатика и молекулярное

моделирование

Поиск похожих реакций и

поиск по подструктуре

Анализ и

визуализация

пространства

реакций

«Чистка» данных • Идентификация

пропущенных компонентов

• Атом-атомное отображение

Классификация реакций

Предсказание

характеристик реакций

(скорость, выход,

термодинамика …)

Автоматизированная обработка данных

Конденсированный граф реакции

Хранение данных о реакциях

Предсказание оптимальных

условий

«Поваренная» книга химиков-органиков

Новые представления

реакций

Интеллектуальный анализ химических реакций

Contract No. 14-43-00024

33

Конденсированный граф реакции (CGR)

Обычные химические связи: одинарные, двойные ароматические, …

Динамические связи: Разорванная одинарная, превращение двойной в одинарную, …

34

Квинтэссенция знаний в химии защитных групп

1054 защитные группы (PG)

11249 статей

Theodora W. Greene (1931-2005)

35

Green’s Reactivity Charts

H2/Raney

(Ni)

H2/ P

t,

pH

2-4

H2/Pd

H2/Lin

dla

r

H2/Rh

PG Catalytic Reduction

Me L L L L L

MOM L M L L L

THP L L L L L

t-Butyl L L L L L

Bn H H H L L

TPM H H H L L

Катализатор

Метод снятия

защиты

Наблюдения

H – уходящая PG; L – остающаяся PG; M – нельзя сделать четкого заключения

36

Недостатки книги Greene

36

• Reactivity Charts получаются ручным анализом относительно небольшого объема данных и, по этой причине, могут иметь место некоторые ошибки или предвзятость

• Не ясно в соответствии с какими количественными критериями – выход, % снятых и оставшихся групп – были присвоены метки реакционной способности групп (H, L или M);

• Reactivity Charts не принимают во внимание окружение защитной группы и изменения по этой причине реакционной способности защитных групп

37

Реакционная способность защитных групп как функция условий проведения реакции

1 2

1 Llàcer, E., P. Romea and F. Urpí (2006). Tetrahedron letters 47(32): 5815-5818

38

Данные

Катализатор или реагент

T время P выход растворитель Вся

95.6 45.1 57.6 33.5 67.8 83.7 10.9

% реакций для которых известна информация о температуре (T), давлении (P), времени проведения (t), выходе, растворителе, катализаторе или реагенте, либо все указанные параметры

Набор из 142111 реакций каталитического гидрирования, извлеченные из базы данных Reaxys (2012)

39

Процедура обработки данных

Удаление неподходящих или сомнительных данных

Стандартизация, атом-атомное отображение

Стандартизация имен катализаторов и добавок Pd

Исходный набор: 142 111 реакций

Подготовка CGR, расчет дескрипторов, подструктурный поиск

72230 реакций для 86 защитных групп

40

Сравнение с книгой Greene (защита спиртов)

- Согласие

- Противоречие

- Недостаточно данных (≤ 10 реакций)

- Нет данных в Reaxys DB

Защитная группа Raney (Ni) Pt, pH 2-4 Pd/C Lindlar Rh/C or

Rh/Al2O3

Me L L L L L

MOM L M L L L

MEM L M L L L

Cy L L L L L

t-Bu L L L L L

Bn H H H L H

TBDMS L H L L L

Ac L M L L L

piv L L L L L

Bz L L L L L

Ms H L L L L

51%

7%

42%

41

Оценка реакционной способности защитной группы на основе принципа схожести

Главная концепция:

Похожие соединения реагируют в схожих условиях

Реализация: Для данной пользователем реакции, программа проводит поиск наиболее похожей реакции в базе данных и возвращает ее условия проведения

Оценка схожести: это «вызов»!

42

Статья в J. Chem. Inf. Model.

43

Независимая валидация

Experimental conditions

Group Greene’s Reactivity

Charts

Expert system recommendation

Pd/C, Methanol

(1) to be cleaved (H) Pd-catalyst [Pd/C]

(2) remain (L)

Pd/C, Methanol

(1) to be cleaved (H)

Pd-catalyst [Pd/C]

(2) to be cleaved (H)

Pd/C, Methanol

(1) to be cleaved (H) Pd-catalyst [Pd/C] Ni-catalyst [Raney

Ni] (2) to be cleaved (H)

Pd/C, Ethanol

(1) to be cleaved (H) Pd-catalyst [Pd/C]

(2) remain (L)

Pd/C, Ethyl acetate

(1) to be cleaved (H) Pd-catalyst [Pd/C] Ni-catalyst [Raney

Ni] Lindlar [Lindlar]

(2) remain (L)

44

Лаборатория хемоинформатики – это…

44

…исследования

Предсказание оптимальных условий проведения химических реакций

Разработка и совершенствование химических информационных систем

Дизайн новых лекарств, веществ с наперед заданными свойствами

Теоретическое (квантовохимическое, молекулярномеханическое) объяснение

эксперимента

45

Лаборатория хемоинформатики – это…

45

…образование мирового уровня

•Математика, статистика •Квантовая химия •Программирование (Python, C/C++, Java, PHP) •Биология, биохимия •Химия

•Хемоинформатика •Молекулярное моделирование •Биоинформатика •Анализ данных •Дизайн лекарств •Web-технологии

1ый год 2ой год

Диплом КФУ

Диплом UdS

Двойной диплом

Двойной диплом

47

48

Научный руководитель

Проф., д.х.н.

Александр ВАРНЕК

(Страсбургский университет, Франция)

Лаборатория хемоинформатики – это…

48

Заведующий

Проф., д.х.н., член-корр. РАН

Игорь Сергеевич АНТИПИН

Молодая команда

исследователей

Н.с., к.х.н.

Тимур МАДЖИДОВ

М.н.с., к.х.н. Рамиль

НУГМАНОВ

Более 5 приглашенных исследователей и преподавателей ежегодно: И.И. Баскин (МГУ, Россия) И. Тетко (Центр Гельмгольца в Мюнхене, Германия) А. Тропша (Университет Северной Каролины, США) П. Полищук (Институт молекулярной и трансляционной медицины, Чехия) А. Черкасов (Университет Британской колумбии, Канада) В. Ткаченко (Королевское химическое общество, Великобритания)

Партнеры:

…люди

49

5-7 июля, 2017 Страница в Интернет: cimm.kpfu.ru/kssci2017

9 лекций 5 ключевых докладов 10 устных докладов 2 практических занятия ~80 участников, 5 иностранных докладчиков

Официальный язык: английский

50

Благодарю за внимание

top related