Хемоинформатика – это новое или забытое...
TRANSCRIPT
1
Хемоинформатика – новое или забытое старое
И.С. Антипин, Т.И.Маджидов
2
Казань С.-
Петербург
Москва Варшава Киев Харьков
Н.Н.Зинин 1835-1847 1847-1880
А.М.Бутлеров 1850-1868 1868-1893
В.В.Марковников 1860-1871 1873-1904
А.М.Зайцев 1865-1910
А.Н.Попов 1865-1869 1869-1881
Е.Е.Вагнер 1874-1876 1886-1903
С.Н.Реформатский 1882-1891 1891-1934
А.А.Альбицкий 1882-1903 1903-1920
А.Е.Арбузов 1911-1968
Колыбель российской органической химии
И.С. Антипин, Т.И.Маджидов
Нет ничего практичнее хорошей теории Густав Роберт Кирхгоф
и ничего разрушительнее плохой
4
Хемоинформатика – новое или забытое старое
И.С. Антипин, Т.И.Маджидов
Нет ничего практичнее хорошей теории Густав Роберт Кирхгоф
и ничего разрушительнее плохой
5
Факты без теории – не наука А.М.Бутлеров
Теория химического строения органических соединений
> 65,000,000 химических соединений
Наиболее фундаментальной и привлекательной задачей синтеза является не создание новых соединений, а создание новых свойств.
Norris Award Lecture, 1968
Стартовая гипотеза
Синтез соединения
Анализ активности
Новое свойство!
Новая гипотеза
6
Метод проб и ошибок
Нобелевская премия по химии 2013 года:
за "развитие многомасштабных моделей комплексных химических систем"
Мартину Карплюсу (университет Страсбурга)
Майклу Левитту (Стенфордский университет)
Арье Варшель (университет Южной Каролины)
Квантовая химия Методы силовых полей (молекулярная
механика и динамика)
Хемоинформатика
Молекула = электроны и ядра Молекула = атомы и связи
Молекула = графы, свойства, характеристики, дескрипторы
Основные математические подходы
Квантовая химия
Методы силовых полей
Хемоинформатика
•Приближенное решение уравнения Шредингера:
HF, DFT, СI, …
•Классическая механика •Статистическая механика
•Теория графов •Математическая статистика •Теория компьютерного обучения
1-10 молекул 400 атомов
тысячи молекул миллион атомов
миллионы молекул
Хемоинформатика = (chemoinformatics, cheminformatics) Химическая информатика
7
Иохан Гаштайгер Computer-Chemie-Centrum and Institute for Organic Chemistry
University of Erlangen-Nürnberg
Хемоинформатика - применение методов информатики для решения химических проблем
Хемоинформатика – использование IT для решения химических задач
Хемоинформатика
Базы данных соединений, смесей и
реакций: создание, оперирование
данными, организация поиска
Предсказание свойств соединений и материалов:
физические, химические, физико-химические,
биологические, токсичность и многие другие
Структуры соединений, обладающих заданными свойствами:
лекарства, комплексо-образователи,
деэмульгаторы, растворители и их смеси, антипирены и
многие другие
Оптимизация свойств смесей и композитов Предсказание
условий химических реакций Предсказание
катализаторов
Основное применение в настоящее время:
Большая фармацевтическая промышленность
Химическая промышленность
Что дает хемоинформатика сейчас:
• Снижение на 15-30% финансовых затрат на разработку лекарств
• Экономия до 300 млн. $ США на разработку одного лекарства
12
G.M. Milne, Jr., F. Boca Grande, Annual Reports in Medicinal Chemistry, 2003, 38, 383-396
HITS
Докинг
~101 – 103 молекул
~106 – 109 молекул
Неактивные, неперспективные
Химическая база данных
Виртуальный скрининг
Поиск по подобию
Простые фильтры
Фармакофорные модели
(Q)SAR
1D 2D 3D
14
В 1869 году Д.И. Менделеев опубликовал первую версию его периодической системы. Даже в этой ранней версии он оставил места под неизвестные элементы
Периодический закон: Свойства соединений и соединений, ими образуемых, изменяются в периодической зависимости от атомных весов
16
Хемоинформатика – это новое !
Задача поиска требуемого соединения или реакции из существующего количества химических веществ и реакций сложнее, чем поиск иголки в стоге сена.
50 миллионов соломинок
> 65∙106 соединений в крупнейшей базе (SciFinder) > 55∙106 реакций в крупнейшей базе (SciFinder) ≈ 1060-10100 соединений может быть синтезировано (атомов < 15)
50∙106 соломинок в стоге (≈ 10 т) ≈1015 соломинок производится на земном шаре ежегодно ≈1080 -10108 атомов во Вселенной
18
Pyridoxine
(Vitamin B6)
Тривиальное название
4,5-bis(hydroxymethyl)-2-methylpyridin-3-ol
Номенклатурное название
Cc1ncc(CO)c(CO)c1O
Представление SMILES
InChI=1S/C8H11NO3/c1-5-8(12)7(4-11)6(3-10)2-9-5 /h2,10-12H,3-4H2,1H3
InChI - международный
химический идентификатор
Структурная формула
Представление в виде графа
узел -кислород
узел -азот
узел -углерод
ребро –двойная связь
ребро –одинарная связь
Представление химических структур
19
Линейная зависимость между x и y
Y = mx + b
Многопараметровые корреляции
Y = f (X1, X2…Xn)
Что такое дескриптор?
QSAR - Qualitative Structure-Activity Relationships
Физические свойства
◦ Молекулярный вес, log P (коэффициент распределения октанол/вода, температура кипения, плавления, дипольный момент, растворимость.
Структурные дескрипторы
◦ 2D
Количество атомов/связей
Число каждой функциональной группы
2C цепи, 3C цепи, 4C цепи, 5C цепи и т.д.
Кольца и их размер
◦ 3D
Число возможных конформаций
Площадь поверхности
Топологические дескрипторы
20
Гамметт (Hammett) (1930-1940) COOH COO + H K0
COOH COO + H KpX X
COOH COO + H Km
X X
para = log10
meta = log10
Kp
Km
K0
K0
CH2COOH CH2COO + H K'x
log10K'xK'0
X X
=
Биоактивность = log1/C C, концентрация лекарства обладающая терапевтической активностью (EC50, GI50,etc.) EL (электронный дескриптор): - константа Гаммета ( m, p, p
0, p
+, p-, R, F )
HPh (дескриптор гидрофобности): - константа гидрофобности заместителя, log P – коэффициент распределения вода-октанол ST (стерический дескриптор): Es - стерическая константа Тафта
Биоактивность = f (EL, ST, HPh) + constant
Hansch, C.; Fujita, T. J. Am. Chem. Soc., 1964, 86, 1616.
log1/C = a ( log P )2 + b log P + + Es + C
22
1χS = 0.25 Z Z / ( )
n
i j i j1/ 2
2
2
2 2
2
2 2
2
3
2
2
2
2 2
1
2
2 1
1
2 4
1 1
1
1
1
3 1
Соединение CH3CH2CH2CH3 CH3OC(CH3)2SH CH2=C(CF3)2
1χS 1.914 2.811 2.309
Молекулярный граф
Zi
δi
Алканы: циклические, линейные, разветвленные
Сольватационный топологический индекс
23
A. Cherkasov, University of Britain Columbia 24
Магаинин,
антибактериальный пептид с последовательностью:
GIGKFLHSAKKFGKAFVGEIMNS
не приводит к резистентности!
Michael A. Zasloff (NIH) Proc. Nat. Acad. Sci. USA 84, 5449-5453 (1987)
25 A. Cherkasov, University of Britain Columbia
26 A. Cherkasov, University of Britain Columbia
I. Billard, G. Marcou, A. Ouadi, A. Varnek, University of Strasbourg 27
Ионные жидкости для «тренировки» модели:
• Взяты из литературных данных, • Вязкость при 25°С от 40 до 800 сР
Сations Anions
imidazolium 47 (CF3SO2)2N− 28
tetraalkylammonium 46 PF6− 5
pyridinium 2 BF4− 5
pyrolidinium 4 fluorinated boron-containing alkyl chains
39
cyanamide 4
trifluoroacetyl-trifluoromethane-sulfonylazanide
7
carbanion 9
Дескрипторы:
Цепочки атомов Атом с ближайшим
окружением
Модель: искусственная нейронная сеть (ANN) R2 = 0.73 and RMSE = 67.5 cP
Получены компанией Solvionics
Ошибка предсказания (~70 cP) близка к
«шуму» в экспериментальных данных,
использованных для тренировки модели
I. Billard, G. Marcou, A. Ouadi, A. Varnek, University of Strasbourg
I. Billard, G. Marcou, A. Ouadi, A. Varnek, University of Strasbourg
Комбинаторно
сгенерировано
1000 IL
Модель
Выбраны 3 IL
для синтеза
(вязкость
различна)
Синтез и
измерение
вязкости
IL Предсказанная вязкость
Экспериментальная вязкость
N1 28 56
N2 53 49
N3 469 600
N1:
N2:
N3:
Предсказание пути синтеза
Предсказание условий проведения реакций
Автоматизированные системы химического синтеза
30
НИЛ Хемоинформатика и молекулярное
моделирование
The race is on to build a machine that can
synthesize any organic compound. It could
transform chemistry.
M. Peplow, Organic synthesis: The robo-chemist.
Nature (2014), 512, 20–22
Интеллектуальный анализ данных по
химическим реакциям
31
Около 108 реакций аннотировано в базах данных
Автоматически обрабатывать информацию о химических реакциях сложно. Большинство попыток получить полезную информацию или модели для химических реакций, основаны на анализе небольших, собранных вручную наборов данных.
> 40 млн. реакций
> 76 млн. реакций
Struebing, H. et al. Nat. Chem. 2013, 5 (11), 952–957. Marcou, G. et al. J. Chem. Inf. Model. 2015, 55 (2), 239–250.
«Большие данные» о химических реакциях
32
НИЛ Хемоинформатика и молекулярное
моделирование
Поиск похожих реакций и
поиск по подструктуре
Анализ и
визуализация
пространства
реакций
«Чистка» данных • Идентификация
пропущенных компонентов
• Атом-атомное отображение
Классификация реакций
Предсказание
характеристик реакций
(скорость, выход,
термодинамика …)
Автоматизированная обработка данных
Конденсированный граф реакции
Хранение данных о реакциях
Предсказание оптимальных
условий
«Поваренная» книга химиков-органиков
Новые представления
реакций
Интеллектуальный анализ химических реакций
Contract No. 14-43-00024
33
Конденсированный граф реакции (CGR)
Обычные химические связи: одинарные, двойные ароматические, …
Динамические связи: Разорванная одинарная, превращение двойной в одинарную, …
34
Квинтэссенция знаний в химии защитных групп
1054 защитные группы (PG)
11249 статей
Theodora W. Greene (1931-2005)
35
Green’s Reactivity Charts
H2/Raney
(Ni)
H2/ P
t,
pH
2-4
H2/Pd
H2/Lin
dla
r
H2/Rh
PG Catalytic Reduction
Me L L L L L
MOM L M L L L
THP L L L L L
t-Butyl L L L L L
Bn H H H L L
TPM H H H L L
Катализатор
Метод снятия
защиты
Наблюдения
H – уходящая PG; L – остающаяся PG; M – нельзя сделать четкого заключения
36
Недостатки книги Greene
36
• Reactivity Charts получаются ручным анализом относительно небольшого объема данных и, по этой причине, могут иметь место некоторые ошибки или предвзятость
• Не ясно в соответствии с какими количественными критериями – выход, % снятых и оставшихся групп – были присвоены метки реакционной способности групп (H, L или M);
• Reactivity Charts не принимают во внимание окружение защитной группы и изменения по этой причине реакционной способности защитных групп
37
Реакционная способность защитных групп как функция условий проведения реакции
1 2
1 Llàcer, E., P. Romea and F. Urpí (2006). Tetrahedron letters 47(32): 5815-5818
38
Данные
Катализатор или реагент
T время P выход растворитель Вся
95.6 45.1 57.6 33.5 67.8 83.7 10.9
% реакций для которых известна информация о температуре (T), давлении (P), времени проведения (t), выходе, растворителе, катализаторе или реагенте, либо все указанные параметры
Набор из 142111 реакций каталитического гидрирования, извлеченные из базы данных Reaxys (2012)
39
Процедура обработки данных
Удаление неподходящих или сомнительных данных
Стандартизация, атом-атомное отображение
Стандартизация имен катализаторов и добавок Pd
Исходный набор: 142 111 реакций
Подготовка CGR, расчет дескрипторов, подструктурный поиск
72230 реакций для 86 защитных групп
40
Сравнение с книгой Greene (защита спиртов)
- Согласие
- Противоречие
- Недостаточно данных (≤ 10 реакций)
- Нет данных в Reaxys DB
Защитная группа Raney (Ni) Pt, pH 2-4 Pd/C Lindlar Rh/C or
Rh/Al2O3
Me L L L L L
MOM L M L L L
MEM L M L L L
Cy L L L L L
t-Bu L L L L L
Bn H H H L H
TBDMS L H L L L
Ac L M L L L
piv L L L L L
Bz L L L L L
Ms H L L L L
51%
7%
42%
41
Оценка реакционной способности защитной группы на основе принципа схожести
Главная концепция:
Похожие соединения реагируют в схожих условиях
Реализация: Для данной пользователем реакции, программа проводит поиск наиболее похожей реакции в базе данных и возвращает ее условия проведения
Оценка схожести: это «вызов»!
42
Статья в J. Chem. Inf. Model.
43
Независимая валидация
Experimental conditions
Group Greene’s Reactivity
Charts
Expert system recommendation
Pd/C, Methanol
(1) to be cleaved (H) Pd-catalyst [Pd/C]
(2) remain (L)
Pd/C, Methanol
(1) to be cleaved (H)
Pd-catalyst [Pd/C]
(2) to be cleaved (H)
Pd/C, Methanol
(1) to be cleaved (H) Pd-catalyst [Pd/C] Ni-catalyst [Raney
Ni] (2) to be cleaved (H)
Pd/C, Ethanol
(1) to be cleaved (H) Pd-catalyst [Pd/C]
(2) remain (L)
Pd/C, Ethyl acetate
(1) to be cleaved (H) Pd-catalyst [Pd/C] Ni-catalyst [Raney
Ni] Lindlar [Lindlar]
(2) remain (L)
44
Лаборатория хемоинформатики – это…
44
…исследования
Предсказание оптимальных условий проведения химических реакций
Разработка и совершенствование химических информационных систем
Дизайн новых лекарств, веществ с наперед заданными свойствами
Теоретическое (квантовохимическое, молекулярномеханическое) объяснение
эксперимента
45
Лаборатория хемоинформатики – это…
45
…образование мирового уровня
•Математика, статистика •Квантовая химия •Программирование (Python, C/C++, Java, PHP) •Биология, биохимия •Химия
•Хемоинформатика •Молекулярное моделирование •Биоинформатика •Анализ данных •Дизайн лекарств •Web-технологии
1ый год 2ой год
Диплом КФУ
Диплом UdS
Двойной диплом
Двойной диплом
47
48
Научный руководитель
Проф., д.х.н.
Александр ВАРНЕК
(Страсбургский университет, Франция)
Лаборатория хемоинформатики – это…
48
Заведующий
Проф., д.х.н., член-корр. РАН
Игорь Сергеевич АНТИПИН
Молодая команда
исследователей
Н.с., к.х.н.
Тимур МАДЖИДОВ
М.н.с., к.х.н. Рамиль
НУГМАНОВ
Более 5 приглашенных исследователей и преподавателей ежегодно: И.И. Баскин (МГУ, Россия) И. Тетко (Центр Гельмгольца в Мюнхене, Германия) А. Тропша (Университет Северной Каролины, США) П. Полищук (Институт молекулярной и трансляционной медицины, Чехия) А. Черкасов (Университет Британской колумбии, Канада) В. Ткаченко (Королевское химическое общество, Великобритания)
Партнеры:
…люди
49
5-7 июля, 2017 Страница в Интернет: cimm.kpfu.ru/kssci2017
9 лекций 5 ключевых докладов 10 устных докладов 2 практических занятия ~80 участников, 5 иностранных докладчиков
Официальный язык: английский
50
Благодарю за внимание