identificación in silico de nuevos compuestos inhibidores
TRANSCRIPT
Departamento de Farmacia
Identificación in silico de nuevos compuestos
inhibidores de Termolisina derivados de la planta
Boldoa purpurascens.
Autor: Adriana Ulloa Quintero
Tutores: Msc. Yudith Cañizarez Carmenate
Dr. Juan Alberto Castillo Garit
Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu”
de Las Villas, y se encuentra depositado en los fondos de la Biblioteca Universitaria
“Chiqui Gómez Lubian” subordinada a la Dirección de Información Científico
Técnica de la mencionada casa de altos estudios.
Se autoriza su utilización bajo la licencia siguiente:
Atribución- No Comercial- Compartir Igual
Para cualquier información contacte con:
Dirección de Información Científico Técnica. Universidad Central “Marta Abreu” de
Las Villas. Carretera a Camajuaní. Km 5½. Santa Clara. Villa Clara. Cuba. CP. 54 830
Teléfonos.: +53 01 42281503-1419
Quiero dedicarle esta tesis a todas las personas
que de una forma u otra han contribuido a mi formación.
A mis padres por ser un apoyo tan grande
e incondicional durante toda mi vida.
A mi esposo, porque lo amo. Por tanto cariño y comprensión,
por apoyarme, por convertirme en una mejor persona.
“Vive como si fueras a morir mañana. Aprende como si fueras a
vivir para siempre.”
Mahatma Gandhi
AGRADECIMIENTOS
A mis padres, porque sin ellos no hubiese sido capaz de llegar a donde estoy, por
sentar las bases para que llegara a ser la persona que soy ahora, por alentarme a
convertirme en la mejor versión de mí misma.
A mi abuela Nilda, por educarme en sus valores, por consentirme y por decirme
siempre que podía llegar tan lejos como me propusiera en la vida.
Al resto de mi familia por apoyarme, ayudarme y quererme.
A mi esposo por ser mi fuerza, por amarme, por ser incondicional.
A mis amigas… Sin ustedes estos 5 años nunca hubiesen sido tan felices...
A todas las personas que han contribuido a mi educación a lo largo de mi vida,
les debo el estar donde estoy hoy, y para todos van mis más sinceros
agradecimientos.
A mis tutores, por guiarme a lo largo de esta investigación, por todo lo que
aprendí gracias a ellos.
Al maravilloso claustro de profesores que nos han formado desde que
entramos en primer año, a todos les estoy eternamente agradecida…
RESUMEN Esta investigación se centra en la identificación de potenciales fármacos
inhibidores de la Termolisina (TLN), a partir de un grupo de compuestos
aislados de la planta Boldoa purpurascens, que pueden servir como cabezas
de serie para el desarrollo de fármacos antihipertensivos. En este trabajo se
emplean modelos QSAR para la clasificación de compuestos inhibidores de la
TLN. Se utilizó una base de datos de 191 compuestos reportados en la
literatura y fueron calculados los descriptores implementados en el software
DRAGON. Para desarrollar los modelos de clasificación se trabajó con técnicas
de minería de datos implementadas en el software WEKA. Los modelos
obtenidos mostraron valores de precisión superiores al 85 %, y la razón de
falsos positivos se mantuvo, en cada modelo, con valores adecuados, por
debajo de 15. Para la validación de los modelos se llevaron a cabo estrategias
de validación cruzada y validación externa usando una serie de predicción.
Finalmente, los modelos fueron empleado para el cribado virtual de ocho
flavonoides y sus potenciales productos de hidrólisis, total o parcial, para
descubrir nuevos inhibidores de la Termolisina identificándose que la totalidad
de los compuestos inhiben la enzima anteriormente mencionada.
ABSTRACT
This research focuses on the identification of potential drugs inhibitors of
Termolysin (TLN), from a group of compounds isolated from the plant Boldoa
purpurascens, which can serve as seeds for the development of
antihypertensive drugs. In this work, QSAR models are used for the
classification of inhibitory compounds of TLN. A database of 191 compounds
reported in the literature was used and the descriptors implemented in the
DRAGON software were calculated. In order to develop the classification
models, we worked with data mining techniques implemented in the WEKA
software. The obtained models showed values of precision superior to 85 %,
and the reason of false positives was maintained, in each model, with adequate
values, below 15. For the validation of the models, cross-validation and external
validation strategies were carried out, using a prediction serie. Finally, the
models were used for the virtual screening of eight flavonoids and their potential
hydrolysis products, total or partial, to discover new inhibitors of Termolysin,
identifying that all the compounds inhibit the aforementioned enzyme.
GLOSARIO DE TÉRMINOS
0D Adimensional
1D Unidimensional
2D Bidimencional
3D Tridimensional
AC Análisis de Conglomerados
ADC Análisis Discriminante Cuadrático
ADL Análisis Discriminante Lineal
ADR Análisis Discriminante Regularizado
Ala Alanina
ArC Árboles de Clasificación o Decisión
Asn Asparagina
C Coeficiente de correlación de Mattews
CFP Clasificadores de Función Potencial
CMC Clasificadores Medios más Cercanos
CMCP Clasificadores Medios más Cercanos Ponderados
ECA (ACE) Enzima Convertidora de Angiotensina
EPN (NEP) Endopeptidasa Neutra (Neprilisina)
Glu Acido glutámico
His Histidina
HTA Hipertensión Arterial
IA Inteligencia Artificial
KI Constante de Inhibición Enzimática
KNN k-Vecinos más Cercanos
MLP Perceptrón Multicapa
MVS Máquinas de Vectores Soporte
Phe Fenilalanina
PN Péptidos natriuréticos
Pro Prolina
Q Exactitud
QSAR Relación cuantitativa estructura-actividad
QSPR Relación cuantitativa estructura-propiedad
QSTR Relación cuantitativa estructura-toxicidad
RAS Sistema Renina Angiotensina Aldosterona
RBs Redes Bayesianas
RL Regresión Logística
RNAs Redes Neuronales Artificiales
ROC Receiver Operating Characteristic
SMC Sistema Multiclasificador
TLN Termolisina
Tyr Tirosina
VC Validación cruzada
TABLA DE CONTENIDOS
INTRODUCCIÓN ................................................................................................................. 1
CAPÍTULO 1. REVISIÓN BIBLIOGRÁFICA .................................................................... 4
1.1 Aspectos relacionados con la enzima Termolisina ........................................ 4
1.1.1 Clasificación .................................................................................................. 4
1.1.2 Función .......................................................................................................... 4
1.1.3 Estructura ...................................................................................................... 5
1.1.4 Centro y mecanismo catalítico ................................................................... 6
1.1.5 Inhibidores ..................................................................................................... 9
1.1.6 Enzimas humanas homólogas (ECA y Endopeptidasa Neutra)......... 11
1.2 Aspectos relacionados con la Metodología QSAR ....................................... 13
1.2.1 ¿Qué es la Metodología QSAR? ............................................................. 13
1.2.2 Motivación de los estudios QSAR ........................................................... 13
1.3 Ventajas ....................................................................................................... 14
1.3.1 Descriptores Moleculares ......................................................................... 15
1.3.2 Técnicas de clasificación .......................................................................... 16
1.3.2.1 Sistemas multiclasificadores ............................................................... 17
1.3.3 Técnicas de Selección de Variables ....................................................... 18
CAPÍTULO 2. MATERIALES Y MÉTODOS .................................................................. 20
2.1 Base de Datos .................................................................................................... 20
2.1.1 Descriptores Moleculares ......................................................................... 20
2.1.2 Determinación de las clases a partir de la pKi ...................................... 21
2.1.3 Selección de las series de Entrenamiento y Predicción ...................... 22
2.2 Obtención y Validación de los Modelos de Clasificación ............................ 23
2.2.1 Obtención de los Modelos QSAR ........................................................... 23
2.2.1.1 Árboles de Clasificación (J48) ............................................................ 24
2.2.1.2 k-vecinos más cercanos (Lazy IBK) .................................................. 24
2.2.1.3 Perceptron Multicapa (MLP) ............................................................... 24
2.2.1.4 Máquina de Soporte de Vectores (SVM) .......................................... 25
2.2.2 Evaluación y Validación de los Modelos. ............................................... 25
2.3 Cribado Virtual .................................................................................................... 26
Capítulo 3: Resultados y Discusión ................................................................................ 27
3.1 Generalidades .................................................................................................... 27
3.2 Obtención y validación de los modelos de clasificación .............................. 27
3.2.1 Máquinas de Soporte Vectorial (SVM) ................................................... 28
3.2.2 Árboles de Clasificación (J48) ................................................................. 29
3.2.3 k-ésimos vecinos más cercanos (k-NN) ................................................. 30
3.2.4 Perceptron Multicapa (MLP) .................................................................... 31
3.3 Selección de los Modelos Obtenidos ............................................................. 32
3.4 Cribado Virtual .................................................................................................... 33
INTRODUCCIÓN 1
INTRODUCCIÓN
La peptidasa bacteriana Termolisina (TLN) aislada del Bacillus
thermoproteolyticus, es una metalopeptidasa de zinc. El papel fisiológico de
estas enzimas de la superficie de la membrana, así como sus relaciones con
otros sistemas peptídicos y el papel jugado por sus inhibidores, constituyen
dianas sobre las cuales se dirigen actualmente importantes estudios. La TLN
se ha cristalizado y co-cristalizado mediante diferentes grupos de inhibidores,
con una estructura y mecanismo de acción bien definidos por lo que ha servido
de referencia estructural para enzimas de mamíferos con características
similares (1). Las metalopeptidasas de la membrana endotelial homólogas de la
TLN, juegan un papel vital en la regulación de funciones cardiovasculares y
endocrinas favoreciendo la formación o metabolismo de péptidos vasoactivos
que influyen en patologías tan comunes como la hipertensión arterial (HTA) (2).
La hipertensión arterial es una de las patologías con más prevalencia en la
actualidad, tanto en Cuba como en el resto del mundo (3). Se describe como
una elevación crónica de la presión arterial, cuando la presión diastólica es
superior a 90 mmHg y la sistólica mayor de 140 mmHg. El incremento del
riesgo cardiovascular inherente a la hipertensión provoca una prematura
morbilidad y mortalidad (3, 4). Por ello la hipertensión arterial supone un serio
problema, ya que si no es tratada, aumenta el riesgo de producirse
complicaciones cardio y cerebrovasculares como son el infarto de miocardio,
ictus y también el riesgo de padecer lesiones renales es de dos a tres veces
mayor que en individuos normotensos (5). Tratamientos farmacológicos o
cambios en el estilo de vida tienen un considerable impacto sobre la
hipertensión y el consiguiente riesgo de enfermedades cardiovasculares (6-8).
Los mecanismos de control de la presión arterial son diversos y están
interrelacionados entre sí. Por una parte, está el control a corto plazo de la
presión arterial, muy rápido y llevado a cabo por el sistema nervioso. Por otro
lado, para la regulación prolongada de la presión arterial se requiere de otros
sistemas de control, principalmente el sistema de control renal y de los líquidos
INTRODUCCIÓN 2
corporales así como de los mecanismos hormonales de los que forman parte el
sistema renina-angiotensina-aldosterona (RAS) (9, 10). Existen dos grupos de
péptidos vasoactivos: los vasoconstrictores, como la angiotensina II y la
endotelina y vasodilatadores, como los péptidos natriuréticos.
La producción y el metabolismo de estos péptidos depende de vasopeptidasas
dependientes de zinc localizadas en la superficie del endotelio vascular: la
Enzima Convertidora de Angiotensina (ECA) (11) y la Endopeptidasa Neutra
(EPN) (12), que degrada los péptidos natriuréticos (PN) (13). La ECA es uno de
los principales componentes del RAS. Forma parte de la familia M2 de las
metalopeptidasas de zinc, con 2 dominios (dominio carboxilo terminal y dominio
amino terminal) cada uno con un centro catalítico y con similares
especificidades de sustrato (14).
La Neprilisina es una endopeptidasa que tiene la capacidad de degradar los
péptidos natriuréticos, los cuales ejercen efectos fisiológicos en varios sitios y
conducen a vasodilatación, natriuresis, diuresis, disminución de la liberación de
aldosterona, inhibición del sistema renina-angiotensina-aldosterona, etc. (15-
18). Los potentes efectos cardiovasculares y renales de los péptidos
natriuréticos representan una opción terapéutica potencialmente importante
para el tratamiento de la hipertensión (17, 19, 20).
A pesar del enorme potencial de los agentes mencionados anteriormente, son
necesarios estudios más extensos con puntos finales clínicos (21). Por
consiguiente, el descubrimiento y desarrollo de inhibidores de estas
vasopeptidasas continúa siendo un reto para la industria farmacéutica.
El diseño racional de fármacos, constituye una herramienta casi indispensable
en el desarrollo actual de nuevos medicamentos pues contribuye a un aumento
de las posibilidades de éxito y a una disminución de los costos (22). El enfoque
de diseño racional de fármacos asistido por computadoras ofrece una
alternativa a los métodos tradicionales de ‘prueba y error’ para la obtención de
nuevas entidades moleculares. Podemos plantear que los estudios
QSAR/QSPR/QSTR (siglas en inglés de Quantitative Structure
INTRODUCCIÓN 3
Activity/Property/Toxicity Relationships) se han convertido en una importante
área de investigación en la química computacional. Este tipo de procedimiento
‘in silico’ evita los procesos frecuentes de síntesis y bioensayos, los cuales se
hacen solamente después de la exploración de los conceptos iniciales con
modelos computacionales (23).
Nos encontramos entonces ante el siguiente Problema Científico:
La alta prevalencia de la hipertensión arterial y la baja efectividad en la
identificación de nuevos compuestos líderes inhibidores de la Termolisina como
alternativas terapéuticas hace necesaria la identificación de nuevos
compuestos de origen natural o sintético, que sean capaces de inhibir esta
enzima.
Para dar solución al problema científico planteado se formula la siguiente
Hipótesis:
El diseño racional de fármacos asistido por ordenador permite obtener modelos
fiables que describan la capacidad inhibitoria sobre la Termolisina de productos
de origen natural o sintético.
Objetivo General:
Identificar nuevos compuestos inhibidores de la Termolisina que permitan el
desarrollo de potenciales fármacos antihipertensivos mediante el empleo de
modelos QSAR utilizando el cribado virtual.
Objetivos Específicos:
• Obtener modelos QSAR utilizando en software WEKA, partiendo de una
base de datos de inhibidores de la Termolisina previamente elaborada.
• Validar los modelos QSAR obtenidos mediante la utilización del software
WEKA.
• Identificar nuevos compuestos con actividad inhibidora sobre la enzima
Termolisina a través del cribado virtual de compuestos aislados de la
planta Boldoa purpurascens.
CAPÍTULO 1 REVISIÓN BIBLIOGRÁFICA 4
CAPÍTULO 1. REVISIÓN BIBLIOGRÁFICA
1.1 Aspectos relacionados con la enzima Termolisina
1.1.1 Clasificación
La Termolisina, es una metaloproteinasa bacteriana y fúngica extracelular de
zinc, representativa de Bacillus thermoproteolyticus (24). Requiere un ion de
zinc para la actividad de la enzima y cuatro iones de calcio para la estabilidad
estructural (25). Estas enzimas se clasifican como miembros de la familia M4
de metalopeptidasas (26).
Desde que la información estructural detallada de la enzima estuvo disponible
se ha estudiado extensivamente y se ha caracterizado bioquímicamente, por lo
que se han descubierto entre los diferentes tipos de termolisinas un amplio
espectro de diferentes propiedades enzimáticas (27-29). Aunque la enzima es
termoestable, existe una considerable variación en la temperatura óptima entre
las diferentes Termolisinas bacterianas, esta puede variar desde 30 °C a 70 °C
(27, 29).
1.1.2 Función
La termolisina cataliza específicamente la hidrólisis de enlaces peptídicos que
contienen aminoácidos hidrófobos. Sin embargo, la termolisina también se usa
ampliamente para la formación de enlaces peptídicos a través de la reacción
inversa de la hidrólisis (30). Además, es el miembro más estable de una familia
de metaloproteinasas producidas por diversas especies de Bacillus. Estas
enzimas también se denominan peptidasas "neutras" o similares a la
termolisina (TLPs). Un gran número de TLPs se han identificado como factores
de virulencia que están asociadas con la patogenicidad de diversos
microorganismos, lo que indica su potencial como posibles dianas de
medicamentos. Además, las TLPs son también ampliamente usadas en la
industria alimentaria y un ejemplo es la aplicación de termolisina para la
producción del edulcorante artificial aspartamo (31, 32).
CAPÍTULO 1 REVISIÓN BIBLIOGRÁFICA 5
1.1.3 Estructura
La termolisina (figura 1) tiene un peso molecular de 34.600 Da. Su estructura
general consiste en dos dominios aproximadamente esféricos con una
hendidura profunda que atraviesa el centro de la molécula que separa los dos
dominios. La estructura secundaria de cada dominio es bastante diferente, el
dominio N-terminal está compuesto mayoritariamente por hojas plisadas beta,
mientras que el dominio C-terminal es principalmente alfa-helicoidal en la
estructura. Estos dos dominios están conectados por una hélice alfa central
(33).
A diferencia de muchas proteínas que experimentan cambios conformacionales
durante el calentamiento y la desnaturalización, la termolisina no experimenta
ningún cambio conformacional importante hasta al menos 70 °C (34). La
estabilidad térmica de los miembros de la familia TLP se mide en términos de
una temperatura representada por T50. A esta temperatura, la incubación
durante 30 minutos reduce la actividad de las enzimas a la mitad.
La Termolisina tiene un valor T50 de 86.9 °C, por lo que es el miembro más
estable térmicamente de la familia TLP (35). Los estudios sobre la contribución
del calcio a la estabilidad de la termolisina han demostrado que tras la
inactivación térmica, se libera un único ion de calcio de la molécula (36).
Evitando que este calcio se una a la molécula mediante la mutación de su sitio
de unión, se reduce la estabilidad de la termolisina en 7 °C. Sin embargo,
aunque la unión al calcio contribuye significativamente a la estabilización de la
termolisina, más crucial para la estabilidad es un pequeño grupo de
aminoácidos del dominio N-terminal ubicados en la superficie de las proteínas
(35).
En particular, una fenilalanina (Phe) en la posición de aminoácido 63 y una
prolina (Pro) en la posición de aminoácido 69 contribuyen significativamente a
la estabilidad de la Termolisina (35). La Termolisina es sintetizada como una
pre-proenzima que consiste en un péptido señal de 28 aminoácidos, un
CAPÍTULO 1 REVISIÓN BIBLIOGRÁFICA 6
propéptido de 204 aminoácidos y la enzima madura contiene 316 aminoácidos
de longitud (24).
Figura 1: Estructura de la Termolisina.
A continuación, se muestra la secuencia de la Termolisina (UniProt P00800)
extraída de la base de datos de proteínas:
>3P7P:E|PDBID|CHAIN|SEQUENCE
ITGTSTVGVGRGVLGDQKNINTTYSTYYYLQDNTRGDGIFTYDAKYRTTLPGS
LWADADNQFFASYDAPAVDAHYYAGVTYDYYKNVHNRLSYDGNNAAIRSSVH
YSQGYNNAFWNGSEMVYGDGDGQTFIPLSGGIDVVAHELTHAVTDYTAGLIY
QNESGAINEAISDIFGTLVEFYANKNPDWEIGEDVYTPGISGDSLRSMSDPAKY
GDPDHYSKRYTGTQDNGGVHINSGIINKAAYLISQGGTHYGVSVVGIGRDKLG
KIFYRALTQYLTPTSNFSQLRAAAVQSATDLYGSTSQEVASVKQAFDAVGVK
1.1.4 Centro y mecanismo catalítico
La Termolisina requiere un ion zinc para su actividad catalítica y múltiples iones
de calcio para la estabilidad. Este ion metálico está presente en todas las
metaloproteinasas, y su función es activar a una molécula de H2O para actuar
CAPÍTULO 1 REVISIÓN BIBLIOGRÁFICA 7
como nucleófilo y atacar al grupo carbonilo del enlace peptídico. En estas
enzimas el centro activo puede activar el agua y otro agente nucleofílico,
polarizar el grupo carbonilo de un enlace peptídico o estabilizar a un
intermediario tetraédrico. La reactividad química de los iones metálicos
(asociada a su capacidad para formar enlaces relativamente fuertes pero
cinéticamente lábiles, con sus cargas positivas y su capacidad para ser estable
en más de un estado de oxidación en algunos casos) explica cuáles son sus
estrategias catalíticas (37). El mecanismo catalítico de la Termolisina es
probablemente el mejor estudiado de todas las metalopeptidasas, sin embargo,
aún no se conocen completamente todos los detalles. Se han propuesto dos
mecanismos para la catálisis de la Termolisina, el primero fue propuesto por
Brian Matthews en el año 1972 en el cual el Glutamato del motivo estructural
HEXXH actúa como protón aceptor durante la catálisis (37, 38) y el segundo
propuesto en 1994 por W.L Mock, en el cual la Histidina del sitio activo actúa
de forma general en lugar del Glutamato (38, 39). El mecanismo de acción de
la Termolisina que ha surgido de una extendida serie de estudios estructurales
se resume en la figura 2. La Termolisina nativa contiene un ion zinc que
coordina, de forma aproximadamente tetraédrica, con tres ligandos
proporcionados por la proteína (His 142, His 146, del motivo HEXXH y el Glu
166 del motivo Glu-(Xaa)3-Asp) y con un cuarto ligando proporcionado por una
molécula de agua. El ion de zinc tiene dos funciones en este mecanismo:
polarizar el grupo carbonilo del sustrato y facilitar la desprotonación del agua
nucleofílica (39).
Figura 2: Primer mecanismo propuesto para el clivaje de péptidos catalizados
por la enzima termolisina (37).
CAPÍTULO 1 REVISIÓN BIBLIOGRÁFICA 8
El substrato entrante desplaza la molécula de solvente para cambiar el sitio de
esta hacia Glu 143. En este complejo el oxígeno del carbonilo forma los
enlaces de hidrógeno con His 231 y la molécula de agua ligada al zinc. Este
substrato entrante optimiza sus interacciones en los subsitios S2, S1, S1' y S2'
conduciendo la molécula de agua zinc-limitante hacia Glu 143. El carácter
nucleofílico de esta molécula de agua podría reforzarse teniendo ambos
protones de hidrógeno enlazados a Glu 143, y al mismo tiempo, teniendo el
oxígeno ligado al ion de zinc según lo sugerido con anterioridad (figura 2a).
Bajo la influencia combinada del ion metálico y del Glutamato, el agua ataca el
carbono carbonilo para formar un intermediario pentacoordinado (figura 2b).
Una vez acepta el protón por Glu 143 entonces es transferida inmediatamente
la salida del nitrógeno (figura 2c). Uno de los oxígenos del péptido hidratado
interactúa con el ion del zinc y, además, es estabilizado por los enlaces de
hidrógeno de ambas His 231 y Tyr 157 (figura 2b). El segundo oxígeno del
péptido hidratado también es estabilizado por la interacción con el zinc, así
como un enlace de hidrógeno fuerte con Glu 143. El oxígeno de la cadena
lateral de Asn 112 y el carbonilo de la cadena principal del Ala 113 aceptan
enlaces de hidrógeno del nitrógeno tetraédrico doble protonado formado por la
ruptura del enlace (figura 2c). El paso de este producto intermedio (figura 2c) a
los productos consiguientes (figura 2d) es facilitado por una segunda
transferencia protónica vía Glu 143. En este caso el protón se acepta por el
péptido hidratado y el nitrógeno (40). El segundo mecanismo catalítico fue
propuesto por W. L Mock (39) (figura 3):
Figura 3: Mecanismo propuesto por Mock en el cual la Histidina del sitio activo
actúa en el mecanismo base en lugar del residuo Glutamato.
CAPÍTULO 1 REVISIÓN BIBLIOGRÁFICA 9
1.1.5 Inhibidores
Los inhibidores enzimáticos son considerados agentes quimioterapéuticos
efectivos, ya que un análogo “no natural” del sustrato puede bloquear la acción
de una enzima específica. La constante de inhibición KI puede ser utilizada
como medida de la actividad de los inhibidores y teniendo en cuenta que de
modo general los inhibidores de la Termolisina son inhibidores competitivos
análogos del sustrato se puede definir la KI según la ecuación de Michaelis-
Menten (ecuación 1):
𝐾𝐼 =(𝐸)(𝐼)
(𝐸𝐼)
(1)
El inhibidor I se une reversiblemente a la enzima de modo que se forma un
complejo enzima inhibidor EI catalíticamente inactivo, por consiguiente, se
reduce la concentración de enzima libre disponible para la fijación del sustrato.
El centro del diseño de inhibidores de metaloproteasas es la selección de un
grupo funcional que sea capaz de interactuar recíprocamente con el metal.
Se han reportado una serie de inhibidores entre los que se destacan los tioles
ya que presentan una actividad intrínseca por el zinc, las cetonas hidratadas
consideradas útiles inhibidores de las metaloproteasas, los ácidos
hidroxámicos capaces de provocar una fuerte quelación del metal, además
grupos aniónicos tales como carboxilatos y fosfinatos análogos del inhibidor
natural fosforamidón en los que la carga proporciona una atracción coulómbica
al catión del zinc. Los silanodioles son introducidos recientemente a partir de
hidratados de carbono inestables, empleando un átomo de silicio central, el
elemento más similar al carbono, y han resultado ser de gran utilidad (41).
Numerosos grupos funcionales han demostrado capacidad de inhibición sobre
la TLN (figura 4). El inhibidor tomado como referencia por la comunidad
científica fue reportado en el año 1973, aislado a partir del Streptomyces
tanashiensis, el fosforamidón (42) (figura 5), ya que presenta una gran afinidad
por el sitio activo de la enzima y se reporta una Ki = 2.8x10-8 M (43).
CAPÍTULO 1 REVISIÓN BIBLIOGRÁFICA 10
Figura 4: Principales grupos funcionales encontrados en los inhibidores de la
Termolisina.
Figura 5: Estructura química del Fosforamidón.
Los inhibidores de la TLN muestran una notable diversidad estructural (figura
6). Algunos de ellos son inhibidores de otras metaloproteasas como por
ejemplo los inhibidores sintéticos Tiorfan y Retrotiorfan (44).
CAPÍTULO 1 REVISIÓN BIBLIOGRÁFICA 11
Figura 6: Ejemplos de inhibidores de la Termolisina reportados en la literatura.
Se realizaron además, estudios con diferentes alcoholes como el metanol, el
etanol, el alcohol terbutílico, entre otros; en los que la Ki oscila entre 35 y 430
mM (45). Su pobre poder de inhibición se debe a que el inhibidor se sitúa en los
subsitios de anclaje S1 y S1’ y no interactúa directamente con el zinc, por lo
que pueden ser desplazados con facilidad por un inhibidor más fuerte o el
sustrato natural.
1.1.6 Enzimas humanas homólogas (ECA y Endopeptidasa Neutra)
La enzima conversora de angiotensina (ECA) pertenece a la familia M2 de
metaloproteinasas de unión a zinc, dentro del clan MA (46). La ECA
desempeña un papel importante en la homeostasis de la presión sanguínea al
escindir el dipéptido C-terminal de la angiotensina I para producir el potente
péptido vasopresor angiotensina II (47) e inactiva la péptido vasodilatador
CAPÍTULO 1 REVISIÓN BIBLIOGRÁFICA 12
bradiquinina mediante la eliminación secuencial de dos dipéptidos C-terminales
(48).
Esta enzima contiene dos dominios catalíticos coordinadores de zinc (dominios
N y C) cada uno con una región estructural denominada HEXXH donde las dos
histidinas forman dos de los tres ligandos de aminoácidos, mientras que un
glutamato forma el tercer ligando (49). Se pensó que el papel de un ion Zn en
la catálisis de la ECA era análogo al de TLN (50). Como consecuencia de estas
similitudes estructurales y funcionales y del papel de la ECA en el metabolismo
de estos dos péptidos vasoactivos, se ha utilizado el sitio activo de TLN como
modelo para desarrollar inhibidores de la ECA muy potentes y específicos.
La Neprilisina (endopeptidasa neutra, EPN) es una ectopeptidasa de
membrana plasmática integral de la familia M13 de metaloproteinasas de zinc.
Al igual que TLN y ECA, la EPN posee el motivo HEXXH así como una
secuencia consenso EXIXD en la que el glutamato (Glu) sirve como el tercer
ligando de Zn (49, 51). La EPN participa en el metabolismo de varios péptidos
reguladores de los sistemas cardiovascular, inflamatorio, nervioso e inmune de
los mamíferos (52). Por lo tanto, esta enzima tiene un posible efecto
terapéutico en trastornos cardiovasculares e inflamatorios.
Antes de que se resolviera la estructura cristalina del complejo inhibidor de
EPN, la estructura y las similitudes de funcionamiento entre EPN y TLN
sirvieron como base para el diseño del inhibidor de EPN mediante el uso de
TLN como modelo de prueba (53). De acuerdo con esto, la TLN se utilizó
previamente para construir los modelos que guiaron el diseño de los inhibidores
de EPN / ECA. La doble inhibición de la Neprilisina y la Enzima Conversora de
Angiotensina puede representar un enfoque terapéutico atractivo para una
amplia gama de enfermedades cardiovasculares, incluyendo hipertensión, en
las que la vasoconstricción, la sobrecarga de volumen y la activación
neurohormonal desempeñan un papel en la fisiopatología de las mismas (54).
Las similitudes estructurales y funcionales entre TLN, EPN y ECA indican que
CAPÍTULO 1 REVISIÓN BIBLIOGRÁFICA 13
los inhibidores de la termolisina también pueden inhibir la ECA y la EPN y ser
potencialmente antihipertensivos (55).
Los inhibidores dobles de EPN y ECA reprimen simultáneamente dos enzimas
clave que participan en la regulación de la función cardiovascular (56). Este tipo
de inhibidores ejercen acciones típicas de los inhibidores de la ECA o
inhibidores de la EPN, como la protección del factor natriurético auricular y la
mejora de la diuresis, natriuresis y excreción urinaria de GMPc (57).
1.2 Aspectos relacionados con la Metodología QSAR
1.2.1 ¿Qué es la Metodología QSAR?
En el área del desarrollo de nuevos fármacos de las industrias farmacéuticas,
institutos de investigación privados y públicos se han desarrollado herramientas
computacionales y se han establecido nuevas disciplinas en el entorno de la
Química Farmacéutica (58, 59). Una de ellas es la metodología QSAR, que
relaciona numéricamente estructuras (químicas) con sus actividades biológicas
(60). QSAR reúne un conjunto de técnicas computacionales relacionadas con
diseño y visualización espacial y virtual de moléculas (también llamado in
silico), cálculo de propiedades fisicoquímicas moleculares (descriptores),
bioinformática y estadística. Todo esto con el fin de hacer una predicción de la
actividad biológica que permita el diseño teórico de nuevos fármacos, evitando
pasar por el proceso de prueba y error de candidatos obtenidos por síntesis
orgánica. Al ser una ciencia que existe sólo en un entorno virtual con enfoque
en las relaciones estructura – actividad biológica, el diseño de candidatos a
nuevos fármacos es mucho más económico y rápido (61).
1.2.2 Motivación de los estudios QSAR
Las relaciones QSAR representan modelos estadísticos predictivos derivados
de la aplicación de herramientas estadísticas que correlacionan la actividad
biológica (incluyendo el efecto terapéutico deseable y los efectos secundarios
no deseables) de las sustancias químicas (drogas, tóxicos o contaminantes)
CAPÍTULO 1 REVISIÓN BIBLIOGRÁFICA 14
con descriptores representativos de la estructura molecular y/o propiedades
moleculares. La metodología QSAR se está aplicando en muchas disciplinas
como evaluación de riesgos, predicción de toxicidad, y decisiones regulatorias,
además de descubrimiento de fármacos y optimización de productos. Esta
metodología es interdisciplinaria, por lo que recibe información de la Química
Orgánica y de la Farmacología ((62).
La forma en que QSAR retribuye esta situación y que constituye el objetivo de
esta metodología, es mediante el diseño dirigido de ligandos aún no existentes,
pero que mediante las ecuaciones generadas han mostrado una alta
probabilidad de éxito farmacológico pues como se ha visto, estas ecuaciones
permiten una predicción de la actividad biológica. En concreto, QSAR persigue
el diseño molecular dirigido de compuestos con potencial farmacológico,
permitiendo el ahorro de recursos económicos y humanos (61).
1.3 Ventajas
Las ventajas de los estudios QSAR son el bajo costo (programas gratuitos,
información relativamente accesible, no se utiliza instrumental ni reactivos
químicos, etc.), el uso de interfaces que facilitan el manejo y diseño, además
de que la construcción de las moléculas y el cálculo de descriptores pueden ser
sumamente rápidos.
Sus desventajas son la familiarización con metodologías computacionales
(diferentes sistemas operativos e interfaces gráficas, manejo de bases de
datos, desarrollo del software) y en este sentido, la resolución de diferentes
problemas de computo (compatibilidad, actualizaciones, registros, formatos de
datos). También está el hecho de tener que disponer de datos de actividad
biológica de las moléculas que provengan de una misma fuente y el cambio de
perspectiva en la forma de trabajo (63).
CAPÍTULO 1 REVISIÓN BIBLIOGRÁFICA 15
1.3.1 Descriptores Moleculares
Los descriptores son propiedades fisicoquímicas que se calculan a partir de
una estructura virtual 3D por métodos computacionales, por lo que son un
reflejo cuantitativo o describen numéricamente a cada una de las moléculas.
Estos pueden ser de diferentes tipos, y ello depende de la complejidad de
información que requiera el cálculo. Así algunos descriptores son bastante
“globales” describiendo toda la molécula y por ende son muy simples (como el
peso molecular) y otros pueden resultar muy complejos (como la variabilidad
topológica, distribución de carga eléctrica, superficie polar, por mencionar
algunos) (42). Estos descriptores se clasifican en términos de dimensionalidad
(tabla 1).
Tabla 1: Clasificación de los descriptores basada en la dimensionalidad de sus
representaciones moleculares.
Representación
Molecular Descriptor Ejemplo
0D
Conteo de átomos,
conteos de
enlaces, peso
molecular, suma
de propiedades
atómicas
Peso molecular, peso molecular medio de:
átomos, átomos de hidrógeno, átomos de
carbono, heteroátomos, átomos que no
sean de hidrógeno, dobles enlaces,
enlaces triples, enlaces aromáticos,
enlaces rotativos, anillos, anillos de 3
miembros, anillos de 4 miembros, anillos
de 5 miembros, anillos de 6 miembros
1D Conteo de
Fragmentos
Número de: C primario, C secundario, C
terciario, C cuaternario, carbono
secundario en el anillo, carbono terciario en
el anillo, carbono cuaternario en el anillo,
carbono aromático no sustituido, carbono
sustituido, número de átomos donadores
de H, número de átomos aceptores de H
CAPÍTULO 1 REVISIÓN BIBLIOGRÁFICA 16
Representación
Molecular Descriptor Ejemplo
2D Descriptores
Topológicos
Índice de Zagreb, índice de Wiener, índice
de Balaban J, índices de conectividad
índices de forma chi (χ), kappa (К)
3D Descriptores
Geométricos
Radio de giro, parámetros topológicos de
E-state, índice de 3D Wiener, índice de 3D
Balaban
1.3.2 Técnicas de clasificación
Se utilizan para la asignación de objetos a una de varias clases (dos en el caso
más clásico) basado en una regla de clasificación a través de aprendizaje
supervisado con la función “objetivo” o variable dependiente conocida. El
objetivo de tales técnicas es calcular una regla de clasificación (y posiblemente,
límites de clases, o probabilidades de pertenencia a una clase), basados en los
objetos de la serie de entrenamiento y aplicar esta regla para asignar una de
estas clases a objetos de clases previamente desconocidas.
El ADL fue de elección entre muchos métodos estadísticos para obtener las
funciones de clasificación debido a su simplicidad. Éste ha sido uno de los más
utilizados en el descubrimiento y diseño de fármacos; además su uso ha sido
ampliamente descrito.
Sin embargo, actualmente, se demuestra que hay muchas técnicas que se
comportan y describen mejor la actividad biológica. Muchas de ellas son no-
paramétricas y no lineales, aumentando la diversidad de la frontera de decisión
para separar las clases.
De origen estadístico, se pueden mencionar algunas técnicas, tales como: el
Análisis Discriminante Cuadrático (ADC) (64-66), el Análisis Discriminante
CAPÍTULO 1 REVISIÓN BIBLIOGRÁFICA 17
Regularizado (ADR) (67), la Regresión Logística (RL) (68, 69), el método de k-
Vecinos más Cercanos (KNN, por sus siglas en inglés) (70-75), Árboles de
Clasificación o Decisión (ArC) de origen estadístico (76), los Clasificadores de
Función Potencial (CFP) (77), los Clasificadores Medios más Cercanos (CMC),
los Clasificadores Medios más Cercanos Ponderados (CMCP) (78), entre otras.
Por otra parte, dentro de la IA, se pueden encontrar varios métodos de
clasificación, tales como: las Redes Bayesianas (RBs) (79-82), los ArCs de
origen en IA (por ejemplo, C4.5 (83), ID3 (84)), las MSVs (85), IBK (71)
(algoritmo basado en casos de origen de IA), las RNAs (las más usadas, el
Perceptrón Multicapa (MLP) (86, 87) y las redes recurrentes (88, 89)).
1.3.2.1 Sistemas multiclasificadores
Existe la convicción de que, ante ciertos problemas, no es posible lograr con un
único clasificador la respuesta óptima y se plantea entonces la necesidad de
“multiclasificadores” que combinen de alguna manera, las respuestas de varios
clasificadores en aras de lograr un mejor rendimiento. Los SMCs pueden ser
enfocados desde varios puntos de vista, desde los más simples (ponderación
estadística) hasta su combinación inteligente (90). Existen varios algoritmos
desarrollados, algunos para problemas generales como bagging y boosting y
otros para problemas específicos. En esencia estos métodos tienen dos partes
importantes: a) selección de los clasificadores bases (clasificadores
individuales) y b) elección de la forma de combinar las salidas.
La selección de los clasificadores bases es el primer paso a la hora de construir
un SMC. Algunos paradigmas de combinación de clasificadores usan el mismo
modelo de clasificación, pero no existe evidencia de si esa estrategia es mejor
que el uso de diferentes modelos (91). Una de las condiciones para obtener
buenos clasificadores bases es lograr la diversidad de los mismos. Esta
diversidad puede lograrse de diversas maneras, por ejemplo, el conjunto de
entrenamiento es uno de los parámetros que puede ser cambiado, como lo
hacen bagging (92) y boosting (93). Otra técnica es la manipulación del
CAPÍTULO 1 REVISIÓN BIBLIOGRÁFICA 18
conjunto de rasgos. También puede lograrse diversidad con los modelos
utilizando diferentes técnicas de clasificación. Existen varias medidas que
pueden ser usadas para definir cuál es la combinación de clasificadores más
diversa (94-96).
La combinación de las salidas es otro paso importante a la hora de construir un
SMC. Puede dividirse en dos tipos: selección o fusión. La selección es la
simple elección del “mejor” clasificador para una instancia determinada. La
fusión, por otro lado, se basa en combinar, mediante alguna función, las salidas
de los diferentes clasificadores. También un SMC puede ser entrenado (voto
ponderado, stacking, etc.) cuando le es necesario un entrenamiento adicional
para la obtención del resultado final o no-entrenado (votos no ponderados), en
otro caso (91).
Dietterich en uno de sus estudios (97) ha ofrecido tres justificaciones
(estadística, computacional y figurativa) sobre por qué un SMC puede ser mejor
que un clasificador simple. De hecho, muchos estudios han demostrado que los
SMCs a menudo superan a sus clasificadores bases, si estos últimos se
desempeñan bien en nuevos casos y tienden a cometer errores en diferentes
casos (98-105).
1.3.3 Técnicas de Selección de Variables
Un paso muy importante en cualquier problema de regresión o clasificación es
seleccionar los atributos a partir de gran cantidad de candidatos para describir
los datos. En ocasiones algunos rasgos pueden crear ruido en los datos, tanto
aquellos que son redundantes como los que son irrelevantes, confundiendo al
modelo de clasificación y degradando su rendimiento (106). Existen dos
técnicas para reducir la dimensionalidad: selección y extracción de variables.
La selección de rasgos se basa en la búsqueda del subconjunto de rasgos más
relevantes para el problema, utilizando generalmente tres enfoques: métodos
de filtrado, envoltura y sistemas integrados (107). El primero hace una
CAPÍTULO 1 REVISIÓN BIBLIOGRÁFICA 19
evaluación independiente sobre la base de las características generales de los
datos y se filtra el conjunto de atributos para producir el subconjunto de los más
prometedores antes de que el aprendizaje comience. El otro evalúa el
subconjunto mediante el entrenamiento y prueba del modelo de clasificación
que, en última instancia, será empleado para el aprendizaje; esto significa que
el algoritmo de aprendizaje se “incluye” en el proceso de selección.
Por último, en los sistemas integrados, la selección es parte del proceso de
modelación, o sea, se usan los parámetros del algoritmo para seleccionar un
conjunto de rasgos relevantes.
CAPÍTULO 2 MATERIALES Y MÉTODOS 20
CAPÍTULO 2. MATERIALES Y MÉTODOS
2.1 Base de Datos
La base de datos de compuestos inhibidores de Termolisina fue reportada
previamente por Cañizares (108) y está constituida por 191 compuestos
estructuralmente diversos. Hasta el momento de este estudio, no existe
evidencia de una base de datos con mayor número de compuestos con
reportes experimentales contra la Termolisina. En este caso se tomó como
variable dependiente el coeficiente de inhibición enzimática (Ki) que varía
desde 64x10-9 mM hasta 697 mM. Debido al amplio rango de inhibición que
manifiestan los compuestos de los datos se decidió trabajar con pKi (–log Ki), la
cual varía desde -2,84 hasta 7,19. En el conjunto de datos se puede observar
un alto grado de variabilidad estructural e incluye familias representativas tales
como: tioles, cetonas hidratadas, ácidos hidroxámicos y sus derivados,
carboxilatos, fosfinatos análogos del fosforamidón, silanodioles, alcoholes y
otros compuestos de bajo peso molecular como aminoácidos y dipéptidos. Los
compuestos bajo estudio son análogos del sustrato natural, e inhiben la enzima
de forma competitiva reversible, con grupos funcionales capaces de formar un
complejo de coordinación con el zinc del sitio activo de la Termolisina.
2.1.1 Descriptores Moleculares
Para el cálculo de los descriptores moleculares fue usado el software DRAGON
(109), teniendo en cuenta que ha sido concebido para proporcionar al usuario
una variedad de descriptores moleculares derivados de diferentes
representaciones moleculares, lo que permite elegir los descriptores
moleculares más adecuados para su investigación específica (110). En este
estudio fueron calculados 3224 descriptores moleculares partiendo de una
representación tridimensional de las moléculas previamente optimizadas con el
método semiempírico AM1. Sería ideal poder utilizar todas las combinaciones
de los descriptores disponibles para el cálculo de los modelos; sin embargo, el
CAPÍTULO 2 MATERIALES Y MÉTODOS 21
número de combinaciones suele ser tan grande, que es imposible calcular los
modelos para todos ellos. Por lo tanto, para reducir el tiempo de cálculo del
modelo, se realizó un proceso de filtrado para trabajar con variables que tienen
significación estadística. Luego del filtrado se conservan 565 descriptores. De
este modo se excluyen:
Variables constantes: los descriptores con una desviación estándar
inferior a 0,0001 o todos los valores faltantes.
Variables casi constantes: los descriptores con un solo valor diferente de
los restantes.
Correlación de pares: uno de los dos descriptores con un coeficiente de
correlación igual o superior al valor de umbral seleccionado. En este
caso el valor límite fue de 0,95. Para cada par de descriptores
correlacionados, se excluye el que muestra la correlación de par más
alta con los otros descriptores.
2.1.2 Determinación de las clases a partir de la pKi
Se tomaron clases que fueron determinadas en estudios previos (108). Los
datos recopilados de la literatura poseen una variable dependiente continua,
por lo que se hace necesario el empleo de un método de regresión por partes,
conocido como regresión piecewise, para establecer un valor crítico de la Ki
(expresado como pKi), el cual constituye un punto de corte (breakpoint) para
conformar las clases. El método de regresión piecewise estima dos ecuaciones
separadas de regresión lineal (ecuación 2), uno para los valores de “y”
menores o iguales al punto de corte (b0) y otro para los valores de “y” mayores
que el punto de corte.
𝑦 = (𝑏01 + 𝑏11 ∗ 𝑥1 + ⋯ + 𝑏𝑚1 ∗ 𝑥𝑚) ∗ (𝑦 ≤ 𝑏𝑛) + (𝑏02 + 𝑏12 ∗ 𝑥1 + ⋯ + 𝑏𝑚2 ∗ 𝑥𝑚)
∗ (𝑦 > 𝑏𝑛) (2)
CAPÍTULO 2 MATERIALES Y MÉTODOS 22
En este caso la base de datos fue dividida en dos grupos de clasificación,
activos (inhibidores) e inactivos (inhibidores moderados y no inhibidores),
empleando el método de regresión piecewise. El breakpoint usado en el
estudio es estimado por el programa y de modo que los compuestos con
valores de pKi inferiores a 1,165 son considerados compuestos no inhibidores o
con actividad moderada y el resto compuestos inhibidores. Dentro de la clase
inactiva se agrupan aquellos que poseen actividad moderada, puesto que el
objetivo general del trabajo es la identificación de compuestos con actividad
inhibitoria de la Termolisina que puedan ser usados en la terapéutica, por lo
que solo aquellos que posean una potente actividad serán capaces de
desplazar el sustrato natural y lograr el efecto terapéutico deseado.
2.1.3 Selección de las series de Entrenamiento y Predicción
Para la construcción de la serie de entrenamiento (ver anexo 1) y la serie de
predicción (ver anexo 2) se siguió la metodología utilizada en otros estudios
QSAR (108, 111). Partiendo de un análisis de Cluster de k-medias, se
seleccionó el 25 % de cada conglomerado para conformar la serie de
predicción y el 75 % para la serie de entrenamiento y así garantizar la
representatividad estructural de la data en ambas series (112), como se
muestra a continuación (figura 7).
Figura 7: Selección de la Serie de Entrenamiento y la Serie de Predicción.
CAPÍTULO 2 MATERIALES Y MÉTODOS 23
2.2 Obtención y Validación de los Modelos de Clasificación
Para la obtención del modelo de Clasificación fue seleccionado el software
Weka (113). Como método Evaluador de Atributos se eligió el Wrapper Subset
Evaluator (114) y dentro de este se evaluaron cuatro clasificadores: Trees J48
(83), Lazy IBK , Multilayer Perceptron (113) y SMO (115) (figura 8). En cada
uno de estos clasificadores se utilizaron 5 diferentes métodos de búsqueda:
Best First, Genetic Search, Linear Forward, Rank Search y Subset Size (113).
Figura 8: Esquema de Trabajo de las técnicas implementadas con el software
WEKA.
2.2.1 Obtención de los Modelos QSAR
El paquete Weka contiene una colección de herramientas de visualización y
algoritmos para análisis de datos y modelado predictivo, unidos a una interfaz
gráfica de usuario para acceder fácilmente a sus funcionalidades. El método de
"envoltorio" o Wrapper Subset Evaluator envuelve un clasificador en un ciclo de
validación cruzada: busca entre todos los atributos y utiliza el clasificador para
encontrar un buen conjunto de estos. La búsqueda puede ser hacia adelante,
hacia atrás o bidireccional, comenzando desde cualquier subconjunto.
CAPÍTULO 2 MATERIALES Y MÉTODOS 24
2.2.1.1 Árboles de Clasificación (J48)
El método J48 se utiliza para generar un árbol de decisión C4.5 que puede ser
"podado" o "no podado". La clasificación empleando árboles es una de las
principales técnicas utilizadas en minería de datos cuyo objetivo es predecir o
explicar las respuestas en una variable dependiente categórica, similar a otras
técnicas más tradicionales utilizadas como el análisis discriminante y el análisis
de conglomerados (116).
2.2.1.2 k-vecinos más cercanos (Lazy IBK)
El método de k vecinos más cercanos (k-NN, por sus siglas en inglés) es un
modelo basado en memoria, definido por un conjunto de casos conocidos que
se agrupan en la clase correspondiente, de los cuales se conoce el conjunto de
variables independientes y la variable dependiente o clase. Para clasificar un
nuevo caso se realiza una estimación de la distancia que separa el nuevo caso
de los k casos más cercanos a este en cada una de las clases. La clase
resultante para el nuevo caso será aquella a la cual la distancia entre el nuevo
caso y los k casos más cercanos sea mínima (36).
2.2.1.3 Perceptron Multicapa (MLP)
El concepto de red neuronal artificial se basa en una modelación de la
capacidad de aprendizaje del cerebro, constituyendo en la actualidad una
herramienta de uso cada vez más extendido en tareas de clasificación. El
propósito general es asignar a cada caso la clase correspondiente, de acuerdo
a un aprendizaje previo realizado por la red.
Existen diversos tipos de redes neuronales, atendiendo a la arquitectura, a las
formas en que se realiza el aprendizaje y a las funciones de activación que se
utilicen para las neuronas. Dentro de ellas una de las de uso más extendido
son las Perceptron multicapa (MLP por sus siglas en ingles). En estas redes
cada una de las unidades o neuronas de una capa lleva a cabo una suma
CAPÍTULO 2 MATERIALES Y MÉTODOS 25
pesada o ponderada de la entrada y utiliza este resultado para pasarlo a través
de una función de trasferencia y producir una salida (117).
2.2.1.4 Máquina de Soporte de Vectores (SVM)
La Máquina de Soporte de Vectores es un método de clasificación que consiste
en construir hiperplanos en un espacio multidimensional para separar los casos
de diferentes clases. Para construir el hiperplano óptimo se emplea un
algoritmo de entrenamiento iterativo, el cual se utiliza para minimizar una
función de error. De acuerdo a la función de error existen dos tipos de vectores
soporte para clasificación: tipo 1 (C-SVM) y tipo 2 (nu-SVM) (118).
2.2.2 Evaluación y Validación de los Modelos.
La calidad de los modelos de clasificación se chequeo a partir de los valores
obtenidos para los parámetros estadísticos recomendados en la literatura
médico-estadística. En este sentido la calidad de los modelos obtenidos fue
igualmente expresada a través del coeficiente de correlación de Mattews (C), la
exactitud (Q), la sensibilidad, la especificidad y la relación de falsos positivos
(RFP) (119).
C = 100 * (VP * VN – FP * FN) / √ (VN + FN) * (VN + FP) * (VP + FP) * (VP + FN)
Q = 100 * (VP + VN) / (VP + FP + VN + FN)
Sensibilidad = 100 * VP / (VP + FN)
Especificidad = 100 * VP / (VP + FP)
RFP = 100 * FP / (FP + VN)
En estas ecuaciones, VP y VN son los verdaderos positivos y negativos
respectivamente; asimismo los parámetros FP y FN son los falsos positivos y
negativos, correspondientemente.
Para probar la robustez de los modelos y demostrar el poder predictivo de los
mismos, fueron efectuados ejercicios de validación interna y externa. Para la
validación interna del modelo se utilizó una validación cruzada de 10
iteraciones, mejor conocida como 10-fold cross-validation.
CAPÍTULO 2 MATERIALES Y MÉTODOS 26
En esta los datos de muestra se dividen en 10 subconjuntos. Uno de los
subconjuntos se utiliza como datos de prueba y el resto (10-1) como datos de
entrenamiento. El proceso de validación cruzada es repetido durante 10
iteraciones, con cada uno de los posibles subconjuntos de datos de prueba.
Finalmente se realiza la media aritmética de los resultados de cada iteración
para obtener un único resultado. Este método es muy preciso puesto que se
evalúa a partir de 10 combinaciones de datos de entrenamiento y de prueba
(120).
La condición necesaria y suficiente para decir que un modelo tiene un
adecuado poder predictivo es a través de una validación externa. Para este
segundo ejercicio de validación, se utiliza la SP generada mediante el análisis
de conglomerados (figura 7). De igual manera que para la SE, reportamos
para la SP los parámetros estadísticos antes descritos. Para probar la
capacidad predictiva de los modelos, los parámetros estadísticos resultantes de
la validación deben ser comparables con los predichos por el propio modelo.
2.3 Cribado Virtual
Otros de los rasgos importantes de los modelos QSAR es su habilidad de
predecir si compuestos de interés pudieran presentar determinada actividad.
Los ejercicios de validación descritos para los modelos de clasificación,
permiten probar su eficacia para la aplicación de los mismos en la identificación
y/o selección de nuevos compuestos como inhibidores de la Termolisina.
En este sentido, los modelos obtenidos por las técnicas descritas fueron
empleados en el cribado virtual de 8 moléculas, aisladas de la planta Boldoa
purpurascens, también conocida como Nitro blanco, por profesores de la
Facultad de Química y Farmacia de la Universidad Central Marta Abreu de las
Villas. Estas moléculas tienen efecto diurético comprobado en extracto acuoso
liofilizado, a la dosis de 400 mg/kg (121). También se cribaron los posibles
productos de la hidrólisis parcial o total de estas moléculas en el tracto
gastrointestinal.
CAPÍTULO 3 RESULTADOS Y DISCUSIÓN 27
Capítulo 3: Resultados y Discusión
3.1 Generalidades
En este capítulo se muestran los resultados obtenidos, a partir del desarrollo de
modelos de clasificación utilizando cuatro técnicas estadísticas y de inteligencia
artificial implementadas en el software WEKA. Además, se expone el cribado
virtual de compuestos naturales, para identificar potenciales fármacos
inhibidores de la Termolisina como alternativas antihipertensivas.
3.2 Obtención y validación de los modelos de clasificación
A partir de las técnicas de selección de atributos descritas en el Capítulo 2
fueron probadas cuatro técnicas de clasificación implementadas en el software
WEKA (Árboles de Clasificación J48, Máquinas de Vectores Soporte, k-ésimos
vecinos más cercanos y la red neuronal artificial Perceptron Multicapa). Estas
técnicas son ampliamente utilizadas con muy buenos resultados para obtener
correlaciones entre la estructura de los compuestos y determinadas funciones
biológicas (122-124).
La obtención del modelo es el paso básico en el análisis QSAR, pero no es
suficiente para garantizar su validez; es esencial comprobar su desempeño, es
decir: el ajuste, la estabilidad en la validación cruzada y la capacidad para
predecir nuevos productos químicos (125). Los resultados de la validación
interna dan muestra del ajuste y estabilidad del modelo por lo que fue realizada
una validación cruzada dejando grupos fuera (10-folds) que excluye
iterativamente el 10 % de los compuestos del conjunto de datos.
Para probar la capacidad predictiva de los modelos se llevó a cabo una
validación externa, utilizando una serie de predicción externa con compuestos
que no se emplearon para la obtención de los modelos. Para que los modelos
CAPÍTULO 3 RESULTADOS Y DISCUSIÓN 28
obtenidos sean considerados estables, robustos y con buena capacidad
predictiva, los resultados de la validación, tanto interna como externa, tienen
que ser comparables con los obtenidos por el propio modelo (126-129).
3.2.1 Máquinas de Soporte Vectorial (SVM)
El modelo resultante fue obtenido con un núcleo de la función o kernel de tipo
RBF (según la ecuación 3) y siete variables predictivas (MAXDN, RDF030u,
H7e, R6m, nCs, B03[O-O], F08[C-O]). Como podemos observar es un modelo
sencillo que cumple con el principio de parsimonia, ya que describe más del
90 % de la actividad inhibidora de Termolisina con un número reducido de
variables.
𝐾(𝑥, 𝑦) = 𝑒−(1.1∗ <𝑥−𝑦,𝑥−𝑦>)2 (3)
Los parámetros estadísticos recomendados en la literatura médico estadística
muestran que el modelo es robusto y tiene un buen ajuste de los descriptores
moleculares al problema modelado. Esto se evidencia en una exactitud (Q),
especificidad y sensibilidad con valores superiores al 90 % en la serie de
entrenamiento del modelo, y una razón de falsos positivos o RFP= 6,76. Esto
posibilita que el modelo sea apropiado para usarlo en la identificación de
nuevos compuestos inhibidores de Termolisina. Además, el modelo tiene un
área bajo la curva ROC=0,94 lo que demuestra el buen ajuste del mismo.
Los resultados de la Validación Cruzada son comparables con los obtenidos
por la serie de entrenamiento, siendo la RFP el parámetro estadístico que más
afectado se ve, con un valor de 13,51 aunque se mantiene por debajo del valor
usualmente permitido de 15% (130, 131). Para la validación externa también se
obtuvieron resultados comparables, siendo la sensibilidad la que más se afecta,
disminuyendo un 12 % con respecto a los valores obtenidos por el modelo. Los
parámetros estadísticos de este modelo se muestran en la tabla 2.
CAPÍTULO 3 RESULTADOS Y DISCUSIÓN 29
Tabla 2: Parámetros estadísticos del modelo de SVM.
SVM C Q Sensibilidad Especificidad RFP ROC
Entrenamiento 0,87 93,71 94,20 92,86 6,76 0,94
VC 0,73 86,71 86,96 85,71 13,51 0,87
Predicción 0,75 87,50 82,61 90,48 8,00 0,87
Teniendo en cuenta las variables más significativas que fueron seleccionadas
para la construcción del modelo, es de vital importancia la información
tridimensional de las moléculas y se debe precisamente a que las enzimas
tienen una conformación específica en su sitio activo lo que hace que sean
estereoespecíficas.
3.2.2 Árboles de Clasificación (J48)
Para obtener el mejor modelo se exploraron varias opciones variando los
parámetros: factor de confianza utilizado para la poda y número mínimo de
instancias por hoja. El mejor modelo encontrado fue desarrollado con 11
variables, tuvo un factor de confianza para la poda de 0,25 y el número de
instancias por hoja fue de uno.
Con este modelo no se obtuvieron buenos resultados, pues a pesar de que la
razón de falsos positivos fue 1,35 (la menor de todos los modelos) y clasificó
correctamente más del 95 % de los casos de la serie de entrenamiento, en la
validación se ven afectados todos los estadígrafos. Los valores de Exactitud,
Sensibilidad y Especificidad obtenidos en la validación cruzada disminuyen casi
en un 20 % con respecto a los obtenidos por el modelo y la RFP obtiene un
valor superior a 20, lo que evidencia la poca robustez del modelo y su falta de
ajuste.
CAPÍTULO 3 RESULTADOS Y DISCUSIÓN 30
En la serie de Predicción solo alcanza a clasificar correctamente alrededor del
70 % de los casos y la razón de falsos positivos se eleva hasta 16, lo que
evidencia la poca efectividad del modelo para predecir de forma adecuada
nuevos compuestos con capacidad inhibitoria. En la tabla 3 se muestran todos
los parámetros estadísticos del desempeño de este modelo.
Tabla 3: Parámetros estadísticos del modelo de J48.
J48 C Q Sensibilidad Especificidad RFP
Entrenamiento 0,90 95,10 91,30 98,43 1,35
VC 0,53 76,92 73,91 77,27 20,27
Predicción 0,45 72,34 59,09 76,47 16,00
3.2.3 k-ésimos vecinos más cercanos (k-NN)
El mejor modelo con esta técnica se obtuvo con 10 variables. Para su
obtención se ensayaron diversas métricas de distancia disponibles en el
WEKA, finalmente se seleccionó la Manhattan Distance por ser la que aportó
los resultados superiores, con un número óptimo de tres vecinos más cercanos.
En el modelo los valores de exactitud, sensibilidad y especificidad alcanzaron
valores cercanos al 90 % en la serie de entrenamiento. El coeficiente de
correlación de Mattews (C) fue de 0,78 para la serie de entrenamiento y la
razón de falsos positivos se mantuvo con valores adecuados, por debajo de 15.
En la Validación Interna se obtienen valores comparables con los del modelo.
En la serie de predicción, la sensibilidad es el parámetro que más se ve
afectado, disminuyendo alrededor de un 10 % con respecto a la serie de
entrenamiento, pero el resto de los estadígrafos son comparables con los
obtenidos por el modelo, lo que nos indica que el modelo es estable, robusto y
CAPÍTULO 3 RESULTADOS Y DISCUSIÓN 31
tiene buena capacidad predictiva. La calidad del modelo puede comprobarse
mediante los resultados estadísticos obtenidos por el mismo (tabla 4).
Tabla 4: Parámetros estadísticos del modelo de k-NN.
k-NN C Q Sensibilidad Especificidad RFP ROC
Entrenamiento 0,78 88,81 88,41 88,41 10,81 0,96
VC 0,64 81,82 79,71 82,09 16,22 0,83
Predicción 0,71 85,42 78,26 90,00 8,00 0,87
3.2.4 Perceptron Multicapa (MLP)
En el caso de MLP el mejor modelo resultó tener 12 neuronas en la capa de
entrada y 2 capas ocultas. Con esta red neuronal se obtienen valores de
exactitud, sensibilidad y especificidad superiores al 85 % y la razón de falsos
positivos fue de 12,16 %. De acuerdo a los resultados obtenidos en la
validación interna podemos concluir que este modelo es el que mejor ajuste
tiene, ya que los valores obtenidos en los estadígrafos calculados nunca
difieren más de un 6 % con los valores obtenidos para la serie de
entrenamiento (ver tabla 5).
En la validación externa se obtuvo una RFP= 4 % y la especificidad alcanzó el
valor de 94 % por lo que, en cuanto a estos parámetros, la calidad es superior
a la del resto de los modelos obtenidos. Sin embargo, la sensibilidad disminuye
notablemente en la serie de predicción (Sensibilidad= 69,56) con respecto a la
serie de entrenamiento (Sensibilidad= 85,51), esto nos sugiere que el modelo
reconoce un grupo de compuestos con actividad inhibidora como compuestos
inactivos.
CAPÍTULO 3 RESULTADOS Y DISCUSIÓN 32
Tabla 5: Parámetros estadísticos del modelo de MLP.
MLP C Q Sensibilidad Especificidad RFP
Entrenamiento 0,73 86,71 85,51 86,76 12,16
VC 0,65 82,52 79,71 83,33 14,86
Predicción 0,68 83,33 69,56 94,12 4,00
De manera general, podemos concluir que las afectaciones de mayor
consideración en todos los modelos ocurren en la sensibilidad. Hay que
considerar que en la serie de compuestos no inhibidores existen compuestos
con actividad moderada por lo que existe un grado de similitud estructural con
compuestos de la serie activa. Sin embargo, es preferible no seleccionar
compuestos con actividad a evaluar compuestos inactivos como activos.
3.3 Selección de los Modelos Obtenidos
Con todos los modelos no se obtuvieron óptimos resultados por lo que se llevó
a cabo un proceso de comparación y selección para conservar los modelos
más robustos y con mejor ajuste al problema modelado. Como el objetivo
central del trabajo es identificar compuestos que inhiban la enzima Termolisina
se requiere que los modelos finamente seleccionados tengan una razón de
falsos positivos baja, así como una especificidad alta, ya que una mayor
especificidad asegura que el modelo va a reconocer menos compuestos como
Falsos Positivos (ver ecuación 4)
Especificidad = Verdaderos Positivos
Falsos Positivos + Verdaderos Positivos ∗ 100 (4)
Por estos motivos fueron seleccionados los modelos SVM y k-NN, ya que
mostraron una RFP de menos de diez y valores de especificidad superiores al
CAPÍTULO 3 RESULTADOS Y DISCUSIÓN 33
88 % tanto en la serie de entrenamiento como en la de predicción. Se
seleccionó también el modelo MLP, pues, aunque su RFP fue de 12 en la serie
de entrenamiento, obtuvo los menores valores para la serie de predicción entre
todos los modelos, tanto de especificidad como de RFP. El modelo obtenido
con Árboles de Clasificación no fue seleccionado porque en la serie de
predicción la RFP fue de más de 16 y la especificidad disminuyó más de un
20 % con respecto a la serie de entrenamiento.
3.4 Cribado Virtual
Una vez comprobada la capacidad predictiva de los modelos, estos fueron
empleados para el cribado virtual de un grupo de flavonoides aislados de la
planta Boldoa purpurascens, vulgarmente conocida como Nitro blanco. Se ha
reportado la actividad diurética de esta planta medicinal (121), útil en las
enfermedades de las vías urinarias, y ha sido ampliamente utilizada en Cuba y
en la provincia de Villa Clara con dicha finalidad.
Según la caracterización de la planta, esta es clasificada como una planta
natriurética o diurética sódica pues facilita principalmente la eliminación de
iones sodio. Esto nos sugiere que sus metabolitos pudieran ser potenciales
inhibidores de la Neprilisina (enzima que metaboliza los péptidos natriuréticos
que participa en la regulación de la presión arterial). Se puede observar que el
núcleo base de estas moléculas es el mismo y probablemente sea la molécula
con actividad en el organismo, teniendo en cuenta la posibilidad de hidrólisis en
el tracto gastrointestinal, así como el impedimento estérico que pueden tener
las moléculas aisladas para acceder al sitio activo de la enzima (ver tabla 6).
CAPÍTULO 3 RESULTADOS Y DISCUSIÓN 34
Tabla 6: Flavonoides de la planta Boldoa purpurascens cribados por los
modelos.
Moléculas Aisladas Posibles Productos de Hidrólisis
CAPÍTULO 3 RESULTADOS Y DISCUSIÓN 35
Moléculas Aislada Posibles Productos de Hidrólisis
Todos los compuestos tienen grupos funcionales capaces de formar un
complejo de coordinación con el zinc del sitio catalítico y el tamaño adecuado
para interactuar con los subsitios de anclaje de la enzima. Lo anterior sugiere,
al menos en parte, la contribución de estos metabolitos a las propiedades
natriuréticas de la planta medicinal, probablemente a través de un mecanismo
CAPÍTULO 3 RESULTADOS Y DISCUSIÓN 36
de inhibición enzimática. Como comentamos con anterioridad una de las
posibles consecuencias sería la obtención de efectos antihipertensivos.
A pesar de que los estudios in silico no brindan una certeza absoluta, el empleo
de estas herramientas computacionales proporciona una identificación rápida
con una alta probabilidad de que sean considerados inhibidores de la
Termolisina. Además, genera un gran ahorro de recursos económicos y
materiales con respecto a los métodos tradicionales de análisis.
CONCLUSIONES 38
CONCLUSIONES
Atendiendo a los resultados obtenidos se ha llegado a las conclusiones
siguientes:
Se obtuvieron varios modelos mediante el empleo del software WEKA y
descriptores moleculares del DRAGON, que permiten describir
correctamente la actividad inhibidora sobre la enzima Termolisina.
Los modelos obtenidos fueron validados adecuadamente,
comprobándose la estabilidad y robustez, así como un buen poder
predictivo.
Fueron identificados un grupo de flavonoides, derivados de la planta
Boldoa purpurascens, como potenciales inhibidores de la Termolisina a
partir del cribado virtual.
RECOMENDACIONES 39
RECOMENDACIONES
Determinar el dominio de aplicación del modelo.
Aplicar las herramientas desarrolladas para cribar otras bases de datos
para la identificación de nuevos inhibidores de la enzima Termolisina.
Realizar estudios in vitro o in vivo de los flavonoides identificados como
potenciales inhibidores de la enzima Termolisina.
Evaluar mediante ensayos biológicos, la actividad inhibidora sobre la
EPN y la ECA; así como los efectos sobre la tensión arterial, de los
metabolitos identificados como potenciales inhibidores de la TLN.
REFERENCIAS BIBLIOGRÁFICAS
REFERENCIAS BIBLIOGRÁFICAS
1. Roques BP. Insights into peptide and protein function: A convergent approach.
Journal of Peptide Science. 2001;7(2):63-73.
2. Shrimpton CN, Smith AI. Soluble neutral metallopeptidases: physiological
regulators of peptide action. Journal of Peptide Science. 2000;6(6):251-63.
3. Giles TD, Materson BJ, Cohn JN, Kostis JB. Definition and classification of
hypertension: an update. The Journal of Clinical Hypertension. 2009;11(11):611-
4.
4. Ricci I, Artacho R, Olalla M. Milk protein peptides with angiotensin I-converting
enzyme inhibitory (ACEI) activity. Critical reviews in food science and nutrition.
2010;50(5):390-402.
5. Kannel WB. Blood pressure as a cardiovascular risk factor: prevention and
treatment. Jama. 1996;275(20):1571-6.
6. Boelsma E, Kloek J. Lactotripeptides and antihypertensive effects: a critical
review. British Journal of Nutrition. 2009;101:776-86.
7. Rashid P, Leonardi-Bee J, Bath P. Blood pressure reduction and secondary
prevention of stroke and other vascular events: a systematic review. Stroke.
2003;34(11):2741-8.
8. Williams B. The changing face of hypertension treatment: treatment strategies
from the 2007 ESH/ESC hypertension Guidelines. Journal of Hypertension.
2009;27:S19-S26.
9. Guyton A. Tratado de Fisiología Médica. 9 ed: Ed. McGraw-Hill-Interamaricana.;
1996.
10. FitzGerald RJ, Murray BA, Walsh DJ. Hypotensive peptides from milk proteins.
The journal of nutrition. 2004;134(4):980S-8S.
11. Structure of angiotensin I-converting enzyme. 2004.
12. Turner AJ, Isaac RE, Coates D. The neprilysin (NEP) family of zinc
metalloendopeptidases: genomics and function. Bioessays. 2001;23(3):261-9.
13. Negri A. Omapatrilat, inhibidor dual de la enzima de conversion de angiotensina
(ECA) y de la endopeptidasa neutra (EPN). . Rev Nefrol Dial y transpl. 2002:9-
14.
14. Acharya KR, Sturrock ED, Riordan JF, Ehlers MR. Ace revisited: a new target for
structure-based drug design. Nature Reviews Drug Discovery. 2003;2(11):891.
15. Weber MA. Vasopeptidase inhibitors. The Lancet. 2001;358(9292):1525-32.
16. Gardner DG, Chen S, Glenn DJ, Grigsby CL. Molecular biology of the natriuretic
peptide system: implications for physiology and hypertension. Hypertension.
2007;49(3):419-26.
REFERENCIAS BIBLIOGRÁFICAS
17. Gu J, Noe A, Chandra P, Al‐Fayoumi S, Ligueros‐Saylan M, Sarangapani R, et al.
Pharmacokinetics and Pharmacodynamics of LCZ696, a Novel Dual‐Acting
Angiotensin Receptor—Neprilysin Inhibitor (ARNi). The Journal of Clinical
Pharmacology. 2010;50(4):401-14.
18. Levin ER, Gardner DG, Samson WK. Natriuretic peptides. New England Journal
of Medicine. 1998;339(5):321-8.
19. Lee C, Burnett Jr JC. Natriuretic peptides and therapeutic applications. Heart Fail
REv. 2007;12(2):131-42.
20. Mangiafico S, Costello-Boerrigter LC, Andersen IA, Cataliotti A, Burnett Jr JC.
Neutral endopeptidase inhibition and the natriuretic peptide system: an evolving
strategy in cardiovascular therapeutics. European heart journal. 2012;34(12):886-
93.
21. Sega R, Friz H. Nuevas indicaciones de drogas antihipertensivas conocidas. 9no
Congreso Internacional de Medicina Interna del Hospital de Clinicas 2002:8-10.
22. Escalona J, Carrasco R, Padrón J. Introducción al diseño de Fármacos: Pueblo y
educación.
23. Estrada E. Chem Inf Comput Sci 1996;36:844.
24. Yasukawa K, Kusano M, Inouye K. A new method for the extracellular
production of recombinant thermolysin by co-expressing the mature sequence and
pro-sequence in Escherichia coli. Protein Engineering, Design & Selection.
2007;20(8):375-83.
25. Tajima M, Urabe I, Yutani K, Okada H. Role of calcium ions in the
thermostability of thermolysin and Bacillus subtilis var. amylosacchariticus
neutral protease. The FEBS Journal. 1976;64(1):243-7.
26. Rawlings ND, Barrett AJ, Finn R. Twenty years of the MEROPS database of
proteolytic enzymes, their substrates and inhibitors. Nucleic acids research.
2015;44(D1):D343-D50.
27. de Kreij A, Venema G, van den Burg B. Substrate specificity in the highly
heterogeneous M4 peptidase family is determined by a small subset of amino
acids. Journal of Biological Chemistry. 2000;275(40):31115-20.
28. Miyamoto K, Tsujibo H, Nukui E, Itoh H, Kaidzu Y, Inamori Y. Isolation and
characterization of the genes encoding two metalloproteases (MprI and MprII)
from a marine bacterium, Alteromonas sp. strain O-7. Bioscience, biotechnology,
and biochemistry. 2002;66(2):416-21.
29. Yang J, Li J, Mai Z, Tian X, Zhang S. Purification, characterization, and gene
cloning of a cold-adapted thermolysin-like protease from Halobacillus sp. SCSIO
20089. Journal of bioscience and bioengineering. 2013;115(6):628-32.
30. Trusek-Holownia A. Synthesis of ZAlaPheOMe, the precursor of bitter dipeptide
in the two-phase ethyl acetate–water system catalysed by thermolysin. Journal of
biotechnology. 2003;102(2):153-63.
31. Häse C, Finkelstein RA. Bacterial extracellular zinc-containing metalloproteases.
Microbiological reviews. 1993;57(4):823-37.
32. Wu J, Chen X. Extracellular metalloproteases from bacteria. Appl Microbiol
Biotechnol. 2011;92:253-62.
REFERENCIAS BIBLIOGRÁFICAS
33. Holmes M, Matthews BW. Structure of thermolysin refined at 1.6 Å resolution.
Journal of molecular biology. 1982;160(4):623-39.
34. Matthews BW, Weaver LH, Kester WR. The conformation of thermolysin.
Journal of Biological Chemistry. 1974;249(24):8030-44.
35. Eijsink VG, Veltman OR, Aukema W, Vriend G, Venema G. Structural
determinants of the stability of thermolysin-like proteinases. Nature Structural and
Molecular Biology. 1995;2(5):374.
36. Dahlquist F, Long J, Bigbee W. Role of calcium in the thermal stability of
thermolysin. Biochemistry. 1976;15(5):1103-11.
37. Matthews BW. Structural basis of the action of thermolysin and related zinc
peptidases. Accounts of Chemical Research. 1988;21(9):333-40.
38. Hangauer DG, Monzingo AF, Matthews BW. An interactive computer graphics
study of thermolysin-catalyzed peptide cleavage and inhibition by N-
carboxymethyl dipeptides. Biochemistry. 1984;23(24):5730-41.
39. Mock WL, Aksamawati M. Binding to thermolysin of phenolate-containing
inhibitors necessitates a revised mechanism of catalysis. Biochemical Journal.
1994;302(Pt 1):57.
40. Mock WL, Stanford DJ. Arazoformyl dipeptide substrates for thermolysin.
Confirmation of a reverse protonation catalytic mechanism. Biochemistry.
1996;35(23):7369-77.
41. Juers DH, Kim J, Matthews BW, Sieburth SM. Structural analysis of silanediols
as transition-state-analogue inhibitors of the benchmark metalloprotease
thermolysin. Biochemistry. 2005;44(50):16524-8.
42. Suda H, Aoyagui T, Takeuchi T, Umezawa H. A thermolysin inhibitor produced
by actinomycetes: phosphoramidon. The Journal of antibiotics. 1973;26(10):621-
3.
43. Weaver L, Kester W, Matthews B. A crystallographic study of the complex of
phosphoramidon with thermolysin. A model for the presumed catalytic transition
state and for the binding of extended substrates. Journal of molecular biology.
1977;114(1):119-32.
44. Benchetrit T, Fournié-Zaluski M, Roques B. Relationship between the inhibitory
potencies of thiorphan and retrothiorphan enantiomers on thermolysin and neutral
endopeptidase 24.11 and their interactions with the thermolysin active site by
computer modelling. Biochemical and biophysical research communications.
1987;147(3):1034-40.
45. Muta Y, Inouye K. Inhibitory effects of alcohols on thermolysin activity as
examined using a fluorescent substrate. The Journal of Biochemistry.
2002;132(6):945-51.
46. Cañizares-Carmenate Y, Mena-Ulecia K, Perera-Sardiña Y, Torrens F, Castillo-
Garit JA. An approach to identify new antihypertensive agents using Thermolysin
as model: In silico study based on QSARINS and docking. Arab J Chem.
2016;http://dx.doi.org/10.1016/j.arabjc.2016.10.003.
47. Rang H, Dale M, Ritter J, Moore P. Pharmacology, Churchill Livingstone. New
York. 2003:3-4.
REFERENCIAS BIBLIOGRÁFICAS
48. Yang H, Erdos E, Levin Y. A dipeptidyl carboxypeptidase that converts
angiotensin I and inactivates bradykinin. OKLAHOMA UNIV MEDICAL
CENTER OKLAHOMA CITY, 1970.
49. Williams TA, Corvol P, Soubrier F. Identification of two active site residues in
human angiotensin I-converting enzyme. Journal of Biological Chemistry.
1994;269(47):29430-4.
50. Soubrier F, Alhenc-Gelas F, Hubert C, Allegrini J, John M, Tregear G, et al. Two
putative active centers in human angiotensin I-converting enzyme revealed by
molecular cloning. Proceedings of the National Academy of Sciences.
1988;85(24):9386-90.
51. Roques BP, Noble F, Dauge V, Fournie-Zaluski M, Beaumont A. Neutral
endopeptidase 24.11: structure, inhibition, and experimental and clinical
pharmacology. Pharmacological Reviews. 1993;45(1):87-146.
52. Bland ND, Pinney JW, Thomas JE, Turner AJ, Isaac RE. Bioinformatic analysis
of the neprilysin (M13) family of peptidases reveals complex evolutionary and
functional relationships. BMC evolutionary biology. 2008;8(1):16.
53. Holland D, Barclay P, Danilewicz J, Matthews B, James K. Inhibition of
thermolysin and neutral endopeptidase 24.11 by a novel glutaramide derivative:
X-ray structure determination of the thermolysin-inhibitor complex.
Biochemistry. 1994;33(1):51-6.
54. Manzur F, Villarreal T, Moneriz C. Dual inhibition of neprilysin and angiotensin
II receptor: promising new strategy in the treatment of cardiovascular disease.
Revista Colombiana de Cardiología. 2013;20(6):386-93.
55. Khan MTH, Fuskevåg O-M, Sylte I. Discovery of potent thermolysin inhibitors
using structure based virtual screening and binding assays. Journal of medicinal
chemistry. 2008;52(1):48-61.
56. Ruilope LM, Dukat A, Böhm M, Lacourcière Y, Gong J, Lefkowitz MP. Blood-
pressure reduction with LCZ696, a novel dual-acting inhibitor of the angiotensin
II receptor and neprilysin: a randomised, double-blind, placebo-controlled, active
comparator study. The Lancet. 2010;375(9722):1255-66.
57. Laurent S, Boutouyrie P, Azizi M, Marie C, Gros C, Schwartz J-C, et al.
Antihypertensive effects of fasidotril, a dual inhibitor of neprilysin and
angiotensin-converting enzyme, in rats and humans. Hypertension.
2000;35(5):1148-53.
58. Scior T, Lozano-Aponte J, Echeverría D. CAMD Y CADD. Simulaciones
moleculares computacionales de fármacos. Parte 1. Informacéutico. 2009;16(5).
59. Scior T, Lozano-Aponte J, Echeverria D. CAMD Y CADD. Simulaciones
moleculares computacionales de fármacos. Parte 2.: Informacéutico; 2009.
60. Scior T, Medina-Franco J, Do Q-T, Martínez-Mayorga K, Yunes Rojas J, Bernard
P. How to recognize and workaround pitfalls in QSAR studies: a critical review.
Current medicinal chemistry. 2009;16(32):4297-313.
61. Lozano-Aponte J, Scior T. ¿Qué sabe Ud. acerca de…QSAR? Rev Mex Cienc
Farm. 2012;43.
REFERENCIAS BIBLIOGRÁFICAS
62. Winkler DA. The role of quantitative structure-activity relationship (QSAR) in
biomolecular discovery. Briefings in Bioinformatics [Internet]. 2002; 3:[14 p.].
63. Tong W, Hong H, Xie Q, Shi L, Fang H, Perkins R. Assessing QSAR limitations-
A regulatory perspective. Current Computer-Aided Drug Design. 2005;1(2):195-
205.
64. McLachlan G. Discriminant analysis and statistical pattern recognition Wiley
New York Google Scholar. 1992.
65. Mazzatorta P, Benfenati E, Lorenzini P, Vighi M. QSAR in ecotoxicity: an
overview of modern classification techniques. Journal of chemical information
and computer sciences. 2004;44(1):105-12.
66. Naamane N, van Helden J, Eizirik DL. In silico identification of NF-kappaB-
regulated genes in pancreatic beta-cells. BMC bioinformatics. 2007;8(1):55.
67. Friedman JH. Regularized discriminant analysis. Journal of the American
statistical association. 1989;84(405):165-75.
68. Dobson AJ, Barnett A. An introduction to generalized linear models: CRC press;
2008.
69. Hosmer Jr DW, Lemeshow S, Sturdivant RX. Applied logistic regression: John
Wiley & Sons; 2013.
70. Cover T, Hart P. Nearest neighbor pattern classification. IEEE transactions on
information theory. 1967;13(1):21-7.
71. Aha DW, Kibler D, Albert MK. Instance-based learning algorithms. Machine
learning. 1991;6(1):37-66.
72. Fukunaga K. Introduction to statistical pattern recognition. . 2 ed. San Diego, CA:
Academic Press Professional, Inc; 1990.
73. Abidin T, Perrizo W, editors. SMART-TV: A fast and scalable nearest neighbor
based classifier for data mining. Proceedings of the 2006 ACM symposium on
Applied computing; 2006: ACM.
74. Khan M, Ding Q, Perrizo W, editors. K-nearest neighbor classification on spatial
data streams using p-trees. Pacific-Asia Conference on Knowledge Discovery and
Data Mining; 2002: Springer.
75. Yu K, Ji L. Karyotyping of comparative genomic hybridization human
metaphases using kernel nearest‐neighbor algorithm. Cytometry Part A.
2002;48(4):202-8.
76. SPSS Base 15.0 User´s Guide. Chicago2006.
77. Batchelor B, Ford N, Wilkins B. Learning in potential-function classifier.
Electronics Letters. 1970;6(25):826-8.
78. Veenman CJ, Tax DM, editors. A weighted nearest mean classifier for sparse
subspaces. Computer Vision and Pattern Recognition, 2005 CVPR 2005 IEEE
Computer Society Conference on; 2005: IEEE.
79. Analytics CR. Inc. About Bayesian belief networks. Cam bridge: Charles River
Analytics. Inc; 2004.
REFERENCIAS BIBLIOGRÁFICAS
80. Cooper GF, Herskovits E. A Bayesian method for the induction of probabilistic
networks from data. Machine learning. 1992;9(4):309-47.
81. Friedman N, Geiger D, Goldszmidt M. Bayesian network classifiers. Machine
learning. 1997;29(2-3):131-63.
82. del Carmen Chávez M, Casas G, Moreira J, González E, Pérez RB, Grau R. Uso
de redes bayesianas obtenidas mediante Optimización de Enjambre de Partículas
para el diagnóstico de la Hipertensión Arterial. Investigación Operacional.
2009;30(1):52-60.
83. Quinlan JR. C4. 5: programs for machine learning: Elsevier; 2014.
84. Quinlan JR. Discovering rules by induction from large collections of examples.
Expert systems in the micro electronics age. 1979.
85. Vapnik V. The nature of statistical learning theory: Springer science & business
media; 2013.
86. Rumelhart D, Hinton G, Williams R. Learning Internal Representations by Error
Propagation. IN Rumlhart DE and McClelland JL (Ed.) Parallel Distributed
Processing. Cambridge, MA., MIT Press; 1986.
87. Svozil D, Kvasnicka V, Pospichal J. Introduction to multi-layer feed-forward
neural networks. Chemometrics and intelligent laboratory systems.
1997;39(1):43-62.
88. Pearlmutter B. Dynamic recurrent neural networks. 1990.
89. Williams RJ, Zipser D. Gradient-based learning algorithms for recurrent networks
and their computational complexity. Backpropagation: Theory, architectures, and
applications. 1995;1:433-86.
90. Rodríguez Abed A. Nuevo sistema multiclasificador jerárquico. Posibilidades de
aplicación: Universidad Central “Marta Abreu” de Las Villas; 2007.
91. Kuncheva LI. Combining pattern classifiers: methods and algorithms: John Wiley
& Sons; 2004.
92. Breiman L. Bagging predictors. Machine learning. 1996;24(2):123-40.
93. Schapire RE. The strength of weak learnability. Machine learning. 1990;5(2):197-
227.
94. Kuncheva LI, Whitaker CJ. Measures of diversity in classifier ensembles and their
relationship with the ensemble accuracy. Machine learning. 2003;51(2):181-207.
95. Kuncheva LI, Whitaker CJ, editors. Ten measures of diversity in classifier
ensembles: limits for two classifiers. Intelligent Sensor Processing (Ref No
2001/050), A DERA/IEE Workshop on; 2001: IET.
96. Brown G, Wyatt J, Harris R, Yao X. Diversity creation methods: a survey and
categorisation. Information Fusion. 2005;6(1):5-20.
97. Dietterich TG, editor Ensemble methods in machine learning. International
workshop on multiple classifier systems; 2000: Springer.
98. Opitz DW, Maclin R. Popular ensemble methods: An empirical study. J Artif
Intell Res(JAIR). 1999;11:169-98.
REFERENCIAS BIBLIOGRÁFICAS
99. Goebel KF, Yan W, editors. Using correlation-based measures to select classifiers
for decision fusion. Multisensor, Multisource Information Fusion: Architectures,
Algorithms, and Applications 2005; 2005: International Society for Optics and
Photonics.
100. Ho TK, Hull JJ, Srihari SN. Decision combination in multiple classifier systems.
IEEE transactions on pattern analysis and machine intelligence. 1994;16(1):66-75.
101. Nanni L, Lumini A. An experimental comparison of ensemble of classifiers for
biometric data. Neurocomputing. 2006;69(13-15):1670-3.
102. Fierrez-Aguilar J, Nanni L, Lopez-Peñalba J, Ortega-Garcia J, Maltoni D, editors.
An on-line signature verification system based on fusion of local and global
information. International Conference on Audio-and Video-Based Biometric
Person Authentication; 2005: Springer.
103. Bologna G, Appel RD, editors. A comparison study on protein fold recognition.
Neural Information Processing, 2002 ICONIP'02 Proceedings of the 9th
International Conference on; 2002: IEEE.
104. Melville P, Mooney RJ. Creating diversity in ensembles using artificial data.
Information Fusion. 2005;6(1):99-111.
105. Oza NC, Tumer K. Classifier ensembles: Select real-world applications.
Information Fusion. 2008;9(1):4-20.
106. Azuaje F. Witten ih, frank e: Data mining: Practical machine learning tools and
techniques 2nd edition. BioMed Central; 2006.
107. Saeys Y, Inza I, Larrañaga P. A review of feature selection techniques in
bioinformatics. Bioinformatics. 2007;23.
108. Cañizares Carmenate Y. Predicción teórica de la inhibición de la Termolisina
como modelo antihipertensivo. Santa Clara, Cuba: UNIVERSIDAD CENTRAL
“MARTA ABREU” DE LAS VILLAS; 2012.
109. Consonni V, Mauri A, Todeschini R. DRAGON SOFTWARE: AN EASY
APPROACH TO MOLECULAR DESCRIPTOR CALCULATIONS. MATCH
Commun Math Comput Chem. 2006;56:237-48.
110. R.Todeschini, V.Consonni. Handbook of Molecular Descriptors. 2000:667.
111. Hernández Morfa M. Identificación in silico de nuevos inhibidores de la MAO
con posible acción neuroprotectora: Universidad Central “Marta Abreu” de Las
Villas. Facultad de Química Farmacia. Departamento de Farmacia; 2016.
112. Martínez Ramos E. Aspectos teóricos del Análisis de Cluster y aplicación a la
caracterización del electorado. Introducción a las técnicas de Análisis
Multivariable, Madrid, CSIC. 1984:165-208.
113. Bouckaert RR, Frank E, Hall M, Kirkby R, Reutemann P, Seewald A, et al.
WEKA Manual for Version 3-7-8, 2013. 2013.
114. Kohavi R, John GH. Wrappers for feature subset selection. Artificial intelligence.
1997;97(1-2):273-324.
115. Platt J. Fast Training of Support Vector Machines using Sequential Minimal
Optimization: In B. Scholkopf, CJC Burges and AJ Smora, editors, Advances in
Kernel Methods-Support Vector Learnig, 185-208. MIT Press; 1998.
REFERENCIAS BIBLIOGRÁFICAS
116. Patil TR, Sherekar S. Performance analysis of Naive Bayes and J48 classification
algorithm for data classification. International Journal of Computer Science and
Applications. 2013;6(2):256-61.
117. Taud H, Mas J. Multilayer Perceptron (MLP). Geomatic Approaches for
Modeling Land Change Scenarios: Springer; 2018. p. 451-5.
118. Joachims T. Making large-scale SVM learning practical. Technical report, SFB
475: Komplexitätsreduktion in Multivariaten Datenstrukturen, Universität
Dortmund, 1998.
119. Baldi P, Brunak S, Chauvin Y, Andersen C, Nielsen H. Assessing the accuracy of
prediction algorithms for classification: an overview. Bioinformatics.
2000;16:412-24.
120. Joanneum F. Cross-validation explained. Graz, Austria: Institute for Genomics
and Bioinformatics, Graz University of Technology. 2005.
121. Perez M, Boffil M, Gonzalez DM, Monteagudo EE, Mendez R, Dias LE, et al.
Efecto de la administración oral continuada de Boldoa purpurascens Cav. sobre
diferentes variables fisiológicas en ratas. Boletín Latinoamericano y del Caribe de
Plantas Medicinales y Aromáticas. 2009;8(3).
122. Castillo-Garit JA, Casañola-Martin GM, Le-Thi-Thu H, Pham-The H, Barigye SJ.
A Simple Method to Predict Blood-Brain Barrier Permeability of Drug- Like
Compounds Using Classification Trees. Med Chem. 2017;13(7):664-9.
123. Castillo-Garit JA, Casañola-Martin GM, Barigye SJ, Pham-The H, Torrens F,
Torreblanca A. Machine learning-based models to predict modes of toxic action
of phenols to Tetrahymena pyriformis. SAR QSAR Environ Res. 2017;28(9):735-
47.
124. Brito-Sánchez Y, Castillo-Garit JA, Le-Thi-Thu H, González-Madariaga Y,
Torrens F, Marrero-Ponce Y, et al. Comparative study to predict toxic modes of
action of phenols from molecular structures. SAR QSAR Environ Res.
2013;24(3):235-51.
125. Turner A, Isaac R, Coates D. The neprilysin (NEP) family of zinc
metalloendopeptidases: genomics and function. BioEssays. 2001;23:261-9.
126. Le-Thi-Thu H, Canizares-Carmenate Y, Marrero-Ponce Y, Torrens F, Castillo-
Garit JA. Prediction of Caco-2 Cell Permeability Using Bilinear Indices and
Multiple Linear Regression. Lett Drug Des Discov. 2016;13(2):161-9.
127. Castillo-Garit JA, Abad C, Casañola-Martin GM, Barigye SJ, Torrens F,
Torreblanca A. Prediction of Aquatic Toxicity of Benzene Derivatives to
Tetrahymena pyriformis According to OECD Principles. Curr Pharm Des.
2016;22(33):5085-94.
128. Castillo-Garit JA, Marrero-Ponce Y, Barigye SJ, Medina-Marrero R, Bernal MG,
Vega JMGdl, et al. In silico Antibacterial Activity Modeling Based on the
TOMOCOMD-CARDD Approach. J Braz Chem Soc. 2015;26:1218-26.
129. Castillo-Garit JA, del Toro-Cortés O, Vega MC, Rolón M, Rojas de Arias A,
Casañola-Martin GM, et al. Bond-based bilinear indices for computational
discovery of novel trypanosomicidal drug-like compounds through virtual
screening. Eur J Med Chem. 2015;96(0):238-44.
REFERENCIAS BIBLIOGRÁFICAS
130. Martínez-López Y, Caballero Y, Barigye SJ, Marrero-Ponce Y, Millán-Cabrera R,
Madera J, et al. State of the Art Review and Report of New Tool for Drug
Discovery. Curr Top Med Chem. 2017;17(26):2957-76.
131. Casanola-Martin GM, Le-Thi-Thu H, Marrero-Ponce Y, Castillo-Garit JA,
Torrens F, Perez-Gimenez F, et al. Analysis of Proteasome Inhibition Prediction
Using Atom-Based Quadratic Indices Enhanced by Machine Learning
Classification Techniques. Lett Drug Des Discovery. 2014;11(6):705-11.
ANEXOS
ANEXOS
Anexo 1: Serie de Entrenamiento empleada para la generación de los modelos
QSAR.
NOTA: Los nombres de los compuestos presentes en el anexo 1 y anexo 2 se tomaron tal cual se
encontraban en Cañizarez (108).
Silanediol salt P-Leu-NH2 4
7 8 10
11 R Thiorphan JCH27
HACBO-Gly ES92 Phosphoramidon
ANEXOS
Mercaptan (BAG) CLT BZSA
Phosphinamide Phosphinate ester
Candoxatrilat RB106 30
ANEXOS
ANEXOS
ANEXOS
ANEXOS
ANEXOS
ANEXOS
ANEXOS
ANEXOS
ANEXOS
Anexo 2: Serie de Predicción empleada para la generación de los modelos
QSAR.
ANEXOS
ANEXOS
ANEXOS