desarrollo de una metaheurística basada en aprendizaje de...
TRANSCRIPT
Escuela Politécnica Superior
Grado en Ingeniería Informática en Sistemas de Información
TRABAJO FIN DE GRADO
Desarrollo de una metaheurística basada en
aprendizaje de datos no balanceados para la
predicción de terremotos de gran magnitud
Autor:
D. Manuel Jesús Fernández Gómez
Tutor:
Dr. Francisco Martínez Álvarez
Convocatoria de Junio
Curso 2014/2015
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
I
Agradecimientos
Quiero agradecer a Francisco Martínez Álvarez la oportunidad de realizar este trabajo. Gracias a él se ha
despertado en mí un gran interés por la labor investigadora dentro de la ingeniería informática. Hasta
ahora sentía un vacío en lo que a las aspiraciones personales se refiere. Quizás este trabajo haya
conseguido lo que en cuatro años de carrera no había logrado antes: ganas e interés por la ingeniería
informática, especialmente por la minería de datos y la inteligencia artificial.
En lo personal, Paco, has estado de diez. Me has proporcionado todo el material necesario, has resuelto
todas mis dudas y siempre has estado disponible para cualquier cosa que haya necesitado. Por todo,
gracias.
También quiero agradecer a Alicia Troncoso Lora el interés que ha despertado en mí por la inteligencia
artificial. Una lástima que no haya conocido antes esta rama de la ingeniería informática.
Por último, agradecer a aquellos amigos y familiares que me han hecho más llevadera la realización de
este trabajo. Por su apoyo y su disponibilidad, gracias.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
II
Resumen
El siguiente estudio tiene como objetivo, haciendo uso del proceso de Descubrimiento de Conocimiento
en Bases de Datos (KDD), el desarrollo de una metaheurística que metodice el proceso de análisis de los
algoritmos basados en aprendizaje desbalanceado y la aplicación de dicha metaheurística a casos reales.
La disciplina en la que se va a desarrollar esta metaheurística es la predicción de seísmos de gran
magnitud. Los casos reales sobre los que se va a aplicar la metaheurística desarrollada corresponden a
datos sobre la ocurrencia de terremotos de diversas zonas de Chile y Japón.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
III
CONTENIDO
1. INTRODUCCIÓN ...................................................................................................................... 1
1.1. DESCRIPCIÓN DEL PROBLEMA ................................................................................................ 1 1.2. MOTIVACIÓN Y OBJETIVOS ..................................................................................................... 2
2. ESTADO DEL ARTE ................................................................................................................ 3
2.1. PREDICCIÓN DE SEÍSMOS ....................................................................................................... 3 2.2. APRENDIZAJE DESBALANCEADO ............................................................................................. 5 2.3. PREDICCIÓN DE SEÍSMOS A PARTIR DEL APRENDIZAJE DESBALANCEADO ................................... 16
3. CONCEPTOS TEÓRICOS DEL DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE
DATOS (KDD) ............................................................................................................................ 17
3.1. INTRODUCCIÓN ................................................................................................................... 17 3.2. ADQUISICIÓN DE DATOS ....................................................................................................... 18 3.3. PREPROCESAMIENTO Y TRANSFORMACIÓN ............................................................................ 19 3.4. MINERÍA DE DATOS ............................................................................................................. 20 3.5. EVALUACIÓN ...................................................................................................................... 21 3.6. INTERPRETACIÓN ................................................................................................................ 22
4. DESARROLLO DE UNA METAHEURÍSTICA PARA LA PREDICCIÓN DE SEÍSMOS DE
GRAN MAGNITUD MEDIANTE ALGORITMOS BASADOS EN APRENDIZAJE
DESBALANCEADO ................................................................................................................... 23
4.1. ADQUISICIÓN DE LOS DATOS ................................................................................................ 23 4.2. PREPROCESAMIENTO Y TRANSFORMACIÓN DE LOS DATOS ....................................................... 24 4.3. MINERÍA DE DATOS ............................................................................................................. 30 4.4. EVALUACIÓN ...................................................................................................................... 35
5. RESULTADOS ....................................................................................................................... 47
5.1. MEJORES CLASIFICADORES INDIVIDUALES ............................................................................. 49 5.2. MEJORES CLASIFICADORES GLOBALES ................................................................................. 87
6. CONCLUSIONES ................................................................................................................. 129
7. REFERENCIAS .................................................................................................................... 131
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
1
1. Introducción
1.1. Descripción del problema
El hombre es el único animal racional que existe en la naturaleza. Y como tal, hay un aspecto por el cual
siempre se ha sentido atraído, ya sea por razones de supervivencia, o por cualquier otro motivo: la
búsqueda de conocimiento. Tal es la obsesión del hombre por el conocimiento que, ante la ausencia de
éste, muchas veces ha optado por la generación de un conocimiento artificial frente al miedo y la
incertidumbre que provoca el admitir el desconocimiento sobre algo. De esta manera surgieron los mitos y
las leyendas. El hombre encontraba fenómenos que no podía explicar o no alcanzaba a comprender, y
uno de estos fenómenos eran los terremotos.
Un terremoto se define como un movimiento brusco de la Tierra causado por la brusca liberación de
energía acumulada durante un largo tiempo. En general se asocia el término terremoto con los
movimientos sísmicos de dimensión considerable, aunque rigurosamente su etimología significa
"movimiento de la Tierra". Pero este conocimiento no ha sido tan obvio a lo largo de la historia.
El estudio de los seísmos es muy antiguo. Se han encontrado registros sobre éstos con una antigüedad
de más 3000 años en China y de más 1600 en Japón y Europa oriental. Se han encontrado registros
incluso en códices mayas y aztecas en América.
Pero que se registraran no quiere decir que se comprendieran. Así, han sido muchas las culturas que lo
atribuían a intervenciones divinas asociadas al castigo o la ira de estos seres superiores. En Japón, la
ocurrencia de terremotos se atribuía a un gran pez gato llamado Namazu, que yacía bajo tierra y era
controlado por un dios. Cuando este se descuidaba, el pez se movía y, con fuertes sacudidas de su cola,
hacia que la tierra temblara. En la mitología griega, sin embargo, se atribuía a Poseidón, el dios del mar,
quien hacia tambalear a Atlas, el cual sostenía el mundo sobre sus hombros, lo que provocaba que los
terremotos ocurriesen.
Hoy en día, gracias a los grandes avances científicos, se ha podido explicar detalladamente el origen de
estos fenómenos, registrando todo tipo de información acerca de ellos. Así, se plantea la posibilidad de
usar esta gran cantidad de información para entenderlos, y más importante aún, para intentar predecirlos.
Resulta demasiado presuntuoso hablar de predicción de terremotos con el nivel actual de conocimiento
sobre el tema. Es más realista referirse al riesgo de ocurrencia de terremotos, ya que no existe una
certeza mayor que decir que en cierta zona hay una probabilidad estadística de que se registre un evento
sísmico de magnitud variable desconocida. Variaciones en el comportamiento del clima o conductas
anormales en algunos animales no tienen solidez científica como para que se considere una predicción.
Los terremotos son fenómenos que provocan grandes pérdidas tanto humanas como económicas,
pudiendo llegar a destruir ciudades completas en pocos segundos. No en vano, el terremoto de mayor
magnitud registrado ocurrió en Chile (1906) y alcanzo una magnitud de 9,5 en la escala sismológica de
magnitud de momento, que es la escala que se usa cuando se sobrepasa la magnitud 7 en la escala
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
2
Richter. Sus efectos fueron 962 muertos y 1410 desparecidos, además de daños en algunas de las
ciudades cercanas al epicentro y el 65% de las viviendas.
Si alguien avisara de que con certeza se producirá un terremoto en las siguientes horas, se desataría el
pánico en la población. Es por ello que se debe evitar a toda costa el anuncio de un terremoto si no se
sabe que éste va a ocurrir con total seguridad. El objetivo, entonces, de asignar un grado de riesgo no es
otro que atenuar los efectos de un terremoto. Si se vaticina la ocurrencia de un seísmo, y se calcula
cuáles serían sus consecuencias, se podrían tomar las precauciones adecuadas para mitigar los daños
que éste pueda ocasionar.
1.2. Motivación y objetivos
A medida que la magnitud de un terremoto aumenta, su capacidad de destrucción lo hace también. La
necesidad de predecir un seísmo cobra una especial relevancia cuando se habla de grandes magnitudes.
El problema que se presenta es que la rareza de un terremoto está estrechamente relacionada con la
magnitud de éste. Alrededor de un millón de terremotos de magnitud 2 se producen al año en todo el
planeta. Sin embargo, sólo existen siete terremotos registrados con una magnitud igual o mayor a 9. La
poca frecuencia con las que los terremotos de gran magnitud ocurren es una dificultad añadida para el
estudio de su predicción.
Cuando se habla de sucesos de gran interés que suceden con muy poca frecuencia, se está hablando de
desbalanceo. Uno de los grandes retos que la ciencia está afrontando en la historia moderna es el
manejo del desbalanceo. El desbalanceo se encuentra en numerosos ámbitos de la vida humana:
enfermedades raras, detección de fraudes, filtrado de información, detección de errores, etc. Entre ellos
se encuentra la predicción de terremotos de gran magnitud, objeto de este estudio. Mediante una serie de
algoritmos especializados en el tratamiento del problema del desbalanceo, este estudio se plantea como
objetivo lo siguiente:
1. Evaluación de los algoritmos basados en aprendizaje desbalanceado en la disciplina de la
detección de patrones precursores de terremotos de gran magnitud.
2. Desarrollo de una metaheurística, haciendo uso del proceso de Descubrimiento de Conocimiento
en Bases de Datos (KDD), para la clasificación de datos desbalanceados que metodice la
evaluación de lo anterior.
3. Aplicación de la metaheurística desarrollada a conjuntos de datos reales pertenecientes a varias
zonas de Chile y Japón.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
3
2. Estado del arte
2.1. Predicción de seísmos
El problema de la predicción de terremotos ha fascinado al ser humano desde su existencia temprana.
Aunque este problema parece ser irresoluble, trabajos recientes han propuesto nuevos paradigmas de
predicción que se deben tener en cuenta [1]. En particular, el uso de técnicas de minería de datos ha
surgido en este campo como una herramienta de gran alcance con innegables beneficios [2, 3, 4, 5].
La posibilidad de la predicción de terremotos ha sido cuestionada y respondida de diversas maneras,
desde la negación al optimismo, incluyendo la aportación de pruebas matemáticas y apoyo empírico para
cada hipótesis [6, 7, 8, 9, 10].
Para asegurarse de que cualquier declaración que proporciona una predicción de terremotos es rigurosa,
la siguiente información debe ser proporcionada de forma simultánea, de acuerdo con [4]:
1. Una localización o zona específica.
2. Un lapso de tiempo específico.
3. Un rango de magnitud específica.
4. Una probabilidad específica de ocurrencia.
Además, el Servicio Geológico de Estados Unidos (USGS) fundó el Co-laboratorio para el Estudio de la
Predictibilidad de los Terremotos (CSEP) en 2007 [11]. El objetivo de esta organización es el desarrollo
de un laboratorio virtual y distribuido que pueda soportar una amplia gama de experimentos de predicción
científica en múltiples laboratorios naturales regionales o globales. Este enfoque sobre la ciencia de los
sistemas sísmicos busca proporcionar respuestas a las siguientes preguntas:
1. ¿Cómo deben ser llevados a cabo y evaluados los experimentos de predicción científica?
2. ¿Cuál es la previsibilidad intrínseca del proceso de ruptura del terremoto?
En este contexto, se han propuesto varios métodos para predecir cualquiera de las características que se
detallan en [12]. Según el método Liberación del Momento de Aceleración (AMR), la tasa de liberación del
momento sísmico de magnitud se incrementa rápidamente antes de que ocurra un gran evento [13, 14].
También se han analizado las variaciones del valor . Para que se produzca un terremoto de gran
magnitud, es necesaria una acumulación de energía potencial elástica previa. Este hecho provoca un
déficit de terremotos pequeños y moderados. Esto conduce a una alteración anormal del valor de la ley
de Gutenberg-Richter [15, 16].
Los algoritmos M8 estudian la ocurrencia de terremotos de magnitud mayor que 8. Se basan en la
evolución de varias series temporales compuestas por los terremotos de magnitud moderada. El objetivo
es decidir si existe un incremento de probabilidad en el tiempo (TIP) para un evento de mayor magnitud
[17, 18].
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
4
Región-Tiempo-Longitud (RTL) es un algoritmo que analiza secuencias temporales de los terremotos.
Sólo toma en cuenta la ubicación, el tiempo y magnitud, y detecta anomalías en la sismicidad antes de
grandes eventos [19, 20].
Se cree que, para que se produzca un terremoto de gran magnitud, es necesario que se libere más
energía durante el período de carga que durante el de descarga. Basándose en esta hipótesis, el Ratio de
Respuesta de Carga-Descarga (LURR) utiliza la relación de energía liberada como un precursor potencial
para hacer predicciones [21, 22].
Otro método muy utilizado es el “Cada Terremoto es un Precursor de Acuerdo con la Escala” (EEPAS).
Este método se basa en la observación de un incremento de los pequeños terremotos, ya que esto se
considera un fenómeno precursor de terremotos más grandes [23, 24].
El método “Secuencia de Réplicas Sísmicas de Tipo Epidémico” (ETAS) considera que cada terremoto
es, al mismo tiempo, una potencial réplica sísmica, un seísmo principal o un seísmo precursor, con su
propia secuencia de réplicas. De esta manera, se pueden encontrar configuraciones anómalas de
sismicidad temporal y espacial [25,26].
El Modelo de Sismicidad Suavizada Simple, o simplemente Triple S, proporciona previsiones de tipo
espacio-tasa-magnitud basadas en una agrupación espacial de la sismicidad. Para hacer esto, se aplica
una gaussiana suavizada al catálogo sísmico que estima la cantidad de terremotos previstos en zonas
particulares para determinados períodos de tiempo [27].
En la actualidad, se está prestando una mayor atención a los algoritmos basados en el aprendizaje
automático. Estos algoritmos incluyen una amplia variedad de soluciones que van desde aprendizaje no
supervisado [15, 28] al supervisado [4, 29]. En el aprendizaje supervisado, cada terremoto se modela por
medio de ciertos atributos que [30] Panakkat y Adeli definen como Indicadores de Sismicidad. Desde su
aplicación inicial, varios trabajos han propuesto nuevos indicadores. Tal es el caso de [9] o [31], donde los
autores también añadieron las leyes de Bath y Omori-Utsu, así como las variaciones de valor b, para el
conjunto de indicadores de sismicidad propuestos. El modelo se evaluó mediante redes neuronales
artificiales, un método también se utiliza en [2, 32, 5].
Sin embargo, algunos de los indicadores de sismicidad propuestos presentan un comportamiento
paramétrico, es decir, existe la necesidad de realizar una configuración inicial de modo que puedan
trabajar correctamente con clasificadores supervisados. Por otra parte, los estudios originales no
proponen explícitamente una afinación específica para ellos.
La correlación de estos indicadores con la clase binaria (tanto si un va a ocurrir terremoto como si no) fue
analizada en [29], mostrando que algunos de ellos eran simplemente inútiles. En [33] se determina la
influencia de un ajuste adecuado o incorrecto para todos los indicadores de sismicidad existentes
reportados en la literatura. En él se analiza el efecto del uso de diferentes parametrizaciones para las
entradas en los algoritmos de aprendizaje supervisado por medio de una nueva metodología. Se
realizaron cinco análisis diferentes, principalmente relacionados con la forma de capacitación y de
prueba, para el cálculo del valor b, y para el ajuste de la mayoría de los indicadores recogidos. Se evaluó
también cómo de sensible puede ser la salida cuando no se tiene debidamente en cuenta alguno de estos
factores. Las conclusiones que se extrajeron son que una selección adecuada de la longitud de los
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
5
conjuntos y una parametrización cuidadosa de ciertos indicadores desemboca en resultados
significativamente mejores, en términos de exactitud de la predicción.
2.2. Aprendizaje desbalanceado
El aprendizaje de clasificadores a partir de conjuntos de datos desbalanceados o sesgados es un tema
importante que surge, en la práctica, muy a menudo en los problemas de clasificación. En este tipo de
problemas, la mayoría los casos pertenecen a una clase determinada, mientras que muy pocos están
etiquetados en otra clase que, por lo general, suele ser la clase más importante. Es obvio que los
clasificadores tradicionales, los cuales buscan un rendimiento preciso sobre una amplia gama de casos,
no son adecuados para hacer frente a la labor que conlleva el aprendizaje desbalanceado, ya que éstos
tienden a clasificar todos los datos en la clase mayoritaria, que normalmente es la clase menos relevante.
El problema del desbalanceo va teniendo, con el paso de los años, cada vez más énfasis. Existen
muchos conjuntos de datos desbalanceados en muchos ámbitos de la vida real, como pueden ser la
detección de clientes de telecomunicaciones de poca confianza, la detección de derrames de petróleo en
las imágenes de radar por satélite, el aprendizaje sobre la pronunciación de palabras, la clasificación de
textos, la detección de llamadas telefónicas fraudulentas, la recuperación de información y tareas de
filtrado, etc. [1, 22, 5].
Un gran número de soluciones al problema del desbalanceo de clases fueron propuestas anteriormente,
tanto en niveles de datos como algorítmicos. A nivel de datos [13], estas soluciones incluyen muchas
formas diferentes de re-sampling, tales como over-sampling aleatorio con reemplazo, under-sampling
aleatorio, over-sampling dirigido (en el que no se crean nuevos ejemplos, sino que la selección de las
muestras a reemplazar es informada en vez de aleatoria), under-sampling dirigido (donde, de nuevo, la
elección de ejemplos a eliminar es informada), over-sampling con la generación informada de nuevos
ejemplos, y combinaciones de las técnicas anteriores.
A nivel algorítmico [20], las soluciones incluyen el ajuste de los costes de las diversas clases a fin de
contrarrestar el desbalanceo. Esto se consigue mediante el ajuste de la estimación probabilística de las
hojas del árbol (cuando se trabaja con los árboles de decisión), el ajuste del umbral de decisión, y el
aprendizaje basado en el reconocimiento (esto es, en el aprendizaje de una clase) en lugar del
aprendizaje basado en la discriminación (dos clases). La mezcla de expertos [26] es un enfoque que
también ha sido usado para tratar los problemas de desbalanceo de clase. En este método se combinan
los resultados de muchos clasificadores; cada uno por lo general construido después de aplicar diferentes
tasas de over-sampling o under-sampling a los datos.
La naturaleza propensa a errores de los conjuntos disjuntos pequeños es una consecuencia directo de la
rareza. Por lo tanto, la comprensión de por qué los conjuntos disjuntos pequeños son tan propensos a
errores ayudará a explicar por qué la rareza es un problema. Una explicación es que algunos conjuntos
disjuntos pequeños pueden no representar casos raros o excepcionales, sino otras cosas tales como
datos con ruido. Por lo tanto, sólo los conjuntos disjuntos pequeños que sean "significativos" deben
mantenerse. La mayoría de los sistemas de clasificación por inducción tienen algunos medios para
prevenir el overfitting y eliminar los conjuntos disjuntos que no parezcan relevantes. El sesgo inductivo
también juega un papel en lo que respecta a las clases raras. Muchos sistemas de inducción tienden a
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
6
preferir las clases más comunes en la presencia de incertidumbre (es decir, van a estar sesgados a favor
de las clases mayoritarias).
Gary Weiss [10] presenta una visión general en el ámbito del aprendizaje a partir de los datos
desbalanceados. Se presta especial atención a las diferencias y similitudes entre los problemas de las
clases raras y los de los casos raros. A continuación, se analizan algunos de los problemas comunes y
sus soluciones en los problemas de minería de datos desbalanceada.
2.2.1. Métodos a nivel de datos para el manejo del desbalanceo
Los métodos de re-sampling, también conocidos como métodos de preprocesado, pueden ser divididos
en tres grandes grupos: los que eliminan instancias de la clase mayoritaria (under-sampling), los que
generan nuevas instancias de la clase minoritaria (over-sampling) y la hibridación de ambas técnicas. A
continuación son descritos algunos de los métodos más conocidos.
2.2.1.1. Under-sampling
El under-sampling aleatorio [34] es un método no-heurístico que busca equilibrar la distribución de las
clases a través de la eliminación aleatoria de ejemplos de la clase mayoritaria. El principal inconveniente
es que el under-sampling aleatorio es un método que puede descartar datos potencialmente útiles que
podrían ser importantes para el proceso de inducción. Otro problema que existe es el que se expone a
continuación: el propósito del aprendizaje automático es, para el clasificador, estimar la distribución de
probabilidad de la población objetivo. Dado que la distribución es desconocida, se trata de estimar la
distribución de la población usando la distribución de una muestra. Las estadísticas dicen que, siempre y
cuando la muestra sea extraída al azar, la distribución de la muestra se puede utilizar para estimar la
distribución de la población de donde se haya extraído. Por lo tanto, mediante el aprendizaje de la
distribución de la muestra se puede aprender a aproximar la distribución objetivo. El problema surge una
vez que se realiza el under-sampling de la clase mayoritaria, ya que esto hace que la muestra ya no
puede ser considerada aleatoria y, por tanto, no se puede estimar la distribución de la población usando
la distribución de una muestra a la que se le haya aplicado este método de rebalanceo.
Dados dos ejemplos y pertenecientes a diferentes clases, y siendo la distancia entre y
; un par se denomina un enlace Tomek si no hay un ejemplo , tal que
o . Si dos ejemplos forman un enlace Tomek, entonces uno de estos
ejemplos es ruido o ambos se encuentran en el límite de la frontera de decisión. Los enlaces Tomek se
pueden utilizar como un método de under-sampling o como un método de limpieza de datos. Como
método de under-sampling, sólo los ejemplos que pertenecen a la clase de mayoritaria son eliminados, y
como método de limpieza de datos, se eliminan ejemplos de ambas clases. Kubat y Matwin [9] extraen al
azar un ejemplo de la clase mayoritaria y todos los ejemplos de la clase minoritaria, y los colocan en el
subconjunto . Después, usan un en los ejemplos de para clasificar los ejemplos del
conjunto . Cada ejemplo de mal clasificado se traslada a . La idea detrás de esta implementación
de un subconjunto consistente es eliminar los ejemplos de la clase mayoritaria que están lejos de la
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
7
frontera de decisión, ya que este tipo de ejemplos pueden ser considerados menos relevantes para el
aprendizaje.
Dentro de los métodos más clásicos para realizar under-sampling se encuentra el RU (Random Under-
Sampling), que selecciona de manera aleatoria instancias de la clase mayoritaria para ser eliminarlas sin
reemplazamiento, hasta que ambas clases queden balanceadas. Otro método clásico es el BU (Bootstrap
Under- Sampling) que funciona de manera muy parecida al RU pero con reemplazamiento.
El NCR (Neighborhood Cleaning Rule), propuesto en [35], hace que, para cada elemento del conjunto de
entrenamiento, se busquen sus 3 vecinos más cercanos: si el elemento seleccionado es de la clase
mayoritaria y los 3 vecinos son de la minoritaria, entonces se elimina el elemento seleccionado; si dicho
elemento pertenece, en cambio, a la clase minoritaria, entonces se eliminan los vecinos que pertenezcan
a la mayoritaria.
2.2.1.2. Over-sampling
El over-sampling aleatorio es un método no-heurístico que busca equilibrar la distribución de las clases a
través de la replicación aleatoria de ejemplos de la clase minoritaria. Varios autores [13,9] están de
acuerdo en que el over-sampling aleatorio puede aumentar la probabilidad de que ocurra overfitting, ya
que hace copias exactas de los ejemplos de la clase minoritaria. De esta manera, un clasificador
simbólico, por ejemplo, podría construir reglas que son aparentemente precisas, pero que en realidad
cubrirán un ejemplo replicado. Además, el over-sampling puede introducir una labor computacional
adicional si el conjunto de datos es demasiado grande y desbalanceado.
Entre las estrategias más conocidas para la generación de nuevas instancias con el fin de balancear
conjuntos de entrenamiento se encuentra SMOTE (Synthetic Minority Over- Sampling TEchnique),
propuesto en 2002 por Chawla y colaboradores [6]. Este algoritmo, para cada ejemplo de la clase
minoritaria, introduce ejemplos sintéticos en un punto intermedio entre ejemplo seleccionado y sus 5
vecinos más cercanos. De esta manera se evita el overfitting. Sin embargo, esta estrategia presenta el
problema de que puede introducir ejemplos de la clase minoritaria en el área de la clase mayoritaria, es
decir, puede crear malos ejemplos que posteriormente pudieran confundir a los clasificadores.
En 2005 son realizadas dos nuevas propuestas de SMOTE [36]: borderline-SMOTE1 y borderline-
SMOTE2. Ambos generan instancias en la frontera entre las clases, es decir, son etiquetados como
“peligrosos” los elementos de la clase minoritaria situados muy cerca de la clase mayoritaria y, a partir de
ellos y sus vecinos, se comienzan a generar las nuevas instancias, lográndose muy buenos resultados.
En el 2006 Cohen y colaboradores [37] proponen el AHC (Agglomerative Hierarchical Clustering Based),
en el cual, a partir de la creación de grupos enlazados usando un algoritmo jerárquico aglomerativo de
agrupamiento, se seleccionan los centroides de cada grupo como un nuevo elemento sintético y
finalmente se insertan en el conjunto original.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
8
2.2.1.3. Híbridos
A pesar de que tanto el over-sampling como el under-sampling logran buenos resultados por separado,
muchos investigadores han obtenido magníficos resultados hibridando ambos métodos. Uno de ellos es
el SMOTE-Bootstrap Hybrid, el cual inicialmente genera nuevas instancias haciendo uso de SMOTE y
luego reduce la clase mayoritaria a través de Bootstrap, hasta lograr que las clases queden con similar
número de instancias, [38]. Otro método híbrido es el AHC-KM Hybrid, en el que primeramente se
generan nuevas instancias de la clase minoritaria con el AHC-based y luego se eliminan instancias de la
mayoritaria con el KM- based [37]. También está el SMOTE- Tomek Hybrid, que inicialmente realiza el
over-sampling con la clase minoritaria y luego aplica el método del enlace Tomek a ambas clases [39].
2.2.1.4. Selección de atributos para los conjuntos de datos desbalanceados
Zheng et al [38] sugiere que las medidas existentes que se utilizan para la selección de atributos no son
muy apropiadas para los conjuntos de datos desbalanceados. Proponen un marco de selección de
atributos que selecciona los atributos para la clase positiva y negativa por separado y luego
explícitamente los combina. Los autores muestran formas sencillas de transformar las medidas existentes
de modo que consideren por separado los atributos para la clase mayoritaria y minoritaria.
2.2.2. Métodos a nivel de algoritmo para el manejo del desbalanceo
Drummond y Holte [39] informan que, cuando se utiliza la configuración predeterminada del algoritmo
C4.5, el over-sampling es sorprendentemente ineficaz, a menudo produciendo poco o ningún cambio en
el rendimiento en respuesta a las modificaciones de los costes de clasificación errónea y distribución de
las clases. Además, señalan que el over-sampling poda menos y, por lo tanto, generaliza menos que el
under-sampling, y que una modificación de los parámetros del C4.5 para aumentar la influencia de poda y
otros factores para evitar el overfitting puede restablecer el rendimiento del over-sampling.
Para desviar internamente el procedimiento de discriminación, se propone una función de distancia
ponderada en [2] para ser utilizada en la fase de clasificación de kNN. La idea básica de esta distancia
ponderada es compensar el desbalanceo en la muestra de entrenamiento sin llegar a alterar la
distribución de las clases. Por lo tanto, los pesos son asignados, a diferencia de la norma ponderada
habitual k-NN, a las distintas clases y no a los prototipos individuales. De tal manera, ya que el factor de
ponderación es mayor para la clase mayoritaria que para la minoritaria, la distancia a los prototipos de la
clase minoritaria se vuelve mucho menor que la distancia a los prototipos de la clase mayoritaria. Esto
produce una tendencia de los nuevos patrones a encontrar su vecino más cercano entre los prototipos de
la clase minoritaria.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
9
2.2.2.1. Método Umbral
Algunos clasificadores, como el clasificador Naïve Bayes o algunas Redes Neuronales, dan una
puntuación que representa el grado en que un ejemplo es un miembro de una clase. Tal clasificación se
puede utilizar para producir varios clasificadores, variando el umbral de un ejemplo perteneciente a una
clase [10].
2.2.2.2. Aprendizaje de una clase
Un aspecto interesante del aprendizaje de una clase (basado en el reconocimiento) es que, bajo ciertas
condiciones, como la multimodalidad del espacio de dominio, el enfoque de una clase a la solución del
problema de clasificación puede ser en realidad superior al enfoque de dos clases (basado en la
discriminación), tales como árboles de decisión o Redes Neuronales [31]. Ripper [6] es un sistema de
inducción de reglas que utiliza un enfoque “divide y vencerás” para construir iterativamente reglas para
cubrir ejemplos de entrenamiento previamente no cubiertos. Cada regla se desarrolla mediante la adición
de condiciones hasta que ningún ejemplo mayoritario esté cubierto. Normalmente se generan reglas para
cada clase, desde más rara a la más común. Dada esta arquitectura, es bastante sencillo aprender reglas
sólo para la clase minoritaria (una capacidad que Ripper ofrece).
En particular, Raskutti y Kowalczyk [1] muestran que el aprendizaje de una clase es particularmente útil
cuando se utiliza en conjuntos de datos extremadamente desbalanceados compuestos de un espacio de
atributos con altas dimensiones de ruido. Ellos argumentan que el enfoque de una sola clase se relaciona
con los métodos agresivos de selección de atributos, pero éste es más práctico, ya que la selección de
atributos a menudo puede ser demasiado costosa de aplicar.
2.2.2.3. Aprendizaje sensible al coste
Como ya se ha mencionado, cambiar la distribución de las clases no es la única forma de mejorar el
rendimiento del clasificador en el aprendizaje a partir de conjuntos de datos desbalanceados. Un enfoque
diferente para la incorporación de los costos en la toma de decisiones es definir costes de clasificación
errónea fijos y desiguales entre las clases [19]. Dicho modelo de costes toma la forma de una matriz de
costes, donde el coste de clasificar una muestra como perteneciente a la clase cuando realmente
pertenece a la clase corresponde a la entrada de la matriz. Esta matriz se expresa generalmente en
términos de coste promedio de los errores de clasificación para el problema. Los elementos de la
diagonal se establecen generalmente a cero, lo que significa una clasificación correcta, la cual no tiene
ningún coste. Definimos riesgo condicional para tomar una decisión en cuanto como:
La ecuación indica que el riesgo de elegir la clase se define por los costes de clasificación errónea fijos
y la incertidumbre de nuestro conocimiento acerca de la verdadera clase de expresadas por las
probabilidades posteriores. El objetivo en la clasificación coste sensible es reducir al mínimo el coste de
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
10
errores de clasificación, lo cual se consigue mediante la elección de la clase con el mínimo riesgo
condicional.
2.2.3. Combinación de métodos
El enfoque de la mezcla de expertos [24] se ha utilizado para combinar los resultados de muchos
clasificadores, cada uno inducido después de realizar un re-sampling sobre los datos con diferentes tasas
de over-sampling o under-sampling. Este enfoque reconoce el hecho de que todavía no está claro qué
método de re-sampling se desempeña mejor y qué tasa de re-sampling debe utilizarse (y la elección
correcta de ello es probablemente específica de cada dominio). Los resultados indican que el enfoque de
la mezcla de expertos se comporta bien, en general, superando a otro método (AdaBoost) con respecto a
la precisión y la sensibilidad en problemas de clasificación de texto, y haciéndolo especialmente bien con
los ejemplos de la clase minoritaria. En [7] se presentan experimentos más detallados.
Chan y Stolfo [12] ejecutan una serie de experimentos preliminares para identificar una buena distribución
de clases y luego muestrear de tal manera que se generen múltiples conjuntos de entrenamiento con la
distribución de clase deseada. Cada conjunto de entrenamiento normalmente incluye todos los ejemplos
de la clase minoritaria y un subconjunto de los ejemplos de la clase mayoritaria; sin embargo, se
garantiza que cada ejemplo de la clase mayoritaria se encuentre en al menos un conjunto de
entrenamiento, por lo que los datos no son desperdiciados. El algoritmo de aprendizaje se aplica a cada
conjunto de entrenamiento y el meta-aprendizaje se usa para formar un aprendizaje compuesto a partir
de los clasificadores resultantes. Este enfoque se puede utilizar con cualquier método de aprendizaje y
Chan y Stolfo lo evalúan utilizando cuatro algoritmos de aprendizaje diferentes. El mismo enfoque básico
para particionar los datos y el aprendizaje de múltiples clasificadores se ha usado con máquinas de
soporte vectorial.
La SVM resultante del ensemble [5] ha demostrado superar tanto al over-sampling como al under-
sampling. Si bien los enfoques de ensemble son eficaces para tratar con clases minoritarias, éstos
asumen que se conoce una buena distribución de clase. Dicha distribución se puede estimar realizando
algunas ejecuciones preliminares, pero esto aumenta el tiempo necesario para el aprendizaje.
Otro método que utiliza este enfoque general emplea un algoritmo de progressive-sampling para construir
conjuntos de entrenamiento cada vez más grandes, donde la proporción de ejemplos positivos y
negativos añadidos en cada iteración se elige basándose en el rendimiento de las diversas distribuciones
de clase evaluadas en la iteración anterior [21].
MetaCost [19] es otro método para hacer que un clasificador sea sensible al coste. El procedimiento
comienza a aprender un modelo sensible al coste interno mediante la aplicación de un procedimiento
sensible al coste, el cual emplea un algoritmo de aprendizaje de base. Después, el procedimiento
MetaCost estima las probabilidades de clase mediante bagging. Posteriormente, se realiza un re-
etiquetado de las instancias de entrenamiento con el menor coste de clase esperado y, finalmente, re-
aprende un nuevo modelo utilizando el conjunto de entrenamiento modificado.
Los algoritmos de boosting son algoritmos iterativos que, en cada iteración, colocan diferentes pesos en
la distribución de entrenamiento. Después de cada iteración, el boosting aumenta los pesos asociados a
los ejemplos clasificados incorrectamente y disminuye los asociados a los clasificados correctamente.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
11
Esto obliga al aprendizaje a centrarse más en los ejemplos clasificados de forma incorrecta en la
siguiente iteración. Debido a que las clases y los casos minoritarios son más propensos a errores que las
clases y los casos comunes, es razonable creer que el boosting puede mejorar el rendimiento de la
clasificación ya que, en general, se aumentará el peso de los ejemplos asociados a las clases y los casos
minoritarios. Hay que tener en cuenta que, debido a que el boosting efectivamente altera la distribución
de los datos de entrenamiento, se podría considerar que es un tipo de técnica de muestreo avanzada.
Se ha hecho que la regla de actualización de los pesos de AdaBoost sea sensible al coste, por lo que, a
los ejemplos que pertenecen a las clase minoritaria y fueron clasificados erróneamente, se les asignan
pesos más altos que a los que pertenecen a la clase común. Se ha demostrado empíricamente que el
sistema resultante, Adacost [14], produce costes de clasificación errónea acumulativos más bajos que
AdaBoost y, por lo tanto, al igual que otros métodos de aprendizaje sensibles al coste, se puede utilizar
para tratar el problema con las clases minoritarias.
Rare-Boost [26] escala los falsos positivos en proporción a lo bien que se distinguen de los verdaderos
positivos y escala los falsos negativo en proporción a lo bien que se distinguen de los verdaderos
negativos. Otro algoritmo que hace uso del boosting para abordar los problemas con clases raras es
SMOTEBoost [23]. Este algoritmo reconoce que el boosting puede sufrir de los mismos problemas que el
over-sampling (por ejemplo, overfitting), ya que tenderá más a aumentar de peso los ejemplos que
pertenecen a la clase rara que los pertenecientes a la clase común (duplicando algunos de los ejemplos
que pertenecen a la clase rara). En lugar de cambiar la distribución de los datos de entrenamiento
mediante la actualización de los pesos asociados a cada ejemplo, SMOTEBoost altera la distribución
mediante la adición de nuevos ejemplos de la clase minoritaria utilizando el algoritmo SMOTE.
Kotsiantis y Pintelas [34] utilizaron tres agentes (el primer aprendizaje, utilizando Naïve Bayes, el
segundo, C4.5, y el tercero, 5-NN) con una versión filtrada de los datos de entrenamiento y combinando
sus predicciones de acuerdo con un esquema de votación. Esta técnica intenta conseguir la diversidad en
los errores de los modelos aprendidos mediante el uso de diferentes algoritmos de aprendizaje. La
intuición es que los modelos generados utilizando diferentes sesgos de aprendizaje son más propensos a
cometer errores de diferentes maneras. Debido a que en los pequeños conjuntos de datos el desbalanceo
de clases afecta más al proceso de inducción, también se hizo uso de la selección de atributos, lo que
hace el problema menos difícil.
Kaizhu Huang et al. [8] presentó Biased Minimax Probability Machine (BMPM) para resolver el problema
del desbalanceo. Teniendo en cuenta las matrices fiables de la media y la covarianza de las clases
mayoritarias y minoritarias, BMPM puede derivar el hiperplano de decisión mediante el ajuste del límite
inferior de la precisión real del conjunto de test.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
12
2.2.4. Métricas de evaluación
En el aprendizaje supervisado, las métricas que se utilizan comúnmente para evaluar el rendimiento de
generalización de los modelos inducidos, son el error de clasificación y la exactitud predictiva. En base a
la matriz de confusión, estas medidas se definen de la siguiente manera:
Clase Real
Positivo Negativo
Clase Predicha Positivo Verdadero Positivo (TP) Falso Positivo (FP)
Negativo Falso Negativo (FN) Verdadero Negativo (TN)
Sin embargo, estas métricas no son apropiadas cuando, a priori, las probabilidades de las clases son muy
diferentes, ya que no consideran los costes de las clasificaciones incorrectas y son muy sensibles al
sesgo entre las clases [40,41]. La clase minoritaria tiene mucha menor precisión y sensibilidad que la
clase mayoritaria. Muchos profesionales han observado que, para las distribuciones de clase muy
sesgadas, la sensibilidad de la clase minoritaria incluso suele llegar a ser 0 (es decir, no hay reglas de
clasificación generadas para la clase minoritaria). La exactitud pone más peso en las clases comunes que
en las clases raras, lo que hace difícil que un clasificador funcione bien en las clases raras.
Debido a que estas medidas dependen de la distribución de los datos, en los problemas de aprendizaje
desbalanceado se adoptan otras métricas de evaluación que permitan medir el rendimiento sobre cada
una de las clases de manera independiente. Algunas de éstas son la precisión y la sensibilidad (o recall),
las cuales, junto con sus equivalentes negativos, se definen a partir de la matriz de confusión de la
siguiente manera:
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
13
La precisión (o Valor Predictivo Positivo) es una medida de exactitud que determina, de los ejemplos
clasificados como positivos, cuántos son clasificados correctamente. La sensibilidad es una medida de la
completitud o exactitud positiva, que indica cuántos ejemplos de esta clase fueron clasificados
correctamente. A partir de estas dos métricas se definen otras medidas de evaluación, como el valor F:
El valor F es alto cuando tanto sensibilidad como precisión son altas, y se puede ajustar cambiando el
valor de β, donde β corresponde a la importancia relativa de la precisión frente a la sensibilidad y por lo
general se establece en 1.
Otra medida que se utiliza en escenarios no balanceados es la media geométrica (g-media), la cual
evalúa el rendimiento en términos de la sensibilidad y la especificidad (exactitud negativa) de la siguiente
forma:
En general, se utilizan cuatro criterios para evaluar el desempeño de los clasificadores en el aprendizaje a
partir de datos desbalanceados. Se detallan a continuación:
Criterio del Coste Mínimo (MC) [42]: minimiza el coste, el cual es medido por:
Donde es el coste de un falso positivo y es el coste de un falso negativo. Sin
embargo, el coste de los errores de clasificación es generalmente desconocido en los casos
reales, lo que restringe el uso de esta medida.
Criterio de la Media Geométrica Máxima (MGM): maximiza la media geométrica de la exactitud
[9], pero contiene una forma no lineal, por lo que dicho criterio no es fácil de ser optimizado
automáticamente.
Criterio de la Suma Máxima (MS): maximiza la suma de la exactitud de la clase mayoritaria y de
la minoritaria (o maximiza la diferencia entre la probabilidad de TP y la de FP) [17]. A diferencia
del criterio de la Media Geométrica Máxima, el criterio de la Suma Máxima contiene una forma
lineal.
Criterio del Análisis de las Características Operativas del Receptor (ROC): es una técnica de
evaluación que es utilizada comúnmente y que, además, constituye una herramienta visual de
comparación entre diferentes clasificadores. La curva ROC muestra gráficamente las relaciones
entre la sensibilidad (eje Y) y la proporción de FP (eje X); ésta última se define como el número
de falsos positivos entre el número total de instancias negativas (VN+FP). Así, es posible
representar el rendimiento global de un clasificador en un punto de esta gráfica. Por ejemplo, el
punto (0,0) representaría a un modelo que clasifica a todos las instancias como negativas, y el
punto (0,1) uno que clasifica bien a todos los datos.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
14
Además, para evaluar el rendimiento de diferentes clasificadores se puede utilizar el área total
bajo la curva ROC (AUC), la cual puede ser estimada de la siguiente manera [43]:
Esta medida varía entre 0 y 1 donde, a mayor valor, mejor rendimiento de clasificación. AUC no
pone más énfasis en una clase sobre la otra, por lo que no está sesgada en contra de la clase
minoritaria.
Independientemente de cómo se crean las curvas ROC (mediante muestreo, moviendo el umbral
de decisión o variando la matriz de costes) el problema sigue siendo el seleccionar el mejor
método simple y el mejor clasificador simple para el despliegue en un sistema inteligente. Si se
sostiene el supuesto de que la distribución de los datos es de tipo binormal, las varianzas de las
dos distribuciones son iguales y los costes de error son los mismos, entonces el clasificador en el
vértice de la curva dominante es la mejor opción.
Al aplicar aprendizaje automático a problemas del mundo real, rara vez se sostendrían uno o
más de estos supuestos, pero para seleccionar un clasificador deben existir ciertas condiciones,
y puede que sea necesaria más información. Si una curva ROC domina sobre las demás,
entonces el mejor método es aquel que produce la curva dominante, que es también la curva
cuya área es la mayor de todas. Esto es generalmente cierto en algunos dominios, pero no lo es
en el caso de otros. Para seleccionar un clasificador a partir de la curva dominante, necesitamos
información adicional, como una tasa de falsos positivos del objetivo. Por otro lado, si múltiples
curvas dominan en diferentes partes del espacio ROC, entonces se puede utilizar el método
ROC Convex Hull para seleccionar el clasificador óptimo [20].
2.2.5. Otros problemas relacionados con el desbalanceo
Sin embargo, también se ha observado que en algunos dominios, por ejemplo el conjunto de datos Sick,
los algoritmos de aprendizaje automático estándar son capaces de inducir buenos clasificadores, incluso
utilizando conjuntos de entrenamiento altamente desbalanceados. Esto demuestra que el desbalanceo de
clase no es el único problema responsable de la disminución de rendimiento de los algoritmos de
aprendizaje y, por tanto, no es el único problema con el que lidiar: la distribución de los datos dentro de
cada clase también es relevante (desbalanceo entre clases frente a desbalanceo dentro de la clase)
[31,27].
Prati et al [11] desarrolló un estudio sistemático con el objetivo de cuestionar si el desbalanceo de clase
obstaculiza la inducción del clasificador o si estas deficiencias pueden ser explicadas de otra manera. Su
estudio fue desarrollado con serie de conjuntos de datos artificiales con el fin de controlar plenamente
todas las variables que se pretendían analizar.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
15
Los resultados de sus experimentos, utilizando un esquema inductivo basado en la discriminación,
sugirieron que el problema no está únicamente causado por un desbalanceo de clase, sino que también
se relaciona con el grado de superposición de los datos entre las clases.
Una serie de artículos analiza la interacción entre el desbalanceo de clases y otras cuestiones como los
conjuntos disjuntos pequeños [28] y los problemas relativos a los casos raros [4], la duplicación de datos
[18] y la superposición de clases [16]. Se encontró que, en ciertos casos, tratando el problema del
conjunto disjunto pequeño sin tener en cuenta el problema de desbalanceo de clases era suficiente para
aumentar el rendimiento. El método para el manejo de casos raros de conjuntos disjuntos se encontró
que era similar a la del suavizado m-estimación de Laplace, pero requiriendo menos afinación. También
se encontró que la duplicación de datos es generalmente perjudicial, aunque para ciertos clasificadores,
tales como Naive Bayes y Perceptrones con Márgenes, es necesario un alto grado de duplicación para
que la clasificación resulte dañada [18]. Se argumentó que la razón por la que el desbalanceo de clase y
la superposición de clases están relacionados es que los errores de clasificación a menudo se producen
cerca de las fronteras de clase, donde generalmente también se produce la superposición.
Los experimentos de Jo y Japkowicz [30] sugieren que el problema no es causado directamente por el
desbalanceo de clase, sino más bien que el desbalanceo de clase puede producir conjuntos disjuntos
pequeños que, a su vez, provoca la degradación. La estrategia de re-sampling propuesta por [30]
consiste en la clusterización de los datos de entrenamiento de cada clase (por separado) y la realización
de over-sampling clúster a clúster. Su idea es tener en cuenta no sólo el desbalanceo entre clases (el
desbalanceo que se produce entre las dos clases), sino también el desbalanceo dentro de la clase (el
desbalanceo que se produce entre los subgrupos de cada clase) y realizar over-sampling sobre el
conjunto de datos corrigiendo estos dos tipos de desbalanceo simultáneamente.
Antes de realizar un over-sampling aleatorio, los ejemplos de entrenamiento en las clases mayoritaria y
minoritaria deben ser clusterizados. Una vez hecho esto, el over-sampling comienza. En la clase
mayoritaria, a todos los grupos, a excepción del más grande, se les realiza un over-sampling aleatorio con
el fin de obtener el mismo número de ejemplos de entrenamiento que el clúster más grande. Se permite
que sea el tamaño global de la clase grande. En la clase minoritaria, a cada clúster se le
aplica over-sampling aleatorio hasta que cada grupo contenga , donde
representa el número de subgrupos que la clase minoritaria tiene. En conjunto, los
experimentos apoyan la hipótesis de que el over-sampling basado en clústeres funciona mejor que el
over-sampling simple u otros métodos para el manejo del desbalanceo de clase o de los conjuntos
disjuntos pequeños, especialmente cuando el número de ejemplos de entrenamiento es pequeño y el
problema, complejo. La razón es que el re-sampling basado en clústeres identifica casos raros y los
vuelve a muestrear de forma individual, a fin de evitar la creación de conjuntos disjuntos pequeños en la
hipótesis aprendida.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
16
2.2.6. Conclusiones sobre el aprendizaje desbalanceado
En la práctica, a menudo se informa de que el aprendizaje sensible al coste supera el re-sampling
aleatorio [15]. Los métodos de re-sampling y combinación inteligente pueden hacer bastante más que el
aprendizaje sensible al coste, ya que pueden proporcionar información nueva o eliminar información
redundante para el algoritmo de aprendizaje, como se muestra en [13, 23, 9, 29, 32]. La relación entre el
tamaño del conjunto de entrenamiento y el rendimiento relativo a la clasificación incorrecta de los
conjuntos de datos desbalanceados parece ser que, en los conjuntos de datos desbalanceados
pequeños, la clase minoritaria está pobremente representada por un número excesivamente reducido de
ejemplos que podrían no ser suficientes para el aprendizaje, sobre todo cuando existe un alto grado de
superposición de clases y la clase se divide en subclústeres. Para los conjuntos de datos más grandes,
en cambio, el efecto de estos factores de complicación parece estar reducido cuando la clase minoritaria
está mejor representada por un mayor número de ejemplos.
2.3. Predicción de seísmos a partir del aprendizaje desbalanceado
El uso del aprendizaje desbalanceado en la ciencia dedicada a la predicción de terremotos se
fundamenta en la dificultad que supone la predicción de éstos debido a la rareza con la que suceden. La
predicción de terremotos encaja perfectamente en el perfil de los dominios que el aprendizaje
desbalanceado pretende abarcar. Son muchas las vías de investigación abiertas en el área de la
predicción de grandes seísmos, debido a la gran repercusión de éstos. El aprendizaje desbalanceado
puede abrir una nueva vía de investigación que permita un mayor acercamiento a la consecución del
objetivo, que no es otro que desarrollar la capacidad de predecir estos grandes seísmos.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
17
3. Conceptos teóricos del Descubrimiento de Conocimiento en Bases de
Datos (KDD)
3.1. Introducción
La revolución de la información global en la sociedad actual ha causado la generación de gran cantidad
de datos a gran velocidad, creándose una necesidad de aumento de las capacidades de almacenamiento
que no pueden resolverse por métodos manuales. En las últimas décadas, la principal preocupación se
ha centrado en cómo tratar la información disponible de la forma más rápida y eficiente. Se hace
entonces necesario encontrar técnicas y herramientas que ayuden en el análisis de dichas cantidades de
datos, que se encuentran normalmente infrautilizadas, ya que dicho volumen excede la habilidad del ser
humano para el análisis de los datos sin el uso de técnicas automatizadas.
La minería de datos surgió como solución a este problema y es actualmente una de las técnicas que más
usadas. Su misión no es otra que la de analizar la información de las bases de datos, apoyándose en
distintas disciplinas como la estadística, los sistemas para tomas de decisión o el aprendizaje automático,
entre otros, permitiendo así la extracción de patrones, la descripción de tendencias y la predicción de
comportamientos.
La minería de datos constituye una de las etapas más importantes de un proceso más amplio como es el
descubrimiento de la información en bases de datos (KDD o Knowdledge discovery in databases),
entendiendo por descubrimiento la existencia de información valiosa escondida y no conocida
anteriormente. Definido en varias fases, el KDD se puede definir como el proceso completo de extracción
de información, desde la adquisición y preparación de los datos que se van a analizar hasta la generación
e interpretación de los resultados obtenidos.
En una definición más formal, Fayyad U. y colaboradores, en 1996, definieron el KDD como “el proceso
no trivial de identificación en los datos de patrones válidos, nuevos, potencialmente útiles, finalmente
comprensibles”.
El objetivo fundamental del KDD es encontrar conocimiento que reúna una serie de condiciones. Dicho
conocimiento debe ser útil (el conocimiento debe servir para algo, se debe obtener algún tipo de beneficio
a partir de éste), válido (el conocimiento debe verificarse en todos los datos que se tienen, y los patrones
deben seguir siendo precisos para datos nuevos, no solo para aquellos que han sido usados en su
obtención), comprensible (debe posibilitar la interpretación, revisión, validación y uso en la toma de
decisiones) y nuevo (debe aportar algo que anteriormente desconocido para el sistema y para el usuario).
El conocimiento extraído por la minería de datos se puede dar en forma de relaciones, patrones o reglas
inferidas de los datos previamente desconocidas, o bien en forma de una descripción más concisa. Estas
relaciones o resúmenes constituyen el modelo de los datos analizados. Existen muchas formas diferentes
de representar los modelos y cada una de ellas determina el tipo de técnica que puede usarse para
inferirlos. Dichos modelos pueden ser de dos tipos: predictivo, en el que se pretende estimar valores
futuros o desconocidos de variables (estimación de la demanda de un nuevo producto en función del
gasto en publicidad), o descriptivo, en el que se exploran las propiedades de los datos examinados
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
18
(identificación de grupos de personas con unos mismos gustos, con el objeto de organizar diferentes
ofertas de ocio).
El KDD nace como interfaz y se nutre de diferentes disciplinas. Es un aspecto muy interesante de esta
metodología, ya que involucra distintas áreas de investigación como la estadística, los sistemas de
información y bases de datos, el aprendizaje automático, la inteligencia artificial, el reconocimiento de
patrones, la visualización de datos, la computación paralela y distribuida, los sistemas de toma de
decisiones y la recuperación de información, entre otras. Para extraer el conocimiento durante estos
procesos se utilizan técnicas tales como redes neuronales, lógica difusa, algoritmos genéticos,
razonamiento probabilístico y árboles de decisión.
Las aplicaciones de la minería de datos y, en extensión, del descubrimiento de conocimiento, son muy
variadas: medicina (detección de pacientes con riesgo potencial de sufrir alguna patología),
mercadotecnia (identificación de clientes asociados a determinados productos), telecomunicaciones
(detección de fraudes), finanzas (análisis de riesgos), climatología (predicción meteorológica), política
(diseño de campañas electorales) y un largo etcétera.
El proceso de KDD consta de unas etapas bien claras y definidas:
1. Adquisición de datos
2. Preprocesamiento y transformación
3. Minería de datos
4. Evaluación
5. Interpretación
A continuación se detallan cada una de las etapas del proceso de KDD.
3.2. Adquisición de datos
Como paso previo a la propia adquisición de los datos, se considera muy importante comprender el
dominio del problema. Se podría definir como la “fase 0”. Tras esto, se debe seleccionar el conjunto de
datos sobre el que se desea extraer información. Para ello, se localizan las fuentes de información y se
obtienen los datos que se tenía como objetivo. Éstos se llevan a un formato común para poder trabajar de
manera más adecuada con ellos. Frecuentemente, los datos que se adquieren pertenecen a distintos
departamentos u organizaciones, incluso es posible que haya que buscar datos complementarios de
informaciones oficiales. Por tanto, es recomendable y conveniente utilizar algún método automatizado
para explorar dichos datos.
En esta etapa también se incluye la comprensión de los datos adquiridos. De esta forma se podrán
identificar más fácilmente ciertos problemas de calidad de los datos que dificulten el proceso de KDD. Así
mismo, se podrán detectar subconjuntos para realizar las primeras hipótesis sobre la información oculta.
Las tareas que se realizan en esta etapa se detallan a continuación:
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
19
Selección de los datos: selección de tablas, de atributos, registros y/o fuentes con las que
comenzar a trabajar.
Estudio de los datos: análisis de las características y particularidades de los datos.
Selección los metadatos para un uso posterior de éstos.
Análisis de las variables: éstas pueden en cuantitativas o cualitativas. Las cuantitativas a su vez,
se distinguen en discretas (número de empleados de una empresa) o continuas (salario de un
empleado). Las cualitativas se distinguen entre nominales (estado civil) u ordinales (posición en
un ranking)
Análisis de la caducidad de los datos.
3.3. Preprocesamiento y transformación
La calidad del conocimiento descubierto no sólo depende del algoritmo de minería de datos usado, sino
que también depende de la calidad de los datos minados. Es decir, aunque el algoritmo de minería de
datos sea muy bueno, si los datos no son adecuados, el conocimiento extraído podría no ser válido. Esta
etapa resulta imprescindible, ya que algunos de los datos adquiridos en la etapa anterior son irrelevantes
o innecesarios para la tarea de minería que se desea realizar. Por tanto, el objetivo general de esta fase
es el de seleccionar el conjunto de datos adecuado para el resto del proceso de KDD. Las tareas de esta
etapa se detallan a continuación
Limpieza de los datos: las bases de datos reales en la actualidad suelen contener datos con
ruido. Se debe eliminar el mayor número posible de datos erróneos o inconsistentes (limpieza) e
irrelevantes (criba). Algunos de los algoritmos de Minería de Datos tienen métodos propios para
tratar con datos incompletos o ruidosos, pero dado que estos métodos, en general, no son muy
robustos, lo normal es realizar previamente la limpieza de los datos. Los objetivos de esta tarea
son rellenar valores perdidos, suavizar el ruido de los datos, identificar o eliminar outliers (datos
anómalos) y resolver inconsistencias.
Transformación de los datos: el objetivo es adaptar los datos de la mejor forma posible para que
la aplicación de los algoritmos de Minería de Datos sea óptima. Algunas de las operaciones
típicas que se suelen realizar se exponen a continuación:
o Generalización: se trata de obtener datos de más alto nivel a partir de los actuales,
utilizando jerarquías de conceptos.
o Normalización: el objetivo de esta operación es hacer que el rango de los valores de un
atributo sea más adecuado. Es bastante útil para técnicas como AANN o métodos
basados en distancias. Entre las técnicas de normalización cabe destacar la
normalización min-máx., que realiza una transformación lineal, la normalización zero-
mean, que normaliza en función de la media y la desviación estándar, y la
normalización por escala decimal, que consiste en normalizar moviendo el punto
decimal de los valores del atributo.
o Construcción de atributos: consiste en generar nuevos atributos aplicando operaciones
tales como agrupación o separación a los atributos originales. Puede ser interesante
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
20
cuando los atributos no tienen mucho poder predictivo por sí solos o cuando los
patrones dependen de variaciones lineales de las variables globales. Se utiliza para
mejorar la exactitud y la comprensibilidad de la estructura al trabajar con datos con
muchas dimensiones.
o Discretización: Se basa en convertir atributos continuos (o discretos con muchos
valores) a casos discretos manejables o a categóricos. Esta técnica es imprescindible
para muchos algoritmos de Minería de Datos que no pueden trabajar con valores
continuos. Hay que tener precaución al aplicar esta operación, ya que una mala
discretización puede invalidar los datos.
Reducción de la dimensionalidad: el objetivo principal es obtener una representación reducida
del conjunto de datos en la que, aun siendo el volumen del nuevo conjunto mucho menor que el
original, éste no pierda en gran medida la integridad de los datos originales. La minería sobre el
conjunto reducido resultante debe ser mucho más eficiente, pero obteniendo conclusiones
iguales o al menos aproximadas a las que se obtendrían del conjunto original. La reducción de la
dimensionalidad se puede llevar a cabo mediante la selección de instancias o la selección de
atributos:
o Selección de instancias: consiste en obtener una representación más pequeña del
conjunto de datos. Dentro de este tipo se pueden distinguir dos tipos de técnicas: las
paramétricas, las cuales estiman un modelo a partir de los datos, de forma que se
almacenan sólo los parámetros y no los datos reales, y las no paramétricas, que
reducen la cantidad de datos mediante el uso de algoritmos basados en clustering
(agrupación de ejemplos similares) y muestreo (selección de un subconjunto del total de
casos presentes).
o Selección de atributos: consiste en encontrar un subconjunto de los atributos del
problema que optimice la probabilidad de clasificar correctamente. Además, el trabajar
con menos variables reduce la complejidad del problema, disminuye el tiempo de
ejecución y aumenta la capacidad de generalización.
3.4. Minería de datos
Se distinguen dos tipos de minería de datos:
Minería de datos supervisada o predictiva: existe un conocimiento a priori, lo que permite realizar
predicciones sobre nuevos datos. Existen dos técnicas de minería de datos supervisada:
o Clasificación: es, probablemente, la técnica más utilizada. En ella, cada instancia (o registro
de la base de datos) pertenece a una clase, la cual se indica mediante el valor de un atributo
al que se le denomina como clase de la instancia. Este atributo puede tomar diferentes
valores discretos, cada uno de los cuales corresponde a una clase. El resto de los atributos
de la instancia (los relevantes a la clase) se utilizan para predecir la clase. El objetivo es
predecir cuál es la clase de nuevas instancias de las que se desconoce ésta.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
21
o Regresión: se utiliza para designar de forma general el problema de predecir una variable de
tipo continuo. Se trata de aproximar el valor numérico de dicha variable conociendo el resto
de atributos. Implica el aprendizaje de una función para establecer la correspondencia entre
los datos y el valor a predecir. Un caso particular de regresión es el análisis de series
temporales, cuyo objetivo consiste en observar la variación del valor de un atributo en el
tiempo. Se diferencian de la regresión en que los datos tienen una relación temporal.
Minería de datos no supervisada o descriptiva: no existe un conocimiento a prior, por lo que se
realizan descripciones del conjunto de datos tratado, de manera que se pueda extraer algún
conocimiento. Existen varias técnicas de minería de datos no supervisada:
o Agrupamiento o clustering: consiste en obtener grupos naturales a partir de los datos. Se
diferencia de la clasificación en que en este caso los grupos no están definidos. En lugar de
analizar datos etiquetados con una clase, los analiza para generar esa etiqueta. Los datos
son agrupados basándose en el principio de maximizar la similitud entre los elementos de
un grupo determinado.
o Reglas de asociación: su objetivo es identificar relaciones no explícitas entre atributos
categóricos. Se define como un modelo que identifica tipos de asociaciones específicas en
los datos. Las reglas de asociación no implican una relación causa-efecto, es decir, puede
no existir una causa para que los datos estén asociados. Una asociación entre dos atributos
ocurre cuando la frecuencia de que se den dos valores determinados de cada uno de estos
atributos conjuntamente es relativamente alta. Un caso especial son las reglas de
asociación secuenciales, las cuales se usan para determinar patrones secuenciales en los
datos. Se basan en secuencias temporales de acciones y difieren de las reglas de
asociación en que las relaciones entre los datos son temporales.
o Correlaciones: se usan para examinar el grado de similitud de los valores de dos variables
numéricas. El análisis de las correlaciones, sobre todo negativas, puede ser muy útil para
establecer reglas de ítems correlacionados.
3.5. Evaluación
La fase de Minería de Datos puede generar varios modelos, por lo que es necesario establecer cuáles
son los más válidos. Medir la calidad de los patrones descubiertos por un algoritmo de Minería de Datos
no es un problema trivial, ya que esta medición puede realizarse siguiendo distintos criterios de
evaluación, algunos de ellos bastante subjetivos.
Idealmente, los patrones descubiertos deben tener tres cualidades principales; deben ser precisos,
comprensibles (es decir, inteligibles) e interesantes (útiles y novedosos). Según sus aplicaciones, puede
interesar mejorar algunos de estos criterios y sacrificar ligeramente otros.
Las técnicas de evaluación que se usan dividen el conjunto de datos en dos subconjuntos: el de
entrenamiento, que sirve para extraer el conocimiento, y el de test, que prueba la validez del
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
22
conocimiento extraído. Existen técnicas para generar estos subconjuntos, entre las cuales destacan las
siguientes:
Validación simple: se generan los subconjuntos en base a un porcentaje determinado.
Generalmente, el subconjunto de entrenamiento posee un mayor porcentaje de los datos del
conjunto inicial.
Validación cruzada: es recomendable cuando tenemos una cantidad no muy elevada de datos
para construir el modelo, no siendo posible permitir que un subconjunto de datos no intervenga
en algún momento en el entrenamiento del modelo. Consiste en un conjunto de validaciones
simples en las que los subconjuntos varían de tal manera que todos los datos intervengan en el
entrenamiento del modelo. El resultado final estará compuesto por la media de los resultados de
cada una de las validaciones simples que hayan conformado la validación cruzada.
Bootstrapping: consiste en construir primero un modelo con todos los datos iniciales,
posteriormente, se crean numerosos conjuntos de datos, llamados bootstrap samples, haciendo
un muestreo de los datos originales con reemplazo, por lo que los conjuntos construidos pueden
contener datos repetidos. A continuación se construye un modelo con cada conjunto y se calcula
su ratio de error sobre el conjunto de test. El error final se calcula promediando los errores
obtenidos para cada muestra.
Dependiendo de la tarea de minería de datos, existen diferentes medidas de evaluación de los modelos.
Por ejemplo, en clasificación, lo habitual es evaluar la calidad de los patrones encontrados con respecto a
su precisión predictiva, que se calcula como el número de instancias del conjunto de prueba clasificadas
correctamente, dividido por el número de instancias totales en el conjunto de prueba. En el caso de reglas
de asociación, se suele evaluar de forma separada cada una de las reglas con objeto de converger a
aquellas que pueden aplicarse a un número mayor de instancias y que tienen una precisión relativamente
alta sobre cada una de éstas. Se hace en base a dos conceptos, los cuales son soporte y confianza.
3.6. Interpretación
Una vez el modelo ha sido validado, se interpretan los resultados obtenidos. Para ello, resulta
imprescindible tener un extenso conocimiento del dominio tratado. De esta manera, la interpretación de
los patrones obtenidos podrá ser explicada en términos que usuarios no expertos en la materia puedan
comprender. El fin de la interpretacion no es más que, en base a los modelos o patrones obtenidos, llegar
a una conclusión que lleve a la aceptación o rechazo de una hipótesis determinada y/o la apertura de
nuevas hipótesis.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
23
4. Desarrollo de una metaheurística para la predicción de seísmos de gran
magnitud mediante algoritmos basados en aprendizaje desbalanceado
4.1. Adquisición de los datos
Los datos que se han utilizado para realizar este estudio provienen de dos países distintos: Chile y Japón.
Los datos de Chile se han obtenido desde el Centro Sismológico Nacional de la Universidad de Chile,
organismo oficial dependiente del Departamento de Geofisica (DGF) y de la Facultad de Ciencias Físicas
y Matemáticas de la Universidad de Chile, la cual cuenta con un amplio registro de los terremotos
ocurridos en el país. Fue fundada en 1908 debido a la necesidad de poseer un organismo sismológico
que estudiara la alta tasa de actividad sísmica que presentaba el país, necesidad que se hizo más
patente si cabe tras el gran terremoto que devastó Valparaíso en 1906. El centro cuenta con unas 65
estaciones sismológicas repartidas por todo Chile.
Para los datos de Japón, se ha hecho uso de la base de datos pública de U.S. Geological Survey, que se trata una agencia científica del gobierno de Estados Unidos dedicada a estudiar el terreno, los recursos y los peligros naturales de todo el territorio nacional. Una de las disciplinas que abarca es la geografía, y dentro de ella existe un programa dedicado al peligro que suponen los terremotos. Dicho programa pone a libre disposición sus bases de datos, dando la posibilidad de descargar datos de terremotos, entre los cuales se encuentran los de Japón. Las ciudades elegidas para el estudio han sido 7 en total: Pichilemu, Santiago, Talca y Valparaíso, por parte de Chile, y Tokyo, Nagoya y Osaka, por parte de Japón. Todas ellas son ciudades con una gran actividad sísmica. Además, cada ciudad posee información que data del año 2001 en adelante. Debido a todo esto se considera que, a priori, los datos adquiridos son lo suficientemente buenos como para realizar un estudio de calidad. Cada conjunto de datos perteneciente a una ciudad concreta posee la siguiente información:
Localización del terremoto, expresada en términos de latitud y longitud.
Fecha de ocurrencia del terremoto, expresada año, mes, día, hora y minutos.
Magnitud del terremoto. Cabe mencionar que en este estudio sólo se van a tener en cuenta los terremotos registrados cuya magnitud sea mayor o igual que 4, ya que los terremotos por debajo de esa magnitud apenas ocasionan daños en estos países, los cuales se han preparado a conciencia para sucesos de este tipo.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
24
4.2. Preprocesamiento y transformación de los datos
A partir de los datos obtenidos anteriormente, se van a generar un total de 16 atributos, los cuales se
muestran a continuación:
Atributo Notación Descripción
Ley de Omori-Utsu
Ley dinámica de Gutenberg-Richter
Tiempo transcurrido durante los últimos eventos de magnitud mayor a un valor predefinido
Promedio de las magnitudes de Richter de los últimos eventos
Tasa de liberación de la raíz cuadrada de la energía sísmica
Pendiente de la curva entre la magnitud del terremoto y el logaritmo de la frecuencia de ocurrencia de eventos con una magnitud igual o mayor que un valor predefinido
Valor definido en la ley de Gutenberg-Richter
Diferencia entre la magnitud esperada y la observada basada en la ley de potencia inversa de Gutenberg-Richter
Suma de la desviación típica media sobre la línea de regresión basada en la ley de potencia inversa de Gutenberg-Richter
Coeficiente de variación del tiempo medio entre eventos característicos, o aperiodicidad media.
Tiempo medio entre los eventos característicos o típicos
Estos atributos se han generado a partir de dos fuentes distintas: el conjunto
se corresponde con los atributos propuestos en [44,45], mientras que
el conjunto
se corresponde con los atributos propuestos en
[46]. A continuación se explicará cómo se han generado cada uno de estos atributos. Para conocer el
proceso de una manera más detallada se insta a consultar las fuentes mencionadas anteriormente.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
25
4.2.1. Atributos del conjunto
Estos atributos se generan siguiendo la ley de Gutenberg-Richter. En ella se menciona el valor , el cual
refleja propiedades tanto tectónicas como geofísicas de las rocas, así como la variación de la presión de
los fluidos en una región concreta [47, 48]. El estudio de la alteración del valor ha resultado de utilidad
en lo que a la predicción de terremotos se refiere [49].
Los estudios de Gibowitz [50] y Wiemer et al. [51] sostienen que las variaciones del valor desembocan
en réplicas del un terremoto determinado. Se percataron de un incremento de después de un gran
terremoto en Nueva Zelanda y una posterior reducción de éste después de importantes réplicas. En
general, expusieron que el valor tiende a reducirse cuando muchos terremotos ocurren en un área
concreta durante un corto periodo de tiempo.
Sammonds, Meredith y Main [52] esclarecieron los cambios y variaciones de , postulando que “un
estudio sistemático de cambios temporales en el valor ha mostrado que un gran terremoto suele ir
precedido a medio plazo de un incremento en , seguido de una reducción en los meses a semanas
antes del terremoto. Un descenso pronunciado de b puede preceder a la aparición de terremotos de hasta
siete años”.
En el caso que ocupa, es necesario calcular el valor para la generación de los atributos. Para ello, se
hace uso de la siguiente fórmula:
Donde es la magnitud del i-ésimo terremoto y el número 3 es la magnitud de referencia, . La
ecuación hace uso de los últimos 50 terremotos registrados.
4.2.1.1. Atributos
Los atributos que se pretenden generar se calculan a partir del incremento del valor en intervalos de 4
terremotos. Teniendo en cuenta esto, se generan los 5 atributos definidos de la siguiente manera:
Se hace uso, en total, de 20 terremotos para la formulación de los 5 atributos anteriores. Esto, sumado a
los 50 terremotos de los que hace uso la ecuación, conforma un total de 70 terremotos necesarios para
calcular dichos atributos.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
26
4.2.1.2. Atributo
El atributo recoge la magnitud máxima de los terremotos registrados durante la última semana en
el área analizada. Este atributo viene definido por las leyes de Omori-Utsu y Bath. Así pues, el atributo se
define de la siguiente manera:
Donde es el tiempo medido en días.
4.2.1.3. Atributo
El atributo identifica la probabilidad de registrar un terremoto con una magnitud mayor o igual a 6. Se
añade esta información para que, de esta manera, sea posible incluir la ley de Gutenberg-Richter de
forma dinámica. El atributo es calculado a partir de la siguiente función de densidad de probabilidad
(PDF):
4.2.2. Atributos del conjunto
En esta segundo conjunto de atributos, tres de ellos son independientes de de la distribución temporal de
la magnitud del terremoto asumida. Estos son: el tiempo transcurrido durante un número ( ) predefinido
de eventos ( ), la magnitud promedio de los últimos eventos ( ) y la tasa de liberación de la
raíz cuadrada de la energía sísmica ( ).
Otros tres atributos están basados en la distribución de magnitud temporal de la ley de potencia inversa
de Gutenberg-Richter. Estos son: la pendiente de la curva de la ley de potencia inversa de Gutenberg-
Richter, más conocido como el valor , la suma de la desviación típica media sobre la línea de regresión
basada en la ley de potencia inversa de Gutenberg Richter, conocido como el valor , y la diferencia entre
la magnitud esperada y la observada basada en la ley de potencia inversa de Gutenberg-Richter,
conocido como el valor [53].
Los dos atributos restantes están basados en la distribución característica temporal de la magnitud del
terremoto. Estos son: el tiempo medio entre los eventos característicos o típicos, conocido como el valor
, y el coeficiente de variación del tiempo medio o la aperiodicidad de la media, conocido como el valor
[54].
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
27
4.2.2.1. El valor
El tiempo transcurrido durante los últimos eventos de magnitud mayor a un valor predefinido es definido
como:
Donde es el tiempo de la ocurrencia del evento n-ésimo y es el tiempo de la ocurrencia del primer
evento.
La mayoría de los terremotos están precedidos por una actividad precursora significativa, como por
ejemplo una serie de terremotos de pequeña magnitud, también llamados seísmos precursores [55]. De
hecho, algunos de los modelos predictivos más populares tales como el modelo de cascadas en colisión
[56] y otros estudios de terremotos dinámicos están basados en la observación de la frecuencia e
intensidad de los seísmos precursores. El valor puede ser una medida de la frecuencia de los seísmos
precursores dependiendo de valor umbral elegido para la magnitud.
En este caso, un valor elevado indica una falta de seísmos precursores, lo cual en muchas regiones
sísmicas puede indicar una baja probabilidad de que ocurra un gran evento sísmico en un futuro. Por el
contrario, un valor pequeño indica una frecuencia elevada de seísmos precursores y una probabilidad
más elevada de que ocurra un gran evento sísmico en un futuro.
4.2.2.2. La magnitud promedio
El promedio de las magnitudes de Richter de los últimos eventos es definida como:
Junto con el valor (el cual es una medida de la frecuencia de los seísmos precursores), el promedio de
las magnitudes de los seísmos precursores es también un indicador crucial de un terremoto inminente en
algunas regiones.
De acuerdo con la hipótesis de liberación acelerada [57] y sus modificaciones [58,59], la energía liberada
de una falla fracturada se incrementa exponencialmente a medida que el tiempo de ocurrencia de un
terremoto se vuelve más corto. En otras palabras, las magnitudes observadas de los terremotos
preliminares aumentan inmediatamente antes de la ocurrencia de un gran terremoto.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
28
4.2.2.3. Tasa de liberación de la raíz cuadrada de la energía sísmica ( )
La tasa de liberación de la raíz cuadrada de la energía sísmica sobre el tiempo es definida como:
Donde es la raíz cuadrada de la energía sísmica ( ) calculada a partir de la magnitud de Richter
correspondiente usando la siguiente relación empírica [60]:
La mayoría de las regiones sísmicas pueden ser aproximadas como sistemas físicos abiertos con un
aumento gradual de la energía a través del movimiento de las placas litosféricas. Tales sistemas
permanecen en equilibrio relativo si este aumento gradual es liberado a través de actividades sísmicas de
baja magnitud con regularidad [61]. Si estas actividades sísmicas son interrumpidas por largos periodos
de tiempo (inactividad sísmica) debido a razones mecánicas o friccionales, el sistema físico acumula
energía, la cual será liberada bruscamente en forma de eventos sísmicos mayores cuando dicha energía
almacenada alcance el umbral [62].
4.2.2.4. Pendiente del logaritmo de la frecuencia del terremoto frente a la curva de la magnitud
(valor )
Este parámetro está basado en la ley de potencia inversa de Gutenberg-Richter para frecuencias y
magnitudes de terremotos, y se expresa como:
Donde es el número de eventos de magnitud igual o mayor que , y y son constantes.
El parámetro (conocido en la literatura de la predicción de terremotos como el valor ), es la pendiente
del gráfico aproximadamente lineal entre la magnitud del terremoto y el logaritmo de la frecuencia de
ocurrencia de eventos de igual o mayor magnitud.
Los valores y pueden ser calculados usando la regresión lineal de mínimos cuadrados de la siguiente
manera:
Donde es la magnitud de evento i-ésimo, es el número de eventos de magnitud igual o mayor a
y es el total de número de eventos sísmicos.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
29
4.2.2.5. Suma de la desviación típica media sobre la línea de regresión basada en la ley de
potencia inversa de Gutenberg Richter (valor )
Este parámetro está definido en la relación magnitud-frecuencia de Gutenberg-Richter de la siguiente
manera:
Esta es una medida de conformidad de los datos sísmicos observados para la relación de la ley de
potencia inversa de Gutenberg-Richter. Cuanto más bajo es el valor , más probable es que la
distribución observada pueda ser estimada usando la ley de potencia inversa, mientras que un elevado
valor de indica mayor aleatoriedad y la inconveniencia de usar la ley de potencia para la descripción de
la distribución de magnitud-frecuencia.
4.2.2.6. Diferencia entre la magnitud esperada y la observada basada en la ley de potencia inversa
de Gutenberg-Richter (valor )
Este parámetro es definido como:
Donde es la magnitud máxima observada en los últimos eventos y es
la magnitud máxima en los últimos eventos basada en la relación de la ley de potencia inversa.
Dado que un evento de la mayor magnitud probablemente ocurra una sola vez a lo largo de los
eventos, , y la Ecuación 3 conduce a:
4.2.2.7. Tiempo medio entre los eventos característicos o típicos (valor )
Este atributo representa el tiempo medio o la diferencia observada entre los eventos típicos o
característicos a lo largo de los últimos eventos. Varias zonas sísmicas, incluida la bien estudiada
Parkfield, California, presenta tendencias periódicas en el aumento gradual del estrés y en la posterior
liberación a través de grandes terremotos, de acuerdo con la hipótesis de rebote elástico [57f] [[63]]. Para
la región de Parkfield, Kagan y Jackson [42f] [[54]] encontraron que los tiempos intermedios entre grandes
terremotos son relativamente constantes. Estos grandes terremotos son conocidos como eventos
característicos.
En este contexto, las magnitudes son definidas dentro de un rango de aproximación dado. Por ejemplo,
los terremotos de magnitud entre 7 y 7,5 son agrupados juntos como una magnitud característica. Los
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
30
eventos característicos deberían, en un escenario ideal, ser separados mediante periodos de tiempo
aproximadamente iguales. El tiempo medio es dado por:
Donde es el tiempo medio transcurrido entre los eventos característicos de magnitud ,
y es el número total de eventos característicos.
4.2.2.8. Coeficiente de variación del tiempo medio entre eventos característicos ( ), también
conocido como la aperiodicidad de la media (valor )
Este parámetro es una medida de proximidad de la distribución de la magnitud de la región sísmica a la
distribución característica, y es definido matemáticamente como:
Un alto valor de indica una gran diferencia entre el tiempo medio calculado y el tiempo medio observado
entre los eventos característicos y viceversa.
4.3. Minería de Datos
En este estudio, el problema a tratar pertenece a lo que se denomina como aprendizaje supervisado,
pues se dispone de un conocimiento determinado antes de realizar el aprendizaje. Es decir, se va a
generar una función capaz realizar predicciones, a partir de unos datos de entrada, después de haber
visto una serie de ejemplos, los cuales representan los datos de entrenamiento. Los valores predichos
van a ser valores discretos, también conocidos como etiquetas de clase. Por tanto, el problema
representa un problema de clasificación, que es un tipo concreto de aprendizaje supervisado.
Para obtener un modelo predictivo a partir de unos datos de entrenamiento, es necesario disponer de
algoritmos de clasificación. Como en este estudio se está tratando el aprendizaje a partir de conjuntos
desbalanceados, se va a hacer uso de unos algoritmos especializados en este tipo de aprendizaje.
Además de los algoritmos de clasificación desbalanceados, que tratan el problema del desbalanceo a
nivel algorítmico, existen una serie de algoritmos que tratan dicho problema a nivel de datos, como ya se
expuso en el apartado correspondiente al Estado del Arte.
En este estudio, la metodología llevada a cabo hasta la obtención de un modelo predictivo va a seguir
siempre el mismo patrón: a cada conjunto de datos se le aplica un algoritmo a nivel de datos que permita
un cierto rebalanceo de éste, y al conjunto resultante se le aplica un algoritmo de clasificación
desbalanceada.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
31
Para simplificar el diagrama anterior, se va a dar por hecho que la salida de un algoritmo de preprocesado
lleva implícita un nuevo conjunto de datos rebalanceado, y la salida de un algoritmo de clasificación lleva
implícita un nuevo modelo predictivo. Por tanto, el diagrama simplificado quedaría de la siguiente manera:
Para poder llevar a cabo el estudio, se hace uso de una herramienta llamada Keel, la cual incluye una
sección dedicada al aprendizaje desbalanceado, en la que se incluyen casi medio centenar de algoritmos
especializados en esta disciplina.
A continuación se muestra una tabla con todos los algoritmos de preprocesado y de clasificación usados durante el estudio:
Algoritmos para Datos Desbalanceados
Preprocesado Clasificación
Over-Sampling Under-Sampling Sensibles al Coste Ensembles
ADASYN CNN C SVMCS AdaBoost
ADOMS CNNTL C45CS AdaBoostM1
AHC CPM NNCS AdaBoostM2
Borderline SMOTE NCL AdaC2
ROS OSS Bagging
Safe Level SMOTE RUS BalanceCascade
SMOTE SBC DataBoost-IM
SMOTE ENN TL EasyEnsemble
SMOTE RSB IIVotes
SMOTE TL MSMOTEBagging
SPIDER MSMOTEBoost
SPIDER2 OverBagging
OverBagging2
RUSBoost
SMOTEBagging
SMOTEBoost
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
32
Algoritmos para Datos Desbalanceados
Preprocesado Clasificación
Over-Sampling Under-Sampling Sensibles al Coste Ensembles
UnderBagging
UnderBagging2
UnderOverBagging
La experimentación en Keel se realiza mediante la construcción de diagramas mediante una interfaz
gráfica. A continuación se muestra el diseño de un experimento simple en Keel:
La descripción del experimento es la siguiente: a un conjunto datos se le aplica un algoritmo de
preprocesado (ADASYN) y, tras el rebalanceo, se aplica un algoritmo de clasificación (AdaBoost). El
último elemento del diagrama corresponde a la visualización de los resultados del proceso de evaluación
del modelo obtenido tras la ejecución del clasificador. Dicho proceso de evaluación se describirá en el
apartado correspondiente.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
33
El objetivo de este estudio es realizar tantos experimentos como combinaciones posibles de algoritmos
existan.
Keel dispone de 24 algoritmos de clasificación y 20 algoritmos de preprocesado. Teniendo en cuenta que
se pueden crear modelos a partir de clasificadores sin hacer uso de algoritmos de preprocesado, hay un
total de 504 combinaciones posibles, lo que se traduce en 504 experimentos a realizar por cada conjunto
de datos. Los modelos obtenidos para cada conjunto de datos podrían representarse en forma de matriz,
para una mayor comprensión:
Conjunto de Datos 1
Clasificador - 1 Clasificador - 2 . . . Clasificador - J
Preprocesado - 0 Modelo - 01 Modelo - 02 . . . Modelo - 0J
Preprocesado - 1 Modelo - 11 Modelo - 12 . . . Modelo - 1J
Preprocesado - 2 Modelo - 21 Modelo - 22 . . . Modelo - 2J
.
.
.
.
.
.
.
.
.
. . . . .
.
.
.
Preprocesado - I Modelo - I1 Modelo - I2 . . . Modelo - IJ
Donde “Preprocesado - 0” indica que no se ha usado ningún algoritmo de preprocesado.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
34
Tras la generación y ejecución de todos los experimentos, éstos son evaluados. Dicho proceso de
evaluación será explicado con detalle en el apartado correspondiente. Tras esta etapa de evaluación, se
procede a la construcción de los ensembles (combinación de varios modelos) para la obtención de un
clasificador que mejore a los obtenidos en la primera etapa. Dado que se tiene como prioridad la
obtención de un clasificador cuyas predicciones positivas tengan una credibilidad muy alta (es decir, que
si el clasificador predice un caso positivo, éste tenga muchas probabilidades de acertar), o lo que es lo
mismo, un clasificador con muy pocos Falsos Positivos (es decir, un alto Valor Predictivo Positivo), los
ensembles a construir van a ser el resultado de la intersección de la predicción de dos o más
clasificadores. En otras palabras, el modelo obtenido tras realizar un ensemble va a predecir un caso
positivo sólo si todos los clasificadores que han intervenido en el ensemble han predicho ese mismo caso
como positivo.
Predicción Modelo 1
Predicción Modelo 2
Predicción Modelo 3
Predicción Ensemble
0 0 0 0
0 1 1 0
1 0 0 0
0 0 1 0
1 1 1 1
1 1 0 0
En esta etapa de construcción de ensembles se persiguen dos objetivos distintos: por un lado, crear
nuevos clasificadores para cada conjunto de datos individual a partir de aquellos clasificadores que mejor
se comportan en cada uno de estos conjuntos por separado; por otro lado, se busca crear un clasificador
global que se comporte bien de en el mayor número de conjuntos de datos posible a partir de aquellos
clasificadores que mejor se comportan de manera global.
Todo esto se realizará de forma iterativa, creando nuevos clasificadores y evaluándolos en cada iteración.
Se comenzará realizando ensembles a partir de dos clasificadores, aumentando en cada iteración el
número de clasificadores que participan en cada ensemble. El proceso iterativo continuará hasta
encontrar un clasificador que se considere que cumple las expectativas tras ser evaluado. A continuación
se muestra en un diagrama el proceso llevado a cabo, sin entrar en detalle en el proceso de evaluación,
el cual se explicará en el apartado correspondiente.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
35
Así pues, la metodología completa usada, sin entrar en detalle en los procesos de evaluación, es la
siguiente:
Una vez se para el proceso iterativo tras haber encontrado unos clasificadores satisfactorios, se da por
concluida la etapa de minería de datos.
4.4. Evaluación
Como paso previo a la explicación del proceso de evaluación usado en este estudio, se considera útil
comentar que, debido a la gran extensión del estudio (por cada conjunto de datos, 504 experimentos
iniciales, más los ensembles necesarios y su posterior evaluación e interpretación de los resultados) se
ejecutó una primera fase de experimentos, a modo de prueba, la cual desembocó en el descubrimiento
de un fallo de diseño de la experimentación que, aunque hizo que ésta quedara inservible, permitió la
corrección del error descubierto y evitó tener que prescindir de la experimentación completa en caso de
haberla realizado y haber descubierto dicho error posteriormente.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
36
Esta fase inicial se realizó con los cuatro conjuntos de datos que corresponden a las cuatro magnitudes
de la ciudad de Pichilemu (M4, M5, M6 y M7). La técnica de evaluación usada fue la validación cruzada
con k=5. La creación de los 5 subconjuntos fue realizada por la herramienta Keel, la cual hizo uso de la
estratificación, de manera que los pocos casos positivos que existían estuvieran proporcionalmente
repartidos en cada subconjunto. Por tanto, los subconjuntos no estaban construidos de manera
secuencial a partir de los datos del conjunto inicial. En otras palabras, el subconjunto 1 no estaba
compuesto de los primeros casos del conjunto de datos inicial, y el subconjunto 5 no estaba
compuesto de los últimos casos del conjunto inicial, siendo el número de casos del conjunto de
datos. En el apartado correspondiente se mostrarán los resultados de esta primera fase y se explicará el
motivo por el que dicha fase fue mal diseñada.
Una vez comentado esto, se procede a explicar el proceso de evaluación llevado a cabo en este estudio.
Para la evaluación de los clasificadores obtenidos tras el proceso de minería de datos, se ha realizado un
minucioso análisis de los datos, lo cual ha permitido descartar aquellos conjuntos de datos inservibles y
utilizar las técnicas de evaluación que mejor se ajustan a cada uno de ellos.
En primer lugar, se muestran los conjuntos de datos iniciales. Como para poder ejecutar los experimentos
hay que separar cada ciudad en tantos conjuntos de datos como magnitudes haya, las cuatro ciudades
de Chile se dividen en 16 conjuntos de datos, debido a que cada una de ellas posee 4 magnitudes. A esto
hay que sumarle las tres ciudades de Japón, las cuales poseen sólo una magnitud. Así pues, existe un
total de 19 conjuntos de datos iniciales.
M4 M5 M6 M7
Pichilemu
Santiago
Talca
Valparaíso
Tokyo
Nagoya
Osaka
Tras esto, se procede a realizar un análisis de todos los conjuntos de datos. En dicho análisis se muestra
el número de casos que hay en cada conjunto, así como la cantidad de casos positivos y negativos que
tienen éstos. Además, se muestra la proporción de casos positivos sobre el total de casos de cada
conjunto para, de esta manera, determinar el nivel de desbalanceo de cada uno de ellos. Los conjuntos
no desbalanceados serán sombreados de naranja, y los desbalanceados, de azul.
Tras este análisis, se descartan aquellos conjuntos de datos que no poseen ningún caso positivo, ya que
es imposible obtener un clasificador capaz de predecir casos positivos si no se tiene la posibilidad de
estudiarlos.
Total Positivos Negativos Desbalanceo
Pichilemu_M4 343 211 132 61,51603499
Pichilemu_M5 343 122 221 35,56851312
Pichilemu_M6 343 8 335 2,332361516
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
37
Total Positivos Negativos Desbalanceo
Pichilemu_M7 343 6 337 1,749271137
Talca_M4 204 69 135 33,82352941
Talca_M5 204 7 197 3,431372549
Talca_M6 204 0 204 0
Talca_M7 204 0 204 0
Santiago_M4 480 21 459 4,375
Santiago_M5 480 0 480 0
Santiago_M6 480 0 480 0
Santiago_M7 480 0 480 0
Valparaíso_M4 979 166 813 16,95607763
Valparaíso_M5 979 42 937 4,290091931
Valparaíso_M6 979 0 979 0
Valparaíso_M7 979 0 979 0
Tokyo_M5 2276 1076 1200 47,27592267
Nagoya_M5 409 8 401 1,95599022
Osaka_M5 293 11 282 3,754266212
Tras desechar los conjuntos inservibles, se dispone de un total de 12 conjuntos de datos.
M4 M5 M6 M7
Pichilemu Santiago Talca Valparaíso Tokyo Nagoya Osaka
Una vez hecho esto, se elige la técnica de evaluación que se va a usar. En este caso, y debido al error
detectado en la primera fase de experimentación, se va a hacer uso del Hold-out, con los subconjuntos
creados de manera secuencial a partir del conjunto inicial. Es decir, que si se usara un Hold-out 70%-30%
(70% de los datos del conjunto inicial para el conjunto de entrenamiento y 30% para el conjunto de test),
el conjunto de entrenamiento estaría compuesto por los primeros casos del conjunto inicial, y el
conjunto de test estaría compuesto por los últimos casos, siendo el número de casos del
conjunto de datos.
En principio, se pretende usar un Hold-out 66%-33%, que suele ser el más común. Para ello, se realiza
un análisis de cómo quedarían repartidos los datos con un Hold-out de este tipo. Además de los casos
totales, positivos y negativos que tendrían los conjuntos de entrenamiento y de test de cada conjunto de
datos, también se muestra la proporción de positivos del subconjunto respecto del total de casos del
mismo (en adelante, D), y la proporción de positivos del subconjunto respecto del total de positivos del
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
38
conjunto inicial (en adelante, PP). Estos dos últimos indicadores mostrarán cómo de proporcionados han
quedado los subconjuntos con respecto a los casos positivos, que son los verdaderamente interesantes
en este estudio. En una proporcionalidad ideal, la D del subconjunto debe ser igual a la D del conjunto
inicial (es decir, el nivel de desbalanceo debe ser el mismo). La PP del subconjunto, en cambio, debe ser
igual a la proporción del Hold-out que se está llevando a cabo. Para comprender esto mejor, se muestra
un ejemplo de lo que sería una distribución ideal de los casos positivos en un conjunto de datos de
ejemplo tras aplicar un Hold-out 70%-30%:
C. Completo C. Entrenamiento (70%) C. Test (30%)
T P N D T P N D PP T P N D PP
C.D. Ejemplo 100 10 90 10 70 7 63 10 70 30 3 27 10 30
Donde “D” indica el desbalanceo del conjunto (la proporción de positivos del conjunto respecto del total de
casos del mismo) y “PP” la proporción de positivos del subconjunto con respecto al total de positivos del
conjunto inicial. Las “D” de los conjuntos de entrenamiento y test deben ser iguales a la “D” del conjunto
inicial (en este caso, 10) y las “PP” de cada subconjunto deben ser iguales a las proporciones del Hold-
out usado (70%-30%, en este caso).
Tras esta explicación, se muestra el análisis de los conjuntos de datos y de sus subconjuntos generados
tras aplicar un Hold-out 66%-33%.
C. Completo C. Entrenamiento (66%) C. Test (33%)
Ciudad T P N D T P N D PP T P N D PP
P-M4 343 211 132 61,5 228 154 74 67,5 73 115 57 58 49,6 27
P-M5 343 122 221 35,6 228 72 156 31,6 59 115 50 65 43,5 41
P-M6 343 8 335 2,3 228 8 220 3,5 100 115 0 115 0 0
P-M7 343 6 337 1,7 228 6 222 2,6 100 115 0 115 0 0
T-M4 204 69 135 33,8 136 28 108 20,6 40,6 68 41 27 60,3 59,4
T-M5 204 7 197 3,4 136 7 129 5,1 100 68 0 68 0 0
S-M4 480 21 459 4,4 320 9 311 2,8 42,9 160 12 148 7,5 57,1
V-M4 979 166 813 17 652 66 586 10,1 39,8 327 100 227 30,6 60,2
V-M5 979 42 937 4,3 652 7 645 1,1 16,7 327 35 292 10,7 83,3
Tk-M5 2276 1076 1200 47,3 1527 555 972 36,3 51,6 749 521 228 69,6 48,4
N-M5 409 8 401 2 272 5 267 1,8 62,5 137 3 134 2,2 37,5
O-M5 293 11 282 3,8 195 11 184 5,6 100 98 0 98 0 0
Para que la tabla sea más fácil de visualizar, se va a mostrar una versión simplificada en la que
únicamente aparecen los indicadores “D” y “PP”, que son, al fin y al cabo, los que muestran la idoneidad
de los conjuntos.
C. Completo C. Entrenamiento (66%) C. Test (33%)
Ciudad D D PP D PP
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
39
C. Completo C. Entrenamiento (66%) C. Test (33%)
Ciudad D D PP D PP
P-M4 61,5 67,5 73 49,6 27
P-M5 35,6 31,6 59 43,5 41
P-M6 2,3 3,5 100 0 0
P-M7 1,7 2,6 100 0 0
T-M4 33,8 20,6 40,6 60,3 59,4
T-M5 3,4 5,1 100 0 0
S-M4 4,4 2,8 42,9 7,5 57,1
V-M4 17 10,1 39,8 30,6 60,2
V-M5 4,3 1,1 16,7 10,7 83,3
Tk-M5 47,3 36,3 51,6 69,6 48,4
N-M5 2 1,8 62,5 2,2 37,5
O-M5 3,8 5,6 100 0 0
Se han sombreado de rojo aquellos conjuntos de datos que quedan inservibles tras aplicar un Hold-out
66%-33%, ya que no hay ningún caso positivo en el conjunto de test. Esto implica que, si bien se puede
crear un modelo que sea capaz de realizar predicciones de casos positivos, al no haber casos positivos
en el conjunto de test, dicho modelo no se puede evaluar. Es por ello que, como medida alternativa, se
decide analizar los conjuntos aplicando un Hold-out 50%-50%, con el objetivo de que algunos de los
conjuntos de datos que son inservibles en el Hold-out 66%-33% sí puedan ser aprovechados en este
nuevo Hold-out. Así pues, se muestra un nuevo análisis de todos los conjuntos de datos para observar si
algunos conjuntos presentan una mejor distribución que en el Hold-out anterior.
C. Completo C. Entrenamiento (66%) C. Test (33%)
Ciudad T P N D T P N D PP T P N D PP
P-M4 343 211 132 61,5 172 135 37 78,5 64 171 76 95 44,4 36
P-M5 343 122 221 35,6 172 70 102 40,7 57,4 171 52 119 30,4 42,6
P-M6 343 8 335 2,3 172 8 164 4,7 100 171 0 171 0 0
P-M7 343 6 337 1,7 172 6 166 3,5 100 171 0 171 0 0
T-M4 204 69 135 33,8 102 5 97 4,9 7,2 102 64 38 62,7 92,8
T-M5 204 7 197 3,4 102 2 100 2 28,6 102 5 97 4,9 71,4
S-M4 480 21 459 4,4 240 6 234 2,5 28,6 240 15 225 6,3 71,4
V-M4 979 166 813 17 490 43 447 8,8 25,9 490 123 367 25,1 74,1
V-M5 979 42 937 4,3 489 3 486 0,6 7,1 489 39 450 8 92,9
Tk-M5 2276 1076 1200 47,3 1138 195 943 17,1 18,1 1138 881 257 77,4 81,9
N-M5 409 8 401 2 205 2 203 1 25 204 6 198 2,9 75
O-M5 293 11 282 3,8 147 9 138 6,1 81,8 146 2 144 1,4 18,2
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
40
De nuevo, se ofrece una versión simplificada para facilitar la comprensión:
C. Completo C. Entrenamiento (50%) C. Test (50%)
Ciudad D D PP D PP
P-M4 61,5 78,5 64 44,4 36
P-M5 35,6 40,7 57,4 30,4 42,6
P-M6 2,3 4,7 100 0 0
P-M7 1,7 3,5 100 0 0
T-M4 33,8 4,9 7,2 62,7 92,8
T-M5 3,4 2 28,6 4,9 71,4
S-M4 4,4 2,5 28,6 6,3 71,4
V-M4 17 8,8 25,9 25,1 74,1
V-M5 4,3 0,6 7,1 8 92,9
Tk-M5 47,3 17,1 18,1 77,4 81,9
N-M5 2 1 25 2,9 75
O-M5 3,8 6,1 81,8 1,4 18,2
De los 4 conjuntos de datos que quedaban inservibles en el Hold-out 66%-33%, se ha conseguido
aprovechar dos de ellos usando el Hold-out 50%-50%. Con respecto a los conjuntos de datos
correspondientes a Pichilemu M6 y Pichilemu M7, se ha estudiado en detalle la distribución de los casos
positivos dentro del conjunto. Estos casos positivos se dan en forma de ráfaga secuencial, es decir, se
dan todos de forma consecutiva, por lo que resulta imposible separar los conjuntos de tal manera que
haya casos positivos tanto en el conjunto de entrenamiento como en el de test. Por tanto, estos conjuntos
de datos quedan definitivamente inservibles.
Aprovechando que se ha hecho un análisis de los datos con dos Hold-out distintos, se realiza una
comparación entre ellos, conjunto a conjunto, para seleccionar el Hold-out que mejor se ajuste a cada
uno. En caso de que los indicadores no difieran mucho, se opta por el Hold-out 66%-33%, puesto que es
el más común. Para facilitar la comparación se añaden indicadores que muestran la diferencia, en valor
absoluto entre los indicadores de cada subconjunto y el valor ideal de dicho indicador. Cuanto menor sea
la diferencia, más se acerca el subconjunto a la distribución ideal de los casos positivos. Se sombrean de
verde los conjuntos escogidos tras haber realizado las comparaciones.
C. Completo C. Entrenamiento C. Test
Ciudad Hold-out D D Dif-D PP Dif-PP D Dif-D PP Dif-PP
P-M4 66%-33% 61,5 67,5 6 73 6,3 49,6 12 27 6,3
P-M4 50%-50% 61,5 78,5 17 64 14 44,4 17,1 36 14
P-M5 66%-33% 35,6 31,6 4 59 7,7 43,5 7,9 41 7,7
P-M5 50%-50% 35,6 40,7 5,1 57,4 7,4 30,4 5,2 42,6 7,4
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
41
C. Completo C. Entrenamiento C. Test
Ciudad Hold-out D D Dif-D PP Dif-PP D Dif-D PP Dif-PP
T-M4 66%-33% 33,8 20,6 13,2 40,6 26,1 60,3 26,5 59,4 26,1
T-M4 50%-50% 33,8 4,9 28,9 7,2 42,8 62,7 28,9 92,8 42,8
T-M5 66%-33% 3,4 5,1 1,7 100 33,3 0 3,4 0 33,3
T-M5 50%-50% 3,4 2 1,5 28,6 21,4 4,9 1,5 71,4 21,4
S-M4 66%-33% 4,4 2,8 1,6 42,9 23,8 7,5 3,1 57,1 23,8
S-M4 50%-50% 4,4 2,5 1,9 28,6 21,4 6,3 1,9 71,4 21,4
V-M4 66%-33% 17 10,1 6,8 39,8 26,9 30,6 13,6 60,2 26,9
V-M4 50%-50% 17 8,8 8,2 25,9 24,1 25,1 8,1 74,1 24,1
V-M5 66%-33% 4,3 1,1 3,2 16,7 50 10,7 6,4 83,3 50
V-M5 50%-50% 4,3 0,6 3,7 7,1 42,9 8 3,7 92,9 42,9
Tk-M5 66%-33% 47,3 36,3 10,9 51,6 15,1 69,6 22,3 48,4 15,1
Tk-M5 50%-50% 47,3 17,1 30,1 18,1 31,9 77,4 30,1 81,9 31,9
N-M5 66%-33% 2 1,8 0,1 62,5 4,2 2,2 0,2 37,5 4,2
N-M5 50%-50% 2 1 1 25 25 2,9 1 75 25
O-M5 66%-33% 3,8 5,6 1,9 100 33,3 0 3,8 0 33,3
O-M5 50%-50% 3,8 6,1 2,4 81,8 31,8 1,4 2,4 18,2 31,8
Tras la elección de los conjuntos, se muestra una tabla resumen con los conjuntos usados en el estudio,
la técnica de evaluación usada en cada uno de ellos y si son desbalanceados (azul) o no (naranja):
M4 M5 M6 M7
Pichilemu 66%-33% 66%-33% Santiago 66%-33%
Talca 66%-33% 50%-50% Valparaíso 66%-33% 66%-33% Tokyo
66%-33%
Nagoya
66%-33% Osaka
50%-50%
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
42
Se dispone, por tanto, de 10 conjuntos de datos para realizar el estudio. En 8 de ellos se hace uso del
Hold-out 66%-33%, y en los 2 restantes se usa el Hold-out 50%-50%. De los 10 conjuntos, 4 están
balanceados y 6 desbalanceados.
Una vez definidos los conjuntos y las técnicas que se van a usar para la fase de evaluación, se procede a
describir el proceso a partir del cual se obtienen los resultados del estudio.
En primer lugar, han de evaluarse los modelos obtenidos tras realizar, para cada conjunto de datos, los
504 experimentos que resultan de combinar los 24 algoritmos de clasificación con los 20 algoritmos de
preprocesado. Para ello se hace uso del Área Bajo la Curva ROC (AUC), que como ya se comentó en el
apartado Estado del Arte, es un indicador que no está sesgado en contra de la clase minoritaria (la clase
positiva) que es la que denota interés en este estudio. A partir de este indicador, se realizan dos tareas
distintas: por un lado, se seleccionan las mejores combinaciones individuales de cada conjunto de datos
para un posterior estudio, más exhaustivo; por otro lado, se hace uso de un test estadístico no
paramétrico de ranking, el cual va a permitir conocer la combinación que mejor comportamiento global
tiene (es decir, la combinación que, de media, se comporta mejor en todos los conjuntos de datos).
Para la evaluación de los mejores individuales, se construye la matriz de confusión de cada uno de ellos.
En la matriz de confusión intervienen los indicadores Verdaderos Positivos (VP), Falsos Positivos (FP),
Verdaderos Negativos (VN) y Falsos Negativos (FN), ya explicados en el apartado correspondiente al
Estado del Arte. A partir de los indicadores anteriores, se obtienen los indicadores de Sensibilidad (S),
Especificidad (E), Valor Predictivo Positivo (VPP) y Valor Predictivo Negativo (VPN), también explicados
en el apartado mencionado anteriormente. Además, se va a añadir un nuevo indicador, denominado
General (GRAL.), que se obtiene a partir de la media aritmética de los cuatro indicadores anteriores. Se
utiliza para una visión global del indicador. A continuación se muestra un ejemplo de evaluación de varios
modelos del conjunto Santiago M4:
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
43
Preprocesado Clasificador TP FP TN FN S E VPP VPN AUC GRAL.
SMOTE NNCS 12 57 91 0 1 0,61 0,17 1 0,81 0,70
OSS OverBagging 8 23 125 4 0,67 0,84 0,26 0,97 0,76 0,68
SMOTE_TL NNCS 10 51 97 2 0,83 0,66 0,16 0,98 0,74 0,66
Safe Level NNCS 11 67 81 1 0,92 0,55 0,14 0,99 0,73 0,65
Para la evaluación del mejor global, se hace uso del test de Friedman, que como ya se ha comentado
antes, es un test no paramétrico de ranking. Este test tiene como parámetro de entrada una tabla, en
cuyas filas se sitúan todos los conjuntos de datos que han intervenido, y en cuyas columnas se
encuentran todas las combinaciones algorítmicas existentes. A continuación se muestra un ejemplo
genérico:
M01 M02 . . . M0N M11 M12 . . . M1N . . . MNN
CD1 AUC 1-01
AUC 1-02
. . . AUC 1-
0N AUC 1-11
AUC 1-12
. . . AUC 1-
1N . . .
AUC 1-NN
CD2 AUC 2-01
AUC 2-02
. . . AUC 2-
0N AUC 2-11
AUC 2-12
. . . AUC 2-
1N . . .
AUC 2-NN
.
.
.
.
.
.
.
.
.
. . . . .
.
.
.
.
.
.
.
.
.
. . . . .
.
.
.
. . . .
.
.
.
.
CDN AUC N-01
AUC N-02
. . . AUC N-0N
AUC N-11
AUC N-12
. . . AUC N-1N
. . . AUC N-NN
El test devuelve la posición promedio en el ranking de cada clasificador, además de otros indicadores
tales como el valor medio, la desviación típica, y los valores mínimo y máximo que el clasificador alcanza.
Con estos indicadores se pueden conocer aquellos clasificadores que mejores resultados globales
poseen. Se muestra un ejemplo de los resultados de un test de Friedman:
Clasificador N Media Desviación
estándar Mínimo Máximo Rango promedio
Ninguno-AdaBoostM1 10 60,73 17,21 35,59 99,31 200,90
CNNTL-EasyEnsemble 10 60,33 7,56 46,72 70,40 198,40
CPM-C45CS 10 60,94 16,49 31,22 90,40 196,45
SPIDER2-C45CS 10 59,87 16,08 43,28 98,26 195,15
TL-SMOTEBoost 10 59,68 16,41 44,92 99,31 194,55
NCL-OverBagging 10 60,38 13,15 45,15 87,88 191,50
CNN-BalanceCascade 10 58,21 10,36 40,67 71,21 191,05
ADASYN-C45CS 10 62,26 18,54 39,55 89,93 190,45
ROS-OverBagging2 10 59,41 16,63 44,24 99,65 189,90
SPIDER-AdaBoostM1 10 59,11 16,04 43,92 98,96 189,15
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
44
Una vez realizadas estas dos tareas, se da paso a la construcción y evaluación de los ensembles. De
manera análoga a lo realizado anteriormente, se lleva a cabo una evaluación de los mejores ensembles
individuales y una evaluación de los mejores ensembles globales. Cabe recordar que este proceso de
construcción y evaluación de los ensembles se realiza de forma iterativa hasta encontrar aquellos
ensembles que cumplan las expectativas que se tengan como objetivo.
En esta ocasión, la evaluación de los ensembles individuales y globales se lleva a cabo de la misma
forma: construyendo la matriz de confusión y obteniendo los posteriores indicadores a partir de ésta. La
diferencia radica en que para escoger los mejores ensembles de una iteración concreta, los mejores
individuales se escogen manualmente, mientras que para escoger los mejores globales se realiza de
nuevo un test de Friedman, que devuelve los mejores ensembles globales en esa iteración concreta.
Una vez finalizado el proceso iterativo se da por concluida la etapa de evaluación.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
45
Así pues, la metaheurística completa desarrollada es la que se muestra a continuación:
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
46
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
47
5. Resultados
Tras finalizar la etapa de evaluación, se valoran los resultados de todos los experimentos y ensembles
realizados. En primer lugar se van a describir brevemente los resultados y errores de la fase inicial que
fue desechada; posteriormente, se explicará en detalle toda la fase definitiva. Esta última fase, debido a
su extensión, se va a dividir en dos apartados principales: los resultados de los clasificadores individuales
y los resultados de los clasificadores globales. Dentro de cada apartado se explicarán uno a uno los
resultados de cada conjunto de datos, el cual se dividirá de nuevo en dos subapartados: los resultados de
los clasificadores simples y los resultados de los ensembles.
Con respecto a la fase inicial, como se explicó en el apartado anterior, se realizó una experimentación de
los 4 conjuntos pertenecientes a las diferentes magnitudes de la ciudad de Pichilemu.
Se hizo, para cada conjunto de datos, una media aritmética de todos los resultados obtenidos que, como
se comentó en el apartado anterior, están medidos con el indicador Área Bajo la Curva ROC (AUC),
agrupándolos por algoritmo de preprocesado y por algoritmo de clasificación. Se muestran las gráficas
para el conjunto de datos Pichulemu M7:
Destacó en sobremanera el resultado del algoritmo de preprocesado ADASYN, el cual tenía un AUC
medio de más de 0,95. Se seleccionaron las mejores combinaciones que poseía este algoritmo y se hizo
un análisis más detallado de dichos clasificadores. Al haber realizado la experimentación usando una
0,50
0,60
0,70
0,80
0,90
1,00
0,70 0,72 0,74 0,76 0,78 0,80 0,82 0,84
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
48
validación cruzada con k=5, por cada experimento había un total de 5 ejecuciones, por lo que había que
calcular 5 matrices de confusión por cada uno de ellos. Se muestran los análisis de algunos de estos
clasificadores:
AdaBoost TP FP TN FN S E VPP VPN AUC
Ejecución 1 1 0 67 1 1 0,9853 1 0,9853 0,9926
Ejecución 2 1 0 68 0 1 1 1 1 1
Ejecución 3 2 0 65 2 1 0,9701 1 0,9701 0,9851
Ejecución 4 1 0 67 0 1 1 1 1 1
Ejecución 5 1 0 67 0 1 1 1 1 1
Promedio
1 0,9911 1 0,9911 0,9955
Bagging TP FP TN FN S E VPP VPN AUC
Ejecución 1 1 0 68 0 1 1 1 1 1
Ejecución 2 1 0 68 0 1 1 1 1 1
Ejecución 3 2 0 65 2 1 0,9701 1 0,9701 0,9851
Ejecución 4 1 0 66 1 1 0,9851 1 0,9851 0,9925
Ejecución 5 1 0 67 0 1 1 1 1 1
Promedio
1 0,9910 1 0,9910 0,9955
UnderBagging TP FP TN FN S E VPP VPN AUC
Ejecución 1 1 0 67 1 1 0,9853 1 0,9853 0,9926
Ejecución 2 1 0 68 0 1 1 1 1 1,0000
Ejecución 3 2 0 66 1 1 0,9851 1 0,9851 0,9925
Ejecución 4 1 0 66 1 1 0,9851 1 0,9851 0,9925
Ejecución 5 1 0 67 0 1 1 1 1 1
Promedio
1 0,9911 1 0,9911 0,9955
Como se observa, los resultados son casi perfectos. Esto dio pie a sospechas de que algo no se estaba
haciendo bien. Es por ello que se analizó la forma en que Keel realizó los experimentos. Como ya se
comentó anteriormente, Keel hizo uso de la estratificación para la generación de los 5 subconjuntos, por
lo que los datos no estaban repartidos de forma secuencial. Los datos de este estudio se encuentran
ordenados cronológicamente, ya que es una serie temporal. Dichos datos van variando paulatinamente a
lo largo de la serie, por lo que los datos que se encuentran en posiciones consecutivas son muy similares
entre ellos. Cuando los datos se reparten entre los subconjuntos de forma no secuencial, ocurre que, en
cada experimento, el conjunto de test siempre tiene casos muy parecidos a los del conjunto de
entrenamiento. Esto produce un efecto similar a cuando entrenamos y evaluamos un modelo con un
mismo conjunto de datos, en el que los resultados de la evaluación siempre son perfectos, debido a que
el modelo predictivo realmente no realiza predicciones, sino que “se copia” de los casos del conjunto de
entrenamiento. En este caso, como los datos no son iguales sino muy parecidos, los resultados no son
perfectos sino casi perfectos. Desgraciadamente, estos resultados no son realistas, por lo que esta
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
49
experimentación queda inservible. Eso sí, el error detectado ha permitido la realización del estudio
completo en la fase definitiva sin caer en el mismo.
En esta fase definitiva, en la que se han ejecutado todos los experimentos que existían, 5040 en total, hay
que señalar que algunos de estos experimentos no se han ejecutado correctamente, generando un error
en la herramienta Keel. En concreto, los algoritmos de preprocesado SMOTE ENN, SMOTE RSB y SBC,
y los algoritmos de clasificación C SVMCS y DataBoost-IM no se han ejecutado bien nunca. Además,
otros algoritmos, como los de clasificación MSMOTEBagging, MSMOTEBoost o IIVotes, entre otros, han
dado error en algunas ocasiones. En definitiva, en el proceso de experimentación han intervenido
realmente 17 algoritmos de preprocesado y 22 algoritmos de clasificación, generando alrededor de 320
experimentos por cada uno de los diez conjunto de datos, lo que hace un total de 3200 experimentos,
aproximadamente.
Como se señaló anteriormente, debido a su extensión, esta fase se divide en dos grandes apartados: los
resultados de los mejores clasificadores individuales y los resultados de los mejores clasificadores
globales.
5.1. Mejores Clasificadores Individuales
5.1.1. Pichilemu M4
5.1.1.1. Clasificadores Simples
En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:
0,0000
0,1000
0,2000
0,3000
0,4000
0,5000
0,6000
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
50
Se observa que, en general, todos los algoritmos están cerca de 0,5, (el peor resultado posible en AUC,
pues evidencia falta de capacidad discriminatoria) exceptuando el algoritmo NNCS, que posee un valor
de 0,5843.
Se escogen aquellas combinaciones que mejores resultados presentan:
Preprocesado Clasificador AUC
ADASYN NNCS 0,7114
OSS NNCS 0,6951
SMOTE_TL NNCS 0,6933
CNN NNCS 0,6588
ADOMS NNCS 0,6335
Se construyen las matrices de confusión:
Preprocesado Clasificador TP FP TN FN
ADASYN NNCS 30 6 52 27
OSS NNCS 36 14 44 21
SMOTE_TL NNCS 24 2 56 33
CNN NNCS 24 6 52 33
ADOMS NNCS 28 13 45 29
0,0000
0,1000
0,2000
0,3000
0,4000
0,5000
0,6000
0,7000
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
51
Y se calculan los indicadores:
Preprocesado Clasificador S E VPP VPN GRAL.
ADASYN NNCS 0,5263 0,8966 0,8333 0,6582 0,7286
OSS NNCS 0,6316 0,7586 0,7200 0,6769 0,6968
SMOTE_TL NNCS 0,4211 0,9655 0,9231 0,6292 0,7347
CNN NNCS 0,4211 0,8966 0,8000 0,6118 0,6823
ADOMS NNCS 0,4912 0,7759 0,6829 0,6081 0,6395
Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general:
Preprocesado Clasificador S E VPP VPN GRAL.
SMOTE_TL NNCS 0,4211 0,9655 0,9231 0,6292 0,7347
5.1.1.2. Ensembles
Se numeran los algoritmos que intervienen en los ensembles:
Preprocesado Clasificador Nº
ADASYN NNCS 1
OSS NNCS 2
SMOTE_TL NNCS 3
CNN NNCS 4
ADOMS NNCS 5
Se realizan las intersecciones y se calculan las matrices de confusión y los indicadores de cada una de
ellas:
Intersección TP FP TN FN S E VPP VPN GRAL.
1,2 30 4 61 20 0,6000 0,9385 0,8824 0,7531 0,7935
1,3 22 2 63 28 0,4400 0,9692 0,9167 0,6923 0,7546
1,4 22 1 64 28 0,4400 0,9846 0,9565 0,6957 0,7692
1,5 27 6 59 23 0,5400 0,9077 0,8182 0,7195 0,7463
2,3 24 1 64 26 0,4800 0,9846 0,9600 0,7111 0,7839
2,4 23 2 63 27 0,4600 0,9692 0,9200 0,7000 0,7623
2,5 28 9 56 22 0,5600 0,8615 0,7568 0,7179 0,7241
3,4 23 0 65 27 0,4600 1,0000 1,0000 0,7065 0,7916
3,5 21 2 63 29 0,4200 0,9692 0,9130 0,6848 0,7468
4,5 21 2 63 29 0,4200 0,9692 0,9130 0,6848 0,7468
1,2,3 22 1 64 28 0,4400 0,9846 0,9565 0,6957 0,7692
1,2,4 22 1 64 28 0,4400 0,9846 0,9565 0,6957 0,7692
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
52
Intersección TP FP TN FN S E VPP VPN GRAL.
1,2,5 27 4 61 23 0,5400 0,9385 0,8710 0,7262 0,7689
2,3,4 23 0 65 27 0,4600 1,0000 1,0000 0,7065 0,7916
2,3,5 21 1 64 29 0,4200 0,9846 0,9545 0,6882 0,7618
3,4,5 21 0 65 29 0,4200 1,0000 1,0000 0,6915 0,7779
Se seleccionan los ensembles con mejor VPP y mejor promedio general:
Intersección S E VPP VPN GRAL.
Mejor Gral. 1,2 0,6000 0,9385 0,8824 0,7531 0,7935
Mejor VPP 3,4 0,4600 1,0000 1,0000 0,7065 0,7916
5.1.1.3 Mejor clasificador individual
Se comparan los mejores clasificadores simples con los mejores ensembles:
Mejor General S E VPP VPN GRAL.
SMOTE_TL - NNCS 0,4211 0,9655 0,9231 0,6292 0,7347
1,2 0,6000 0,9385 0,8824 0,7531 0,7935
Mejora Ensemble 0,1789 -0,0271 -0,0407 0,1239 0,0588
Mejor VPP S E VPP VPN GRAL.
SMOTE_TL - NNCS 0,4211 0,9655 0,9231 0,6292 0,7347
3,4 0,4600 1,0000 1,0000 0,7065 0,7916
Mejora Ensemble 0,0389 0,0345 0,0769 0,0773 0,0569
El ensemble de los clasificadores 3 y 4 (SMOTE TL - NNCS + CNN - NNCS) mejora en todos los
aspectos al mejor clasificador simple (SMOTE TL - NNCS). Por tanto, para el conjunto de datos Pichilemu
M4, el mejor clasificador que se ha encontrado es el ensemble “SMOTE TL - NNCS + CNN - NNCS”:
Clasificador S E VPP VPN GRAL.
SMOTE TL - NNCS + CNN - NNCS
0,46 1 1 0,7065 0,7916
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
53
5.1.2. Pichilemu M5
5.1.2.1. Clasificadores Simples
En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:
Se observa una gran variabilidad del valor promedio entre algoritmos, destacando el algoritmo de
preprocesado ADASYN, con un valor de 0,63.
Se escogen aquellas combinaciones que mejores resultados presentan:
0,4800
0,5000
0,5200
0,5400
0,5600
0,5800
0,6000
0,6200
0,6400
0,5400
0,5500
0,5600
0,5700
0,5800
0,5900
0,6000
0,6100
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
54
Preprocesado Clasificador AUC
ADASYN C45CS 0,7692
SPIDER BalanceCascade 0,7631
ADOMS NNCS 0,7423
OSS Bagging 0,7215
CPM UnderBagging 0,6954
Se construyen las matrices de confusión:
Preprocesado Clasificador TP FP TN FN
ADASYN C45CS 30 4 61 20
SPIDER BalanceCascade 34 10 55 16
ADOMS NNCS 25 1 64 25
OSS Bagging 26 5 60 24
CPM UnderBagging 28 11 54 22
Y se calculan los indicadores:
Preprocesado Clasificador S E VPP VPN GRAL.
ADASYN C45CS 0,6 0,9385 0,8824 0,7531 0,7935
SPIDER BalanceCascade 0,68 0,8462 0,7727 0,7746 0,7684
ADOMS NNCS 0,5 0,9846 0,9615 0,7191 0,7913
OSS Bagging 0,52 0,9231 0,8387 0,7143 0,7490
CPM UnderBagging 0,56 0,8308 0,7179 0,7105 0,7048
Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general.
Preprocesado Clasificador S E VPP VPN GRAL.
Mejor GRAL. ADASYN C45CS 0,6 0,9385 0,8824 0,7531 0,7935
Mejor VPP ADOMS NNCS 0,5 0,9846 0,9615 0,7191 0,7913
5.1.2.2. Ensembles
Se enumeran los algoritmos que intervienen en los ensembles:
Preprocesado Clasificador Nº
ADASYN C45CS 1
SPIDER BalanceCascade 2
ADOMS NNCS 6
OSS Bagging 5
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
55
Preprocesado Clasificador Nº
CPM UnderBagging 4
Se realizan las intersecciones y se calculan las matrices de confusión y los indicadores de cada una de
ellas:
Intersección TP FP TN FN S E VPP VPN GRAL.
1,2 27 0 65 23 0,54 1 1 0,7386 0,8197
1,3 20 0 65 30 0,4 1 1 0,6842 0,7711
1,4 20 0 65 30 0,4 1 1 0,6842 0,7711
1,5 20 1 64 30 0,4 0,9846 0,9524 0,6809 0,7545
1,6 23 0 65 27 0,46 1 1 0,7065 0,7916
2,3 22 7 58 28 0,44 0,8923 0,7586 0,6744 0,6913
2,4 23 7 58 27 0,46 0,8923 0,7667 0,6824 0,7003
2,5 20 3 62 30 0,4 0,9538 0,8696 0,6739 0,7243
2,6 22 0 65 28 0,44 1 1 0,6989 0,7847
3,4 21 7 58 29 0,42 0,8923 0,75 0,6667 0,6822
3,5 18 3 62 32 0,36 0,9538 0,8571 0,6596 0,7076
3,6 19 0 65 31 0,38 1 1 0,6771 0,7643
4,5 19 3 62 31 0,38 0,9538 0,8636 0,6667 0,7160
4,6 19 0 65 31 0,38 1 1 0,6771 0,7643
5,6 18 0 65 32 0,36 1 1 0,6701 0,7575
Se seleccionan los ensembles con mejor VPP y mejor promedio general:
Intersección S E VPP VPN GRAL.
Mejor Ambos 1,2 0,54 1 1 0,7386 0,8197
5.1.2.3. Mejor clasificador individual
Se comparan los mejores clasificadores simples con los mejores ensembles:
Mejor GRAL. S E VPP VPN GRAL.
ADASYN - C45CS 0,6 0,9385 0,8824 0,7531 0,7935
1,2 0,54 1,0000 1,0000 0,7386 0,8197
Mejora Ensemble -0,06 0,0615 0,1176 -0,0145 0,0262
Mejor VPP S E VPP VPN GRAL.
ADOMS - NNCS 0,5 0,9846 0,9615 0,7191 0,7913
1,2 0,54 1,0000 1,0000 0,7386 0,8197
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
56
Mejor VPP S E VPP VPN GRAL.
Mejora Ensemble 0,04 0,0154 0,0385 0,0195 0,0283
El ensemble de los clasificadores 1 y 2 (ADASYN - C45CS + SPIDER - BalanceCascade) mejora, en
general, a los mejores clasificadores simples (ADASYN - C45CS y ADOMS - NNCS). Por tanto, para el
conjunto de datos Pichilemu M5, el mejor clasificador que se ha encontrado es el ensemble “ADASYN -
C45CS + SPIDER - BalanceCascade”:
Clasificador S E VPP VPN GRAL.
ADASYN - C45CS + SPIDER - BalanceCascade
0,54 1 1 0,7386 0,8197
5.1.3. Santiago M4
5.1.3.1. Clasificadores Simples
En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:
0,0000
0,1000
0,2000
0,3000
0,4000
0,5000
0,6000
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
57
Se observa que, en general, todos los algoritmos están cerca de 0,5, (el peor resultado posible en AUC,
pues evidencia falta de capacidad discriminatoria), destacando el algoritmo de preprocesado OSS, con un
valor de 0,57.
Se escogen aquellas combinaciones que mejores resultados presentan:
Preprocesado Clasificador AUC
SMOTE NNCS 0,8074
OSS OverBagging 0,7556
SMOTE_TL NNCS 0,7444
Safe Level NNCS 0,7320
OSS OverBagging2 0,7218
OSS UnderOverBagging 0,7151
Ninguno NNCS 0,6926
CPM OverBagging2 0,6779
SPIDER2 UnderBagging 0,6734
Ninguno BalanceCascade 0,6588
AHC EasyEnsemble 0,6486
Se construyen las matrices de confusión:
Preprocesado Clasificador TP FP TN FN
SMOTE NNCS 12 57 91 0
OSS OverBagging 8 23 125 4
SMOTE_TL NNCS 10 51 97 2
Safe Level NNCS 11 67 81 1
OSS OverBagging2 8 33 115 4
OSS UnderOverBagging 8 35 113 4
0,4600
0,4700
0,4800
0,4900
0,5000
0,5100
0,5200
0,5300
0,5400
0,5500
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
58
Preprocesado Clasificador TP FP TN FN
Ninguno NNCS 12 91 57 0
CPM OverBagging2 8 46 102 4
SPIDER2 UnderBagging 7 35 113 5
Ninguno BalanceCascade 9 64 84 3
AHC EasyEnsemble 6 30 118 6
Y se calculan los indicadores:
Preprocesado Clasificador S E VPP VPN GRAL.
SMOTE NNCS 1,0000 0,6149 0,1739 1,0000 0,6972
OSS OverBagging 0,6667 0,8446 0,2581 0,9690 0,6846
SMOTE_TL NNCS 0,8333 0,6554 0,1639 0,9798 0,6581
Safe Level NNCS 0,9167 0,5473 0,1410 0,9878 0,6482
OSS OverBagging2 0,6667 0,7770 0,1951 0,9664 0,6513
OSS UnderOverBagging 0,6667 0,7635 0,1860 0,9658 0,6455
Ninguno NNCS 1,0000 0,3851 0,1165 1,0000 0,6254
CPM OverBagging2 0,6667 0,6892 0,1481 0,9623 0,6166
SPIDER2 UnderBagging 0,5833 0,7635 0,1667 0,9576 0,6178
Ninguno BalanceCascade 0,7500 0,5676 0,1233 0,9655 0,6016
AHC EasyEnsemble 0,5000 0,7973 0,1667 0,9516 0,6039
Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general:
Preprocesado Clasificador S E VPP VPN GRAL.
Mejor GRAL. SMOTE NNCS 1,0000 0,6149 0,1739 1,0000 0,6972
Mejor VPP OSS OverBagging 0,6667 0,8446 0,2581 0,9690 0,6846
5.1.3.2. Ensembles
Se enumeran los algoritmos que intervienen en los ensembles:
Preprocesado Clasificador Nº
SMOTE NNCS 1
OSS OverBagging 2
SMOTE_TL NNCS 3
Safe Level NNCS 4
OSS OverBagging2 5
OSS UnderOverBagging 6
Ninguno NNCS 7
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
59
Preprocesado Clasificador Nº
CPM OverBagging2 8
SPIDER2 UnderBagging 9
Ninguno BalanceCascade 10
AHC EasyEnsemble 11
Se realizan las intersecciones y se calculan las matrices de confusión y los indicadores de cada una de
ellas:
Intersección TP FP TN FN S E VPP VPN GRAL.
1,7 12 45 103 0 1,0000 0,6959 0,2105 1,0000 0,6355
1,7,4 11 32 116 1 0,9167 0,7838 0,2558 0,9915 0,6521
1,7,4,10 10 38 110 2 0,8333 0,7432 0,2083 0,9821 0,5950
1,7,3 9 31 117 3 0,7500 0,7905 0,2250 0,9750 0,5885
1,7,4,3 9 15 133 3 0,7500 0,8986 0,3750 0,9779 0,6745
2,5 8 21 127 4 0,6667 0,8581 0,2759 0,9695 0,6002
2,6 8 22 126 4 0,6667 0,8514 0,2667 0,9692 0,5949
2,8 6 18 130 6 0,5000 0,8784 0,2500 0,9559 0,5428
5,6 8 27 121 4 0,6667 0,8176 0,2286 0,9680 0,5709
2,5,6 8 21 127 4 0,6667 0,8581 0,2759 0,9695 0,6002
1,7,4,2,5 8 9 139 4 0,6667 0,9392 0,4706 0,9720 0,6921
1,7,4,10,2,5 7 7 141 5 0,5833 0,9527 0,5000 0,9658 0,6787
1,7,4,10,9 6 6 142 6 0,5000 0,9595 0,5000 0,9595 0,6532
1,7,4,2,5,9 6 4 144 6 0,5000 0,9730 0,6000 0,9600 0,6910
1,7,4,10,2,5,9 5 3 145 7 0,4167 0,9797 0,6250 0,9539 0,6738
9,11 6 5 143 6 0,5000 0,9662 0,5455 0,9597 0,6706
1,7,4,10,11 6 6 142 6 0,5000 0,9595 0,5000 0,9595 0,6532
1,7,4,2,5,11 6 4 144 6 0,5000 0,9730 0,6000 0,9600 0,6910
1,7,4,10,2,5,11 5 3 145 7 0,4167 0,9797 0,6250 0,9539 0,6738
1,7,4,10,9,11 6 2 146 6 0,5000 0,9865 0,7500 0,9605 0,7455
1,7,4,2,5,9,11 5 2 146 7 0,4167 0,9865 0,7143 0,9542 0,7058
1,7,4,10,2,5,9,11 5 2 146 7 0,4167 0,9865 0,7143 0,9542 0,7058
10,2,5 7 14 134 5 0,5833 0,9054 0,3333 0,9640 0,6074
2,5,9,11 5 2 146 7 0,4167 0,9865 0,7143 0,9542 0,7058
10,2,5,9,11 5 2 146 7 0,4167 0,9865 0,7143 0,9542 0,7058
10,9,11 5 3 145 7 0,4167 0,9797 0,6250 0,9539 0,6738
1,7,9,11 6 3 145 6 0,5000 0,9797 0,6667 0,9603 0,7155
1,7,4,9,11 6 3 145 6 0,5000 0,9797 0,6667 0,9603 0,7155
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
60
Se seleccionan los ensembles con mejor VPP y mejor promedio general:
Intersección S E VPP VPN GRAL.
Mejor Ambos 1,7,4,10,9,11 0,5000 0,9865 0,7500 0,9605 0,7455
5.1.3.3. Mejor clasificador individual
Se comparan los mejores clasificadores simples con los mejores ensembles:
Mejor GRAL. S E VPP VPN GRAL.
SMOTE - NNCS 1,0000 0,6149 0,1739 1,0000 0,6972
1,7,4,10,9,11 0,5000 0,9865 0,7500 0,9605 0,7455
Mejora Ensemble -0,5000 0,3716 0,5761 -0,0395 0,0483
Mejor VPP S E VPP VPN GRAL.
OSS - OverBagging 0,6667 0,8446 0,2581 0,9690 0,6846
1,7,4,10,9,11 0,5000 0,9865 0,7500 0,9605 0,7455
Mejora Ensemble -0,1667 0,1419 0,4919 -0,0085 0,0609
El ensemble de los clasificadores 1,4,7,9,10 y 11 (SMOTE - NNCS + Safe Level SMOTE - NNCS + NNCS
+ SPIDER2 - UnderBagging + BalanceCascade + AHC - EasyEnsemble ) llega a triplicar el VPP del mejor
simple, eso sí, a costa de una disminución de la sensibilidad. Aun así, el ensemble presenta un mejor
indicador General. Por tanto, para el conjunto de datos Santiago M4, el mejor clasificador que se ha
encontrado es el ensemble “SMOTE - NNCS + Safe Level SMOTE - NNCS + NNCS + SPIDER2 -
UnderBagging + BalanceCascade + AHC - EasyEnsemble”:
Clasificador S E VPP VPN GRAL.
SMOTE - NNCS + Safe Level SMOTE - NNCS + NNCS + SPIDER2 - UnderBagging + BalanceCascade + AHC - EasyEnsemble
0,5000 0,9865 0,7500 0,9605 0,7455
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
61
5.1.4. Talca M4
5.1.4.1. Clasificadores Simples
En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:
Se observa una gran variabilidad del valor promedio entre algoritmos de preprocesado, no así en los de
clasificación, que se acercan en general a 0,5. No destaca ningún algoritmo en sobremanera.
Se escogen aquellas combinaciones que mejores resultados presentan:
0,4200
0,4400
0,4600
0,4800
0,5000
0,5200
0,5400
0,5600
0,5800
0,0000
0,1000
0,2000
0,3000
0,4000
0,5000
0,6000
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
62
Preprocesado Clasificador AUC
SMOTE BalanceCascade 0,8333
SMOTE C45CS 0,6635
Se construyen las matrices de confusión:
Preprocesado Clasificador TP FP TN FN
SMOTE BalanceCascade 41 9 18 0
SMOTE C45CS 21 5 22 20
Y se calculan los indicadores:
Preprocesado Clasificador S E VPP VPN AUC
SMOTE BalanceCascade 1,0000 0,6667 0,8200 1,0000 0,8717
SMOTE C45CS 0,5122 0,8148 0,8077 0,5238 0,6646
Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general:
Preprocesado Clasificador S E VPP VPN GRAL.
Mejor Ambos SMOTE BalanceCascade 1,0000 0,6667 0,8200 1,0000 0,8717
5.1.4.2. Ensembles
Se enumeran los algoritmos que intervienen en los ensembles:
Preprocesado Clasificador Nº
SMOTE BalanceCascade 1
SMOTE C45CS 2
Se realizan las intersecciones y se calculan las matrices de confusión y los indicadores de cada una de
ellas:
Intersección TP FP TN FN S E VPP VPN GRAL.
1,2 21 2 25 20 0,5122 0,9259 0,9130 0,5556 0,7267
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
63
Se seleccionan los ensembles con mejor VPP y mejor promedio general:
Intersección S E VPP VPN GRAL.
Mejor Ambos 1,2 0,5122 0,9259 0,9130 0,5556 0,7267
5.1.4.3. Mejor clasificador individual
Se comparan los mejores clasificadores simples con los mejores ensembles:
Mejor Ambos S E VPP VPN GRAL.
SMOTE - BalanceCascade 1 0,6667 0,82 1 0,8717
1,2 0,5122 0,9259 0,9130 0,5556 0,7267
Mejora Ensemble -0,4878 0,2593 0,0930 -0,4444 -0,1450
El ensemble de los clasificadores 1,2 (SMOTE - BalanceCascade + SMOTE - C45CS), aunque mejora el
VPP del mejor simple, en términos generales es peor que éste. Por tanto, para el conjunto de datos Talca
M4, el mejor clasificador que se ha encontrado es la combinación simple “SMOTE - BalanceCascade”:
Clasificador S E VPP VPN GRAL.
SMOTE - BalanceCascade 1 0,6667 0,82 1 0,8717
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
64
5.1.5. Talca M5
5.1.5.1. Clasificadores Simples
En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:
Se observa una gran variabilidad del valor promedio entre algoritmos de clasificación, no así en los de
preprocesado, que se acercan en general a 0,6. Destaca el algoritmo de preprocesado ADASYN, con un
valor de 0,77.
Se escogen aquellas combinaciones que mejores resultados presentan:
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
65
Preprocesado Clasificador AUC
ADASYN NNCS 0,9646
CPM C45CS 0,9040
ADASYN UnderOverBagging 0,8838
SPIDER2 NNCS 0,8242
CPM NNCS 0,8091
Se construyen las matrices de confusión:
Preprocesado Clasificador TP FP TN FN
ADASYN NNCS 5 7 92 0
CPM C45CS 5 19 80 0
ADASYN UnderOverBagging 5 23 76 0
SPIDER2 NNCS 4 15 84 1
CPM NNCS 4 18 81 1
Y se calculan los indicadores:
Preprocesado Clasificador S E VPP VPN GRAL.
ADASYN NNCS 1 0,9293 0,4167 1,0000 0,8365
CPM C45CS 1 0,8081 0,2083 1,0000 0,7541
ADASYN UnderOverBagging 1 0,7677 0,1786 1,0000 0,7366
SPIDER2 NNCS 0,8 0,8485 0,2105 0,9882 0,7118
CPM NNCS 0,8 0,8182 0,1818 0,9878 0,6970
Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general:
Preprocesado Clasificador S E VPP VPN GRAL.
Mejor Ambos ADASYN NNCS 1 0,9293 0,4167 1 0,8365
5.1.5.2. Ensembles
Se enumeran los algoritmos que intervienen en los ensembles:
Preprocesado Clasificador Nº
ADASYN NNCS 1
CPM C45CS 2
ADASYN UnderOverBagging 3
SPIDER2 NNCS 4
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
66
Preprocesado Clasificador Nº
CPM NNCS 5
Se realizan las intersecciones y se calculan las matrices de confusión y los indicadores de cada una de
ellas:
Intersección TP FP TN FN S E VPP VPN GRAL.
1,2 5 0 99 0 1 1 1 1 1
1,3 5 7 92 0 1 0,9293 0,4167 1 0,7820
1,4 4 4 95 1 0,8 0,9596 0,5000 0,9896 0,7532
1,5 4 5 94 1 0,8 0,9495 0,4444 0,9895 0,7313
2,3 5 0 99 0 1 1 1 1 1
2,4 4 2 97 1 0,8 0,9798 0,6667 0,9898 0,8155
2,5 4 4 95 1 0,8 0,9596 0,5000 0,9896 0,7532
3,4 4 9 90 1 0,8 0,9091 0,3077 0,9890 0,6723
3,5 4 13 86 1 0,8 0,8687 0,2353 0,9885 0,6347
4,5 3 10 89 2 0,6 0,8990 0,2308 0,9780 0,5766
Se seleccionan los ensembles con mejor VPP y mejor promedio general:
Intersección S E VPP VPN GRAL.
Mejor Ambos 1,2 / 2,3 1 1 1 1 1
5.1.5.3. Mejor clasificador individual
Se comparan los mejores clasificadores simples con los mejores ensembles:
Mejor Ambos S E VPP VPN GRAL.
ADASYN - NNCS 1 0,9293 0,4167 1 0,8365
1,2 / 2,3 1 1 1 1 1
Mejora Ensemble 0 0,0707 0,5833 0 0,1635
El ensemble de los clasificadores 1 y 2 (ADASYN - NNCS + CPM - C45CS) o 3 y 4 (CPM - C45CS +
ADASYN - UnderOverBagging), tienen unos resultados perfectos, por lo que mejora, como es obvio, en
todos los aspectos al mejor clasificador simple. Por tanto el mejor clasificador que se ha encontrado son
los ensembles 1 y 2 (ADASYN - NNCS + CPM - C45CS) y 3 y 4 (CPM - C45CS + ADASYN -
UnderOverBagging):
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
67
Clasificador S E VPP VPN GRAL.
ADASYN - NNCS + CPM - C45CS / CPM - C45CS + ADASYN - UnderOverBagging
1 1 1 1 1
5.1.6. Valparaíso M4
5.1.6.1. Clasificadores Simples
En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:
0,56
0,58
0,6
0,62
0,64
0,66
0,68
0,7
0,72
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
68
Se observa una gran variabilidad del valor promedio entre algoritmos de preprocesado, no así en los de
clasificación, que se están en general entre 0,65 y 0,7. No destaca ningún algoritmo en sobremanera.
Se escogen aquellas combinaciones que mejores resultados presentan:
Preprocesado Clasificador AUC
Borderline RUSBoost 0,7450
TL AdaBoost 0,7450
ROS SMOTEBoost 0,7450
SMOTE_TL UnderBagging 0,7446
TL IIVotes 0,7400
Ninguno AdaBoost 0,7384
SMOTE C45CS 0,7352
SMOTE MSMOTEBoost 0,7346
ADASYN SMOTEBoost 0,7340
Se construyen las matrices de confusión:
Preprocesado Clasificador TP FP TN FN
Borderline RUSBoost 49 0 227 51
TL AdaBoost 49 0 227 51
ROS SMOTEBoost 49 0 227 51
SMOTE_TL UnderBagging 52 7 220 48
TL IIVotes 51 0 227 49
Ninguno AdaBoost 49 3 224 51
SMOTE C45CS 51 9 218 49
SMOTE MSMOTEBoost 50 7 220 50
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
69
Preprocesado Clasificador TP FP TN FN
ADASYN SMOTEBoost 49 5 222 51
Y se calculan los indicadores:
Preprocesado Clasificador S E VPP VPN GRAL.
Borderline RUSBoost 0,4900 1,0000 1,0000 0,8165 0,8266
TL AdaBoost 0,4900 1,0000 1,0000 0,8165 0,8266
ROS SMOTEBoost 0,4900 1,0000 1,0000 0,8165 0,8266
SMOTE_TL UnderBagging 0,5200 0,9692 0,8814 0,8209 0,7979
TL IIVotes 0,5100 1,0000 1,0000 0,8225 0,8331
Ninguno AdaBoost 0,4900 0,9868 0,9423 0,8145 0,8084
SMOTE C45CS 0,5100 0,9604 0,8500 0,8165 0,7842
SMOTE MSMOTEBoost 0,5000 0,9692 0,8772 0,8148 0,7903
ADASYN SMOTEBoost 0,4900 0,9780 0,9074 0,8132 0,7971
Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general:
Preprocesado Clasificador S E VPP VPN GRAL.
Mejor Ambos TL IIVotes 0,5100 1,0000 1,0000 0,8225 0,8331
5.1.6.2. Ensembles
Como se observa en los resultados de las combinaciones simples anteriores, la mayoría de ellas tienen
un VPP máximo. El objetivo de los ensembles que se están realizando es el de aumentar dicho indicador.
Por tanto, se considera prescindible la realización de ensembles en este conjunto de datos, pues no hay
margen de mejora.
5.1.6.3. Mejor clasificador individual
Al no haber ensembles, el mejor individual es la mejor combinación simple, esto es, el clasificador “TL -
IIVotes”:
Clasificador S E VPP VPN GRAL.
TL - IIVotes 0,5100 1,0000 1,0000 0,8225 0,8331
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
70
5.1.7. Valparaíso M5
5.1.7.1. Clasificadores Simples
En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:
Se observa una gran variabilidad del valor promedio tanto en algoritmos de preprocesado como
clasificación. Los valores máximos apenas superan el 0,5, por lo que, a priori, se prevén unos malos
resultados.
0,4500
0,4600
0,4700
0,4800
0,4900
0,5000
0,5100
0,5200
0,5300
0,5400
0,4600
0,4700
0,4800
0,4900
0,5000
0,5100
0,5200
0,5300
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
71
Se escogen aquellas combinaciones que mejores resultados presentan:
Preprocesado Clasificador AUC
CNN UnderBagging 0,7025
CNN EasyEnsemble 0,6700
SMOTE NNCS 0,6632
Safe Level NNCS 0,6557
CNNTL BalanceCascade 0,6541
Borderline NNCS 0,6140
TL NNCS 0,6026
Se construyen las matrices de confusión:
Preprocesado Clasificador TP FP TN FN
CNN UnderBagging 27 107 185 8
CNN EasyEnsemble 30 151 141 5
SMOTE NNCS 30 155 137 5
Safe Level NNCS 29 151 141 6
CNNTL BalanceCascade 32 177 115 3
Borderline NNCS 25 142 150 10
TL NNCS 26 157 135 9
Y se calculan los indicadores:
Preprocesado Clasificador S E VPP VPN GRAL.
CNN UnderBagging 0,7714 0,6336 0,2015 0,9585 0,6413
CNN EasyEnsemble 0,8571 0,4829 0,1657 0,9658 0,6179
SMOTE NNCS 0,8571 0,4692 0,1622 0,9648 0,6133
Safe Level NNCS 0,8286 0,4829 0,1611 0,9592 0,6079
CNNTL BalanceCascade 0,9143 0,3938 0,1531 0,9746 0,6090
Borderline NNCS 0,7143 0,5137 0,1497 0,9375 0,5788
TL NNCS 0,7429 0,4623 0,1421 0,9375 0,5712
Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general:
Preprocesado Clasificador S E VPP VPN GRAL.
Mejor Ambos CNN UnderBagging 0,7714 0,6336 0,2015 0,9585 0,6413
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
72
5.1.7.2. Ensembles
Se enumeran los algoritmos que intervienen en los ensembles:
Preprocesado Clasificador Nº
CNN UnderBagging 1
CNN EasyEnsemble 2
SMOTE NNCS 3
Safe Level NNCS 4
CNNTL BalanceCascade 5
Borderline NNCS 6
TL NNCS 7
Se realizan las intersecciones y se calculan las matrices de confusión y los indicadores de cada una de
ellas:
Intersección TP FP TN FN S E VPP VPN GRAL.
1,2 26 93 199 9 0,7429 0,6815 0,2185 0,9567 0,6499
1,3 24 80 212 11 0,6857 0,7260 0,2308 0,9507 0,6483
1,4 23 72 220 12 0,6571 0,7534 0,2421 0,9483 0,6502
1,5 26 85 207 9 0,7429 0,7089 0,2342 0,9583 0,6611
1,6 21 56 236 14 0,6000 0,8082 0,2727 0,9440 0,6562
1,7 21 78 214 14 0,6000 0,7329 0,2121 0,9386 0,6209
2,3 26 106 186 9 0,7429 0,6370 0,1970 0,9538 0,6327
2,4 25 95 197 10 0,7143 0,6747 0,2083 0,9517 0,6372
2,5 29 100 192 6 0,8286 0,6575 0,2248 0,9697 0,6702
2,6 22 78 214 13 0,6286 0,7329 0,2200 0,9427 0,6310
2,7 22 105 187 13 0,6286 0,6404 0,1732 0,9350 0,5943
3,4 26 118 174 9 0,7429 0,5959 0,1806 0,9508 0,6175
3,5 28 120 172 7 0,8000 0,5890 0,1892 0,9609 0,6348
3,6 24 81 211 11 0,6857 0,7226 0,2286 0,9505 0,6468
3,7 24 120 172 11 0,6857 0,5890 0,1667 0,9399 0,5953
4,5 27 111 181 8 0,7714 0,6199 0,1957 0,9577 0,6362
4,6 20 75 217 15 0,5714 0,7432 0,2105 0,9353 0,6151
4,7 25 117 175 10 0,7143 0,5993 0,1761 0,9459 0,6089
5,6 22 88 204 13 0,6286 0,6986 0,2000 0,9401 0,6168
5,7 25 118 174 10 0,7143 0,5959 0,1748 0,9457 0,6077
6,7 19 74 218 16 0,5429 0,7466 0,2043 0,9316 0,6063
1,4,6 18 35 257 17 0,5143 0,8801 0,3396 0,9380 0,6680
1,5,6 20 44 248 15 0,5714 0,8493 0,3125 0,9430 0,6691
1,3,6 21 40 252 14 0,6000 0,8630 0,3443 0,9474 0,6887
1,2,5,6 19 40 252 16 0,5429 0,8630 0,3220 0,9403 0,6671
1,2,6 20 50 242 15 0,5714 0,8288 0,2857 0,9416 0,6569
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
73
Intersección TP FP TN FN S E VPP VPN GRAL.
1,4,5 22 68 224 13 0,6286 0,7671 0,2444 0,9451 0,6463
1,3,4 21 66 226 14 0,6000 0,7740 0,2414 0,9417 0,6393
1,3,5,6 18 32 260 17 0,5143 0,8904 0,3600 0,9386 0,6758
1,2,4,5 21 63 229 14 0,6000 0,7842 0,2500 0,9424 0,6442
1,2,4,6 17 32 260 18 0,4857 0,8904 0,3469 0,9353 0,6646
1,3,5 23 73 219 12 0,6571 0,7500 0,2396 0,9481 0,6487
1,2,5 25 76 216 10 0,7143 0,7397 0,2475 0,9558 0,6643
1,2,3,5 22 67 225 13 0,6286 0,7705 0,2472 0,9454 0,6479
1,2,3,6 20 37 255 15 0,5714 0,8733 0,3509 0,9444 0,6850
2,3,5,6 21 46 246 14 0,6000 0,8425 0,3134 0,9462 0,6755
2,3,6 22 56 236 13 0,6286 0,8082 0,2821 0,9478 0,6667
2,5,6 21 54 238 14 0,6000 0,8151 0,2800 0,9444 0,6599
1,2,3,5,6 17 29 263 18 0,4857 0,9007 0,3696 0,9359 0,6730
1,2,3,4,5,6 17 29 263 18 0,4857 0,9007 0,3696 0,9359 0,6730
1,3,5,6 18 32 260 17 0,5143 0,8904 0,3600 0,9386 0,6758
1,3,4,5,6 18 32 260 17 0,5143 0,8904 0,3600 0,9386 0,6758
1,2,3,4,6 17 29 263 18 0,4857 0,9007 0,3696 0,9359 0,6730
1,2,3,6 20 37 255 15 0,5714 0,8733 0,3509 0,9444 0,6850
1,2,4,6 17 32 260 18 0,4857 0,8904 0,3469 0,9353 0,6646
1,2,4,5,6 16 31 261 19 0,4571 0,8938 0,3404 0,9321 0,6559
1,3,4,6 18 32 260 17 0,5143 0,8904 0,3600 0,9386 0,6758
Se seleccionan los ensembles con mejor VPP y mejor promedio general:
Intersección S E VPP VPN GRAL.
Mejor GRAL. 1,2,3,6 0,5714 0,8733 0,3509 0,9444 0,6850
Mejor VPP 1,2,3,5,6 0,4857 0,9007 0,3696 0,9359 0,6730
5.1.7.3. Mejor clasificador individual
Se comparan los mejores clasificadores simples con los mejores ensembles:
Mejor GRAL. S E VPP VPN GRAL.
CNN - UnderBagging 0,7714 0,6336 0,2015 0,9585 0,6413
1,2,3,6 0,5714 0,8733 0,3509 0,9444 0,6850
Mejora Ensemble -0,2000 0,2397 0,1494 -0,0141 0,0438
Mejor VPP S E VPP VPN GRAL.
CNN - UnderBagging 0,7714 0,6336 0,2015 0,9585 0,6413
1,2,3,5,6 0,4857 0,9007 0,3696 0,9359 0,6730
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
74
Mejor VPP S E VPP VPN GRAL.
Mejora Ensemble -0,2857 0,2671 0,1681 -0,0226 0,0317
Ambos ensembles mejoran mucho el VPP respecto al mejor simple, aunque empeoran sensiblemente la
sensibilidad. Se considera que el ensemble de los clasificadores 1,2,3 y 6 (CNN - UnderBagging + CNN -
EasyEnsemble + SMOTE - NNCS + Bordeline SMOTE - NNCS) es el mejor clasificador para el conjunto
Valparaíso M5. No obstante, se sigue teniendo un VPP demasiado bajo para considerarlo un buen
clasificador.
Clasificador S E VPP VPN GRAL.
CNN - UnderBagging + CNN - EasyEnsemble + SMOTE - NNCS + Bordeline SMOTE - NNCS
0,5714 0,8733 0,3509 0,9444 0,6850
5.1.8. Tokyo M5
5.1.8.1 Clasificadores Simples
En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:
0,5000
0,5200
0,5400
0,5600
0,5800
0,6000
0,6200
0,6400
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
75
Se observa una gran variabilidad del valor promedio de los algoritmos de preprocesado, no así en los de
clasificación, en el que todos están cerca de 0,6. Destaca algo el algoritmo de preprocesado ROS, con un
valor de 0,63.
Se escogen aquellas combinaciones que mejores resultados presentan:
Preprocesado Clasificador AUC
CPM UnderBagging2 0,7168
Ninguno UnderOverBagging 0,7164
OSS BalanceCascade 0,7047
OSS SMOTEBagging 0,6997
CPM UnderOverBagging 0,6928
ADASYN IIVotes 0,6684
AHC UnderBagging2 0,6636
ROS AdaBoost 0,6607
ROS AdaBoostM1/M2 0,6740
ROS Bagging 0,6920
ROS UnderOverBagging 0,6899
Se construyen las matrices de confusión:
Preprocesado Clasificador TP FP TN FN
CPM UnderBagging2 315 39 189 206
Ninguno UnderOverBagging 341 52 176 175
OSS BalanceCascade 453 176 52 68
OSS SMOTEBagging 428 157 71 93
CPM UnderOverBagging 370 74 154 151
0,0000
0,1000
0,2000
0,3000
0,4000
0,5000
0,6000
0,7000
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
76
Preprocesado Clasificador TP FP TN FN
ADASYN IIVotes 420 107 121 101
AHC UnderBagging2 431 114 114 90
ROS AdaBoost 348 79 149 173
ROS AdaBoostM1/M2 339 69 159 182
ROS Bagging 392 84 144 129
ROS UnderOverBagging 399 88 140 122
Y se calculan los indicadores:
Preprocesado Clasificador S E VPP VPN GRAL.
CPM UnderBagging2 0,6046 0,8289 0,8898 0,4785 0,7005
Ninguno UnderOverBagging 0,6609 0,7719 0,8677 0,5014 0,7005
OSS BalanceCascade 0,8695 0,2281 0,7202 0,4333 0,5628
OSS SMOTEBagging 0,8215 0,3114 0,7316 0,4329 0,5744
CPM UnderOverBagging 0,7102 0,6754 0,8333 0,5049 0,6810
ADASYN IIVotes 0,8061 0,5307 0,7970 0,5450 0,6697
AHC UnderBagging2 0,8273 0,5000 0,7908 0,5588 0,6692
ROS AdaBoost 0,6679 0,6535 0,8150 0,4627 0,6498
ROS AdaBoostM1/M2 0,6507 0,6974 0,8309 0,4663 0,6613
ROS Bagging 0,7524 0,6316 0,8235 0,5275 0,6837
ROS UnderOverBagging 0,7658 0,6140 0,8193 0,5344 0,6834
Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general:
Preprocesado Clasificador S E VPP VPN GRAL.
Mejor Ambos CPM UnderBagging2 0,6046 0,8289 0,8898 0,4785 0,7005
5.1.8.2. Ensembles
Se enumeran los algoritmos que intervienen en los ensembles:
Preprocesado Clasificador Nº
OSS BalanceCascade 1
OSS SMOTEBagging 2
ADASYN IIVotes 3
AHC UnderBagging2 4
CPM UnderBagging2 5
Ninguno UnderOverBagging 6
CPM UnderOverBagging 7
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
77
Preprocesado Clasificador Nº
ROS AdaBoostM1/M2 8
ROS AdaBoost 9
ROS Bagging 10
ROS UnderOverBagging 11
Se realizan las intersecciones y se calculan las matrices de confusión y los indicadores de cada una de
ellas:
Intersección TP FP TN FN S E VPP VPN GRAL.
8,9 339 69 159 182 0,6507 0,6974 0,8309 0,4663 0,6613
10,11 360 53 175 161 0,6910 0,7675 0,8717 0,5208 0,7128
5,7 307 27 201 214 0,5893 0,8816 0,9192 0,4843 0,7186
8,10,11 315 42 186 206 0,6046 0,8158 0,8824 0,4745 0,6943
8,5,7 270 18 210 251 0,5182 0,9211 0,9375 0,4555 0,7081
5,7,10,11 280 13 215 241 0,5374 0,9430 0,9556 0,4715 0,7269
8,5,7,10,11 258 12 216 263 0,4952 0,9474 0,9556 0,4509 0,7123
1,2 314 8 220 207 0,6027 0,9649 0,9752 0,5152 0,7645
1,3 335 27 201 186 0,6430 0,8816 0,9254 0,5194 0,7423
1,4 335 44 184 186 0,6430 0,8070 0,8839 0,4973 0,7078
2,3 338 46 182 183 0,6488 0,7982 0,8802 0,4986 0,7065
2,4 335 39 189 186 0,6430 0,8289 0,8957 0,5040 0,7179
3,4 391 79 149 130 0,7505 0,6535 0,8319 0,5341 0,6925
1,2,3 308 7 221 213 0,5912 0,9693 0,9778 0,5092 0,7619
1,2,4 310 7 221 211 0,5950 0,9693 0,9779 0,5116 0,7634
2,3,4 327 38 190 194 0,6276 0,8333 0,8959 0,4948 0,7129
1,2,3,4 305 7 221 216 0,5854 0,9693 0,9776 0,5057 0,7595
5,7,10,11,1,2 268 3 225 253 0,5144 0,9868 0,9889 0,4707 0,7402
5,7,10,11,1,2,3 268 3 225 253 0,5144 0,9868 0,9889 0,4707 0,7402
5,7,10,11,1,2,4 268 3 225 253 0,5144 0,9868 0,9889 0,4707 0,7402
Se seleccionan los ensembles con mejor VPP y mejor promedio general:
Intersección S E VPP VPN GRAL.
Mejor GRAL. 1,2 0,6027 0,9649 0,9752 0,5152 0,7645
Mejor VPP 5,7,10,11,1,2 0,5144 0,9868 0,9889 0,4707 0,7402
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
78
5.1.8.3. Mejor clasificador individual
Se comparan los mejores clasificadores simples con los mejores ensembles:
Mejor GRAL. S E VPP VPN GRAL.
CPM - UnderBagging2 0,6046 0,8289 0,8898 0,4785 0,7005
1,2 0,6027 0,9649 0,9752 0,5152 0,7645
Mejora Ensemble -0,0019 0,1360 0,0853 0,0367 0,0640
Mejor VPP S E VPP VPN GRAL.
CPM - UnderBagging2 0,6046 0,8289 0,8898 0,4785 0,7005
5,7,10,11,1,2 0,5144 0,9868 0,9889 0,4707 0,7402
Mejora Ensemble -0,0902 0,1579 0,0991 -0,0078 0,0398
Ambos ensembles mejoran notablemente el VPP respecto al mejor simple, aunque el ensemble
1,2,5,7,10,11 empeora bastante la sensibilidad, no así el ensemble 1,2, que la mantiene prácticamente
igual. También existe una mejora generalizada en los demás indicadores con respecto al mejor simple,
aunque la mejora del ensemble 1,2 es mayor. Por tanto, se considera que el ensemble resultante de los
clasificadores 1 y 2 (OSS - BalanceCascade + OSS - SMOTEBagging) es el mejor clasificador encontrado
para el conjunto de datos Tokyo M5.
Clasificador S E VPP VPN GRAL.
OSS - BalanceCascade + OSS - SMOTEBagging
0,6027 0,9649 0,9752 0,5152 0,7645
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
79
5.1.9. Nagoya M5
5.1.9.1. Clasificadores Simples
En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:
La mayoría de los algoritmos, tanto de preprocesado como de clasificación, tienen valores cercanos a 0,5,
pero destacan muy por encima de los demás los algoritmos de preprocesado SMOTE y SMOTE TL, con
valores de 0,69 y 0,66, respectivamente.
Se escogen aquellas combinaciones que mejores resultados presentan:
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0
0,1
0,2
0,3
0,4
0,5
0,6
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
80
Preprocesado Clasificador AUC
SMOTE OverBagging2 0,8035
SMOTE UnderBagging 0,7998
SMOTE_TL OverBagging 0,7998
SMOTE_TL Bagging 0,7886
SMOTE Ada X 4 0,7848
Borderline OverBagging 0,7848
SMOTE_TL UnderBagging 0,7811
ROS NNCS 0,7799
Borderline_SMOTE NNCS 0,7649
Safe_Level_SMOTE NNCS 0,6754
Ninguno EasyEnsemble 0,6642
ADOMS NNCS 0,6269
Se construyen las matrices de confusión:
Preprocesado Clasificador TP FP TN FN
SMOTE OverBagging2 2 8 126 1
SMOTE UnderBagging 2 9 125 1
SMOTE_TL OverBagging 2 9 125 1
SMOTE_TL Bagging 2 12 122 1
SMOTE Ada X 4 2 13 121 1
Borderline OverBagging 2 13 121 1
SMOTE_TL UnderBagging 2 14 120 1
ROS NNCS 3 59 75 0
Borderline_SMOTE NNCS 3 63 71 0
Safe_Level_SMOTE NNCS 3 87 47 0
Ninguno EasyEnsemble 3 90 44 0
ADOMS NNCS 3 100 34 0
Y se calculan los indicadores:
Preprocesado Clasificador S E VPP VPN GRAL.
SMOTE OverBagging2 0,6667 0,9403 0,2000 0,9921 0,6998
SMOTE UnderBagging 0,6667 0,9328 0,1818 0,9921 0,6933
SMOTE_TL OverBagging 0,6667 0,9328 0,1818 0,9921 0,6933
SMOTE_TL Bagging 0,6667 0,9104 0,1429 0,9919 0,6780
SMOTE Ada X 4 0,6667 0,9030 0,1333 0,9918 0,6737
Borderline OverBagging 0,6667 0,9030 0,1333 0,9918 0,6737
SMOTE_TL UnderBagging 0,6667 0,8955 0,1250 0,9917 0,6697
ROS NNCS 1 0,5597 0,0484 1 0,6520
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
81
Preprocesado Clasificador S E VPP VPN GRAL.
Borderline_SMOTE NNCS 1 0,5299 0,0455 1 0,6438
Safe_Level_SMOTE NNCS 1 0,3507 0,0333 1 0,5960
Ninguno EasyEnsemble 1 0,3284 0,0323 1 0,5902
ADOMS NNCS 1 0,2537 0,0291 1 0,5707
Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general:
Preprocesado Clasificador S E VPP VPN GRAL.
Mejor Ambos SMOTE OverBagging2 0,6667 0,9403 0,2000 0,9921 0,6998
5.1.9.2. Ensembles
Se enumeran los algoritmos que intervienen en los ensembles:
Preprocesado Clasificador Nº
SMOTE OverBagging2 1
SMOTE UnderBagging 2
SMOTE_TL OverBagging 3
SMOTE_TL Bagging 4
SMOTE Ada X 4 5
Borderline OverBagging 6
SMOTE_TL UnderBagging 7
ROS NNCS 8
Borderline_SMOTE NNCS 9
Safe_Level_SMOTE NNCS 10
Ninguno EasyEnsemble 11
ADOMS NNCS 12
Se realizan las intersecciones y se calculan las matrices de confusión y los indicadores de cada una de
ellas:
Intersección TP FP TN FN S E VPP VPN GRAL.
1,2,3,4,5,6,7 2 4 130 1 0,6667 0,9701 0,3333 0,9924 0,7406
8,9,10,11,12 3 35 99 0 1 0,7388 0,0789 1 0,7044
Se seleccionan los ensembles con mejor VPP y mejor promedio general:
Intersección TP FP TN FN S E VPP VPN GRAL.
Mejor Ambos 1,2,3,4,5,6,7 2 4 130 1 0,6667 0,9701 0,3333 0,9924 0,7406
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
82
5.1.9.3. Mejor clasificador individual
Se comparan los mejores clasificadores simples con los mejores ensembles:
Mejor Ambos S E VPP VPN GRAL.
SMOTE - OverBagging2 0,6667 0,9403 0,2000 0,9921 0,6998
1,2,3,4,5,6,7 0,6667 0,9701 0,3333 0,9924 0,7406
Mejora Ensemble 0 0,0299 0,1333 0,0002 0,0409
El ensembles mejora en más de un 50% el VPP del mejor simple, y también mejora en líneas generales
el resto de indicadores. Por tanto, el ensemble de los clasificadores 1,2,3,4,5,6 y 7 (SMOTE -
OverBagging2 + SMOTE - UnderBagging + SMOTE TL - OverBagging + SMOTE TL - Bagging + SMOTE
- AdaBoost + Borderline SMOTE - OverBagging + SMOTE TL - UnderBagging) se considera el mejor
clasificador para el conjunto de datos Nagoya M5. No obstante, el indicador VPP sigue siendo muy bajo y,
aunque los demás indicadores son todos muy buenos, dicho clasificador no puede ser considerado como
apto.
Clasificador S E VPP VPN GRAL.
SMOTE - OverBagging2 + SMOTE - UnderBagging + SMOTE TL - OverBagging + SMOTE TL - Bagging + SMOTE - AdaBoost + Borderline SMOTE - OverBagging + SMOTE TL - UnderBagging
0,6667 0,9701 0,3333 0,9924 0,7406
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
83
5.1.10. Osaka M5
5.1.10.1. Clasificadores Simples
En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:
Se observa una gran variabilidad del valor promedio entre algoritmos tanto de preprocesado como de
clasificación. Destacan varios algoritmos de preprocesado por encima de 0,9 (ADASYN, ROS, SPIDER y
SPIDER2) y un algoritmo de clasificación (SMOTEBoost)
Se escogen aquellas combinaciones que mejores resultados presentan:
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
84
Preprocesado Clasificador AUC
Ninguno AdaX3 0,9931
ADOMS MSMOTEBoost 1
AHC SMOTEBoost 0,9965
ROS OverBagging 1
TL IIVotes 1
Se construyen las matrices de confusión:
Preprocesado Clasificador TP FP TN FN
Ninguno AdaX3 2 2 142 0
ADOMS MSMOTEBoost 2 0 144 0
AHC SMOTEBoost 2 1 143 0
ROS OverBagging 2 0 144 0
TL IIVotes 2 0 144 0
Y se calculan los indicadores:
Preprocesado Clasificador S E VPP VPN GRAL.
Ninguno AdaX3 1 0,9861 0,5 1 0,8715
ADOMS MSMOTEBoost 1 1 1 1 1
AHC SMOTEBoost 1 0,9931 0,6667 1 0,9149
ROS OverBagging 1 1 1 1 1
TL IIVotes 1 1 1 1 1
Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general:
Preprocesado Clasificador S E VPP VPN GRAL.
Mejor Ambos ADOMS MSMOTEBoost 1 1 1 1 1
ROS OverBagging 1 1 1 1 1
TL IIVotes 1 1 1 1 1
5.1.10.2. Ensembles
Como es obvio, no es necesaria la construcción de ensembles, pues los resultados de los mejores
individuales ya son perfectos.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
85
5.1.10.3. Mejor clasificador individual
Al no haber ensembles, el mejor individual es la mejor combinación simple, esto es, los clasificadores
“ADOMS - MSMOTEBoost”, “ROS - OverBagging” y “TL - IIVotes”:
Clasificador TP FP TN FN S E VPP VPN GRAL.
ADOMS - MSMOTEBoost 2 0 144 0 1 1 1 1 1
ROS - OverBagging 2 0 144 0 1 1 1 1 1
TL - IIVotes 2 0 144 0 1 1 1 1 1
5.1.11. Resumen de los mejores resultados
Debido a la extensión de los resultados, se muestra un resumen de los mejores clasificadores de cada
conjunto de datos. Para una mayor comprensión y visión simplificada, se mostrarán dos tablas: en una se
muestran los clasificadores y la matriz de confusión, y en otra, los indicadores.
En primer lugar se muestra la tabla con los clasificadores y la matriz de confusión:
Conjunto Clasificador TP FP TN FN
Pichilemu M4 SMOTE TL - NNCS +
23 0 65 27 CNN - NNCS
Pichilemu M5 ADASYN - C45CS +
27 0 65 23 SPIDER - BalanceCascade
Santiago M4
SMOTE - NNCS +
6 2 146 6
Safe Level SMOTE - NNCS +
NNCS +
SPIDER2 - UnderBagging +
BalanceCascade +
AHC - EasyEnsemble
Talca M4 SMOTE - BalanceCascade 41 9 18 0
Talca M5 ADASYN - NNCS +
5 0 99 0 CPM - C45CS
Valparaíso M4 TL - IIVotes 51 0 227 49
Valparaíso M5
CNN - UnderBagging +
20 37 255 15 CNN - EasyEnsemble +
SMOTE - NNCS +
Bordeline SMOTE - NNCS
Tokyo M5 OSS - BalanceCascade +
314 8 220 207 OSS - SMOTEBagging
Nagoya M5 SMOTE - OverBagging2 +
2 4 130 1 SMOTE - UnderBagging +
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
86
Conjunto Clasificador TP FP TN FN
SMOTE TL - OverBagging +
SMOTE TL - Bagging +
SMOTE - AdaBoost +
Borderline SMOTE -
OverBagging +
SMOTE TL - UnderBagging
Osaka M5 ADOMS - MSMOTEBoost 2 0 144 0
A continuación, se muestran los indicadores de los clasificadores anteriores, distinguiendo los conjuntos
que están desbalanceados (azul) de los que no (naranja):
Conjunto S E VPP VPN GRAL.
Pichilemu M4 0,5 1 1 0,71 0,79
Pichilemu M5 0,5 1 1 0,74 0,82
Santiago M4 0,5 1 0,75 0,96 0,75
Talca M4 1 0,7 0,82 1 0,87
Talca M5 1 1 1 1 1
Valparaíso M4 0,5 1 1 0,82 0,83
Valparaíso M5 0,6 0,9 0,35 0,94 0,69
Tokyo M5 0,6 1 0,98 0,52 0,76
Nagoya M5 0,7 1 0,33 0,99 0,74
Osaka M5 1 1 1 1 1
Tanto Valparaíso M5 como Nagoya M5, a pesar de haber mejorado sus indicadores tras la generación de
los ensembles, no cumplen las expectativas, pues poseen un VPP demasiado bajo. A pesar de eso, en la
mayoría de los conjuntos se han obtenido muy buenos resultados.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
87
5.2. Mejores Clasificadores Globales
Como ya se detalló en la etapa de evaluación, se hace uso del test de Friedman para obtener en cada
iteración los mejores clasificadores globales. Se ha establecido como criterio de selección aquellos
clasificadores cuyo ranking promedio en el test de Friedman se situara por encima de lo denominado
como “mejor tercio”. Es decir, si han intervenido 300 algoritmos en el test, y éste los ordena otorgándole
mayor puntuación a los mejores clasificadores, se escogerían aquellos que tuvieran un valor por encima
de 200 en el ranking promedio. Una vez seleccionados los mejores clasificadores, se generan tantos
ensembles como combinaciones de dos existan.
En el caso que ocupa, ha sido necesaria la ejecución de dos iteraciones hasta la obtención de un
ensemble con resultados aceptables en buena parte de los conjuntos de datos que han intervenido en el
proceso.
En la primera iteración, el test de Friedman se realizó con todos los 10 conjuntos de datos que intervenían
en el estudio y con las 320 combinaciones generadas en la experimentación. Como unidad de medida, se
hizo uso del Área Bajo la Curva ROC de cada combinación. El resultado del test, ordenado de mejor a
peor, es el siguiente:
Clasificador N Media Desviación
estándar Mínimo Máximo
Rango promedio
NCL-AdaBoostM1 10 62,3059 15,3046 45,9459 99,6528 233,85
NCL-AdaBoostM2 10 62,3059 15,3046 45,9459 99,6528 233,85
ADASYN-IIVotes 10 63,0873 13,5493 47,5802 94,7917 231,55
ROS-RUSBoost 10 61,6280 15,8968 44,9788 98,6111 229,55
SPIDER-BalanceCascade 10 61,6856 15,5729 48,4234 99,3056 227,95
ROS-AdaBoost 10 60,6780 17,5698 32,8796 99,3056 226,10
TL-AdaBoostM1 10 62,3835 16,1044 46,6418 99,6528 224,00
ADASYN-SMOTEBoost 10 61,8098 15,4541 47,0149 97,5694 219,95
ROS-AdaC2 10 61,0737 15,3942 45,0847 99,3056 219,30
CPM-SMOTEBoost 10 62,5478 13,1599 49,2117 90,4040 217,35
SPIDER-OverBagging 10 61,4613 15,4237 47,9730 98,6111 216,50
ROS-AdaBoostM1 10 60,6018 17,6139 33,7568 99,3056 214,95
ROS-AdaBoostM2 10 60,6018 17,6139 33,7568 99,3056 214,95
ADASYN-AdaBoost 10 61,3953 15,9102 46,2687 98,9583 212,00
ROS-SMOTEBoost 10 59,7342 16,6723 39,8367 98,9583 211,50
ADOMS-SMOTEBoost 10 59,8442 15,0644 42,3775 96,8750 210,90
ADASYN-OverBagging 10 63,4089 19,0443 42,1642 98,2639 208,35
Ninguno-EasyEnsemble 10 61,1595 9,4269 49,4404 82,2917 207,90
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
88
Clasificador N Media Desviación
estándar Mínimo Máximo
Rango promedio
ADASYN-UnderBagging2 10 62,8719 17,9074 41,4179 97,9167 207,60
OSS-EasyEnsemble 10 59,5478 15,0227 30,8458 86,4583 206,45
TL-AdaBoostM2 10 61,2046 15,0242 46,6418 98,2639 204,90
TL-AdaC2 10 61,2046 15,0242 46,6418 98,2639 204,90
OSS-RUSBoost 10 58,3616 13,8084 29,8507 75,5631 204,65
AHC-SMOTEBoost 10 59,9620 16,3424 45,9165 99,6528 204,55
NCL-AdaBoost 10 60,8510 15,7153 45,9459 99,6528 203,95
Ninguno-AdaBoostM1 10 60,7267 17,2074 35,5868 99,3056 200,90
Ninguno-AdaBoostM2 10 60,7267 17,2074 35,5868 99,3056 200,90
SMOTE_TL-NNCS 10 63,7614 13,6279 46,7181 87,8788 200,30
TL-BalanceCascade 10 56,5538 8,4625 47,5499 70,0947 199,90
AHC-RUSBoost 10 59,2179 16,4875 42,3321 99,6528 199,25
CNNTL-EasyEnsemble 10 60,3309 7,5564 46,7181 70,4040 198,40
CPM-C45CS 10 60,9420 16,4908 31,2189 90,4040 196,45
NCL-IIVotes 10 61,6911 18,2444 42,0045 97,9167 195,95
SPIDER2-C45CS 10 59,8701 16,0847 43,2836 98,2639 195,15
TL-SMOTEBoost 10 59,6811 16,4087 44,9183 99,3056 194,55
Borderline_SMOTE-AdaBoostM1 10 60,1815 15,6593 41,5457 97,9167 193,45
Borderline_SMOTE-AdaBoostM2 10 60,1815 15,6593 41,5457 97,9167 193,45
Ninguno-AdaC2 10 58,7571 11,0905 47,4592 84,0278 193,25
SMOTE_TL-AdaBoost 10 61,1951 15,0609 26,4228 80,7432 192,80
NCL-OverBagging2 10 60,8121 13,6841 42,9104 87,8788 192,25
NCL-OverBagging 10 60,3815 13,1465 45,1493 87,8788 191,50
SPIDER-UnderBagging 10 59,1004 15,1782 46,6727 96,1806 191,35
CNN-BalanceCascade 10 58,2060 10,3633 40,6716 71,2137 191,05
ADASYN-C45CS 10 62,2571 18,5430 39,5522 89,9306 190,45
TL-RUSBoost 10 59,3178 15,8558 46,2687 98,9583 190,05
ROS-OverBagging2 10 59,4063 16,6290 44,2377 99,6528 189,90
SPIDER-Bagging 10 59,3385 15,4654 43,9189 98,2639 189,30
SPIDER-AdaBoostM1 10 59,1063 16,0358 43,9189 98,9583 189,15
AHC-AdaBoostM1 10 59,6577 16,2261 44,4030 99,6528 189,00
AHC-AdaBoostM2 10 59,6577 16,2261 44,4030 99,6528 189,00
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
89
Clasificador N Media Desviación
estándar Mínimo Máximo
Rango promedio
Ninguno-BalanceCascade 10 59,0576 8,3746 47,4462 71,8750 188,70
AHC-AdaBoost 10 59,6356 16,2067 44,4030 99,6528 188,70
NCL-AdaC2 10 57,7543 8,2951 48,1343 72,0000 188,05
SPIDER-OverBagging2 10 60,3540 15,7943 45,1493 98,6111 187,90
Borderline_SMOTE-NNCS 10 58,5684 10,5753 43,7952 76,4925 187,70
NCL-EasyEnsemble 10 58,4608 11,2627 39,6766 82,2917 186,90
ADASYN-AdaBoostM1 10 59,7600 16,9590 33,8324 95,8333 186,40
ADASYN-AdaBoostM2 10 59,7600 16,9590 33,8324 95,8333 186,40
AHC-AdaC2 10 59,2252 16,6804 40,2985 99,6528 185,55
ROS-EasyEnsemble 10 60,0138 15,4878 42,4229 96,5278 185,05
OSS-OverBagging 10 58,8819 9,9122 41,5154 76,7361 184,30
ADASYN-EasyEnsemble 10 59,3211 14,1616 40,2985 87,5000 184,15
Borderline_SMOTE-RUSBoost 10 59,2487 16,6999 44,0563 99,6528 184,05
SPIDER-SMOTEBagging 10 60,4656 14,1820 44,3694 93,0556 183,95
ROS-UnderBagging2 10 58,7978 16,4579 43,3303 99,6528 183,55
SPIDER-AdaBoostM2 10 58,8610 16,0852 43,9189 98,9583 183,25
SPIDER-AdaC2 10 58,8610 16,0852 43,9189 98,9583 183,25
SPIDER-NNCS 10 60,4257 14,9078 41,4414 95,4861 183,10
ADASYN-UnderBagging 10 59,4149 14,1398 42,1642 87,8788 182,55
SMOTE_TL-Bagging 10 58,5162 14,1740 48,0578 94,4444 182,40
ROS-UnderBagging 10 58,8642 16,6141 42,4077 99,3056 182,35
ROS-OverBagging 10 58,2944 17,7575 32,9401 100,0000 182,25
TL-OverBagging 10 60,0883 16,5394 46,5971 100,0000 181,85
AHC-C45CS 10 55,3779 7,3466 47,7477 69,9163 181,80
NCL-UnderBagging2 10 59,8965 14,2121 39,3035 86,4583 181,80
SPIDER2-OverBagging 10 59,7000 15,6595 47,3803 98,6111 181,35
Ninguno-IIVotes 10 58,0164 9,5594 48,1343 74,6528 181,25
Ninguno-UnderBagging 10 58,4547 9,7676 46,7662 75,0000 181,25
TL-Bagging 10 58,8925 13,3259 41,2162 89,2361 181,25
AHC-EasyEnsemble 10 55,5773 8,7986 41,5457 70,4339 180,95
RUS-EasyEnsemble 10 56,7860 13,3726 38,0808 82,6389 180,90
CNNTL-UnderOverBagging 10 56,1100 10,1166 35,4478 68,7907 180,65
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
90
Clasificador N Media Desviación
estándar Mínimo Máximo
Rango promedio
ADASYN-AdaC2 10 59,9276 15,8805 42,4229 95,8333 180,45
SMOTE_TL-UnderBagging2 10 61,8163 15,2514 44,9637 87,8788 180,00
TL-UnderBagging 10 58,9175 15,9573 31,5920 86,8056 179,10
ADASYN-RUSBoost 10 59,4160 15,8100 43,2849 97,2222 178,95
NCL-RUSBoost 10 58,8806 10,8432 49,8874 84,3750 178,25
SMOTE_TL-IIVotes 10 62,0268 14,9836 49,4325 95,8333 178,15
NCL-Bagging 10 56,1650 9,9994 44,9183 75,9596 177,25
Ninguno-AdaBoost 10 59,7288 17,3711 36,4640 99,3056 176,70
ADASYN-Bagging 10 61,1251 18,7819 39,8669 95,1389 176,35
OSS-SMOTEBagging 10 58,0556 11,4334 35,2789 72,1847 175,00
Borderline_SMOTE-SMOTEBoost 10 58,4599 17,0576 38,9443 98,2639 174,65
CNN-C45CS 10 54,9539 9,9711 37,9915 69,8921 173,60
CPM-UnderOverBagging 10 56,2897 11,3387 40,6052 74,3056 173,50
RUS-NNCS 10 53,8911 9,2042 35,1990 68,7907 172,85
SPIDER2-BalanceCascade 10 60,8826 15,2206 46,6425 97,9167 172,70
RUS-SMOTEBoost 10 55,9065 10,1996 35,1990 69,0972 172,65
RUS-BalanceCascade 10 55,1582 9,7283 35,1990 66,6667 172,55
ADASYN-SMOTEBagging 10 61,1260 12,7608 47,6351 87,8788 172,30
AHC-BalanceCascade 10 58,5311 15,9838 43,7811 97,9167 172,25
NCL-C45CS 10 59,4950 13,7616 45,1493 87,8788 172,25
Borderline_SMOTE-UnderBagging2
10 56,9799 9,4660 47,9730 76,4646 171,25
ROS-C45CS 10 57,1114 18,7376 34,6189 99,3056 171,25
Ninguno-C45CS 10 59,1759 16,3215 41,2162 99,3056 171,20
Borderline_SMOTE-AdaBoost 10 58,3867 16,0515 41,5457 98,9583 171,15
Borderline_SMOTE-AdaC2 10 58,3867 16,0515 41,5457 98,9583 171,15
CNN-AdaBoostM1 10 55,0906 7,7973 43,1791 64,8946 170,95
OSS-Bagging 10 58,7281 14,3645 42,0398 93,7500 170,80
SPIDER2-SMOTEBagging 10 59,9096 15,9857 44,5946 97,5694 170,75
ADASYN-OverBagging2 10 60,6451 18,9140 39,8820 96,1806 169,60
TL-EasyEnsemble 10 56,8463 16,3468 24,8756 87,1528 169,60
OSS-UnderBagging2 10 57,1206 13,2016 36,7613 81,9444 169,35
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
91
Clasificador N Media Desviación
estándar Mínimo Máximo
Rango promedio
TL-C45CS 10 60,2148 20,8375 37,9764 99,6528 168,80
CPM-UnderBagging 10 56,7598 10,8647 43,7811 71,8750 168,55
Ninguno-Bagging 10 54,7147 10,1114 40,6987 74,5000 168,35
SPIDER2-NNCS 10 59,1717 14,9185 44,1319 94,7917 168,30
Borderline_SMOTE-IIVotes 10 55,3231 10,9466 36,3581 72,7379 168,25
ADASYN-BalanceCascade 10 58,3842 13,0625 45,7199 91,6667 167,80
CNNTL-OverBagging2 10 54,5065 6,3692 44,0299 65,6476 167,65
CNNTL-OverBagging 10 55,0873 6,2126 48,2910 68,3502 167,60
OSS-UnderOverBagging 10 57,5328 12,5040 38,6816 80,2083 167,20
OSS-BalanceCascade 10 55,0298 12,5380 29,8507 72,1538 167,00
CNNTL-RUSBoost 10 58,0577 12,1196 33,9552 76,3889 166,70
CNNTL-UnderBagging2 10 55,5974 7,4508 42,4129 69,1718 166,50
ADASYN-UnderOverBagging 10 60,9652 18,1612 41,4179 94,7917 166,20
CNNTL-BalanceCascade 10 55,8147 11,5413 29,8507 70,1538 166,10
Ninguno-SMOTEBoost 10 57,9290 15,1150 41,4549 94,7917 165,85
SPIDER2-UnderBagging 10 57,7712 13,4350 48,0126 88,8889 165,80
NCL-NNCS 10 59,7648 19,1182 38,0597 97,5694 165,60
SPIDER-C45CS 10 59,2805 16,4228 42,9104 98,2639 165,40
TL-NNCS 10 49,1454 17,2145 14,7245 75,2525 165,40
CNNTL-C45CS 10 57,1794 8,7892 39,3493 69,4444 165,25
SMOTE-UnderOverBagging 10 59,4061 15,3070 44,3541 96,5278 165,05
Borderline_SMOTE-OverBagging2 10 55,7542 10,6756 33,7417 69,5529 165,00
OSS-OverBagging2 10 57,0536 10,2064 41,4096 76,5319 164,85
SPIDER-UnderBagging2 10 60,8507 18,3417 38,9640 97,2222 164,60
Ninguno-OverBagging2 10 56,4429 10,0772 43,2547 74,3056 164,25
NCL-UnderBagging 10 58,2455 13,9820 46,6418 92,0139 164,20
SMOTE-NNCS 10 59,4781 11,3993 39,8215 74,3781 163,70
CNN-UnderBagging 10 55,7943 16,8691 29,8507 88,8889 163,70
ADASYN-NNCS 10 61,1944 15,8692 47,7477 96,4646 163,05
SMOTE-AdaBoostM2 10 57,5256 9,6443 49,3243 78,4826 162,75
SMOTE-AdaC2 10 57,5256 9,6443 49,3243 78,4826 162,75
SMOTE-UnderBagging2 10 60,4148 16,7749 41,2376 95,1389 162,35
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
92
Clasificador N Media Desviación
estándar Mínimo Máximo
Rango promedio
ADOMS-UnderBagging 10 54,9769 8,2303 47,7612 71,0881 162,00
NCL-SMOTEBoost 10 57,4959 9,3271 46,2838 73,6111 161,90
TL-SMOTEBagging 10 56,0464 12,0381 33,8308 77,0833 161,90
SPIDER2-RUSBoost 10 59,5005 16,4882 43,1791 98,2639 161,85
SPIDER-RUSBoost 10 59,5571 16,7683 44,0411 100,0000 161,80
SMOTE-Bagging 10 59,1863 11,7929 49,3243 79,1667 161,70
CPM-SMOTEBagging 10 55,6800 11,4728 38,1662 72,2222 161,50
RUS-AdaBoost 10 56,9407 15,4554 38,6816 94,0972 161,30
AHC-UnderBagging2 10 54,0212 8,8357 44,4030 70,7555 160,85
ROS-BalanceCascade 10 57,8670 14,1550 39,9254 87,8472 160,65
TL-IIVotes 10 55,8182 10,9112 35,1990 69,2070 160,60
RUS-AdaC2 10 54,6806 9,4939 35,1990 66,6667 160,25
RUS-Bagging 10 54,6806 9,4939 35,1990 66,6667 160,25
CNN-OverBagging 10 56,0254 8,9137 41,5457 68,6123 160,20
AHC-Bagging 10 54,1613 7,7965 45,9014 68,9934 160,15
ADOMS-UnderOverBagging 10 57,1902 9,4070 45,1493 74,6528 160,00
ROS-Bagging 10 56,0612 12,0793 36,3581 74,6528 159,95
SPIDER2-AdaBoostM2 10 58,1341 15,7961 46,7931 97,2222 159,95
SPIDER2-AdaC2 10 58,1341 15,7961 46,7931 97,2222 159,95
TL-OverBagging2 10 58,2447 15,6127 45,5224 97,9167 159,70
Borderline_SMOTE-EasyEnsemble
10 55,2103 8,0749 45,0544 68,8921 159,65
Safe_Level_SMOTE-RUSBoost 10 57,8703 14,0442 47,0149 93,7500 159,50
TL-UnderOverBagging 10 58,9538 14,4023 41,4701 87,8788 159,45
CNN-UnderBagging2 10 59,0897 10,6802 39,6396 73,6111 158,95
ROS-UnderOverBagging 10 57,9507 17,8847 36,2976 99,3056 158,85
OSS-UnderBagging 10 55,5174 13,9072 29,8507 71,8468 158,55
RUS-AdaBoostM2 10 54,6174 9,6046 35,1990 66,6667 158,15
SMOTE_TL-OverBagging2 10 62,5388 16,8019 44,0714 87,8788 158,00
CNN-SMOTEBoost 10 55,7681 12,8981 32,4627 73,1366 157,65
OSS-SMOTEBoost 10 57,6426 9,8146 41,6667 70,1389 157,20
SPIDER2-OverBagging2 10 59,1916 16,4698 44,0411 98,6111 157,15
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
93
Clasificador N Media Desviación
estándar Mínimo Máximo
Rango promedio
ADOMS-RUSBoost 10 58,3850 16,2991 38,0597 94,0972 156,95
Ninguno-RUSBoost 10 57,2760 14,2766 43,5323 92,7083 156,85
Borderline_SMOTE-OverBagging 10 57,6284 11,8392 39,0200 78,4826 156,40
ADOMS-SMOTEBagging 10 54,0984 9,9521 42,4119 69,7137 156,30
SPIDER2-AdaBoostM1 10 58,2367 15,1948 48,8806 97,5694 156,10
Ninguno-UnderOverBagging 10 56,0222 12,3667 36,3430 74,3056 155,90
SPIDER2-EasyEnsemble 10 60,4370 19,6809 34,3284 98,2639 155,90
OSS-NNCS 10 56,0712 11,6357 35,8023 71,5090 155,70
SPIDER-SMOTEBoost 10 59,2839 14,5939 47,5348 95,4861 155,60
ADOMS-OverBagging2 10 54,9315 7,3335 47,5499 67,8084 155,55
OSS-AdaBoostM2 10 56,6998 15,0260 37,6866 95,1389 155,50
OSS-AdaC2 10 56,6998 15,0260 37,6866 95,1389 155,50
OSS-AdaBoostM1 10 56,6874 15,0317 37,6866 95,1389 155,35
AHC-UnderOverBagging 10 53,7941 8,0548 44,4030 69,7137 155,10
ADOMS-UnderBagging2 10 54,7208 7,8196 45,8955 67,6300 154,10
Ninguno-OverBagging 10 55,7724 11,3145 39,9577 75,0000 153,50
SMOTE-AdaBoostM1 10 57,2149 9,6070 48,9865 78,4826 152,55
Safe_Level_SMOTE-SMOTEBoost 10 55,6449 11,2317 47,5348 85,0694 152,10
Borderline_SMOTE-UnderBagging 10 54,7039 9,5197 38,0369 69,2731 151,95
SPIDER2-UnderOverBagging 10 58,8413 21,1553 24,2537 96,5278 151,50
Safe_Level_SMOTE-EasyEnsemble
10 56,4394 14,9654 43,6314 94,4444 151,45
AHC-OverBagging 10 53,5666 8,1566 42,5136 71,8392 150,75
SPIDER2-UnderBagging2 10 61,3081 19,2175 35,0746 96,1806 150,60
SMOTE-EasyEnsemble 10 58,9076 12,9559 44,8679 83,3333 150,50
CPM-BalanceCascade 10 55,2190 12,4324 32,9401 70,8150 149,85
SMOTE-C45CS 10 58,8013 15,2159 46,7030 96,1806 149,70
SPIDER-UnderOverBagging 10 59,9083 18,9933 34,9502 94,7917 149,60
OSS-AdaBoost 10 48,8724 19,6778 16,4860 80,9091 149,55
RUS-UnderBagging 10 54,0472 9,1239 35,1990 64,2308 149,20
CNNTL-SMOTEBoost 10 52,7084 10,6347 34,7015 68,4692 149,15
Safe_Level_SMOTE-Bagging 10 57,6212 13,8469 41,4701 92,0139 149,00
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
94
Clasificador N Media Desviación
estándar Mínimo Máximo
Rango promedio
ROS-SMOTEBagging 10 57,1227 10,6458 39,7762 74,3056 148,95
SMOTE_TL-UnderOverBagging 10 61,1828 16,3473 45,8258 97,2222 148,75
CNNTL-IIVotes 10 54,7208 11,1147 27,2388 66,3194 148,70
CNNTL-SMOTEBagging 10 54,4932 11,2390 26,8657 69,4444 148,25
SMOTE-AdaBoost 10 54,9214 10,9760 39,2361 73,1982 147,80
SMOTE_TL-RUSBoost 10 60,1203 14,4686 41,5003 87,8788 147,55
ADOMS-OverBagging 10 56,3070 11,4354 39,8215 75,0000 147,45
SPIDER-AdaBoost 10 53,6050 12,8426 37,5790 74,4369 147,00
CPM-AdaBoostM2 10 58,6393 13,5727 44,9032 89,5833 146,75
CPM-AdaC2 10 58,6393 13,5727 44,9032 89,5833 146,75
CNN-UnderOverBagging 10 53,8408 11,3728 33,5821 67,2489 146,65
Safe_Level_SMOTE-AdaBoostM1 10 54,8668 8,5843 44,9335 68,7500 146,60
Safe_Level_SMOTE-AdaBoostM2 10 54,8668 8,5843 44,9335 68,7500 146,60
Borderline_SMOTE-BalanceCascade
10 53,2983 7,1766 46,5278 68,6894 146,35
RUS-IIVotes 10 55,8604 14,3167 31,2189 82,6389 146,10
Safe_Level_SMOTE-UnderBagging2
10 57,7049 13,5750 44,7761 92,3611 145,65
SMOTE_TL-C45CS 10 60,9147 14,6926 43,2396 87,8788 144,75
CPM-OverBagging2 10 55,5953 15,2479 33,9552 81,2500 144,70
RUS-RUSBoost 10 52,7070 11,5455 30,0995 67,8084 144,70
Safe_Level_SMOTE-UnderBagging
10 55,1343 7,8644 42,3321 68,0556 144,40
Borderline_SMOTE-Bagging 10 54,8130 8,7374 41,5306 68,3921 143,90
AHC-OverBagging2 10 53,2117 9,2355 39,8215 70,0947 143,85
RUS-OverBagging2 10 52,6278 11,4442 35,1990 69,4097 143,70
AHC-SMOTEBagging 10 54,7800 9,9245 40,6685 69,3326 143,45
RUS-UnderBagging2 10 54,6195 14,6817 31,2189 82,6389 143,30
SPIDER-EasyEnsemble 10 59,6087 21,6362 24,6269 92,7083 143,10
Safe_Level_SMOTE-AdaC2 10 54,3661 8,5877 43,7669 68,0556 142,85
SMOTE-UnderBagging 10 56,3226 15,1790 38,0369 92,0139 142,75
RUS-C45CS 10 51,6235 11,0825 31,2189 70,4097 142,75
CNNTL-UnderBagging 10 56,1043 15,4744 34,9502 88,8889 142,70
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
95
Clasificador N Media Desviación
estándar Mínimo Máximo
Rango promedio
Safe_Level_SMOTE-NNCS 10 53,2582 6,6357 42,3775 65,3303 142,50
CNN-Bagging 10 52,4591 7,3968 35,6965 62,7829 141,95
AHC-NNCS 10 51,4394 9,3540 34,3750 67,0000 141,25
Safe_Level_SMOTE-C45CS 10 56,2387 10,4189 45,8409 81,2500 141,25
CPM-RUSBoost 10 54,6047 10,8692 32,7114 68,6300 141,05
ADOMS-NNCS 10 52,7048 12,8946 36,3144 74,2308 141,00
SMOTE_TL-UnderBagging 10 56,7522 15,9303 42,3624 97,2222 140,35
SMOTE_TL-SMOTEBagging 10 58,3834 15,2475 45,8106 96,1806 139,50
SPIDER2-IIVotes 10 58,1346 14,9690 39,5522 90,6250 139,40
RUS-UnderOverBagging 10 53,7068 12,4310 37,1597 72,2222 139,30
SMOTE-OverBagging2 10 56,5402 13,4186 33,7417 78,4826 139,20
SMOTE_TL-BalanceCascade 10 59,4271 13,8872 44,0865 86,4583 139,20
SMOTE-SMOTEBagging 10 58,1992 14,6658 43,1791 94,0972 139,15
CNN-RUSBoost 10 56,2585 14,1370 30,9701 82,9861 139,00
ADOMS-AdaBoost 10 58,2181 15,1582 44,1016 93,7500 138,80
ADOMS-EasyEnsemble 10 55,5655 10,0947 42,3321 71,1806 138,75
AHC-UnderBagging 10 53,0352 7,7736 43,2547 68,7731 138,45
Borderline_SMOTE-UnderOverBagging
10 55,8202 9,2068 43,2547 69,8326 138,45
CNN-NNCS 10 54,9116 12,9738 37,5622 81,2500 137,80
CNN-EasyEnsemble 10 54,9292 9,9912 33,4577 70,4040 137,70
OSS-C45CS 10 55,2153 10,8005 33,5821 69,0972 137,65
TL-UnderBagging2 10 52,8857 13,9942 24,2537 71,9192 136,80
ADOMS-IIVotes 10 55,4699 8,6421 44,1016 67,7841 135,95
CNN-OverBagging2 10 56,0395 14,5035 37,5622 88,5417 135,95
CNN-AdaBoostM2 10 52,2934 6,5855 43,1791 63,0769 135,40
CNN-AdaC2 10 52,2934 6,5855 43,1791 63,0769 135,40
SMOTE_TL-AdaBoostM1 10 55,3948 9,1731 48,3108 76,9900 135,20
Safe_Level_SMOTE-UnderOverBagging
10 53,9310 6,9798 45,7804 67,0139 135,00
SMOTE_TL-OverBagging 10 57,2983 16,3757 43,1791 98,6111 134,75
SMOTE_TL-AdaBoostM2 10 55,2128 9,3441 48,3108 76,9900 134,70
SMOTE_TL-AdaC2 10 55,2128 9,3441 48,3108 76,9900 134,70
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
96
Clasificador N Media Desviación
estándar Mínimo Máximo
Rango promedio
ROS-NNCS 10 56,4624 9,6325 46,5949 77,9851 134,10
NCL-BalanceCascade 10 54,3337 17,4776 16,0448 84,3750 133,85
RUS-OverBagging 10 52,8203 17,3054 16,4179 82,6389 133,30
CNNTL-Bagging 10 51,6180 6,4457 39,0547 64,9169 132,60
RUS-SMOTEBagging 10 53,8573 10,6425 31,2189 65,9231 132,00
CPM-UnderBagging2 10 54,0856 11,6292 39,8010 71,6777 131,60
SPIDER2-SMOTEBoost 10 58,0633 16,2986 45,7653 98,6111 130,90
AHC-IIVotes 10 54,5136 9,4740 38,9595 75,0000 130,50
SPIDER-IIVotes 10 55,7972 16,2233 30,9701 88,5417 130,40
ADOMS-Bagging 10 52,8317 10,0158 38,0067 69,6300 130,15
CNN-SMOTEBagging 10 55,7284 14,8791 33,7719 80,5556 130,10
Safe_Level_SMOTE-OverBagging 10 56,1225 13,2417 44,1773 89,9306 130,00
CNNTL-NNCS 10 52,6766 6,3172 41,7417 65,4449 129,45
ADOMS-C45CS 10 53,8401 7,5747 44,2377 67,7489 128,50
CNNTL-AdaBoostM1 10 50,9879 7,5670 38,1538 59,8941 128,50
CNNTL-AdaBoostM2 10 51,0275 7,4903 38,9231 59,8941 128,35
CNNTL-AdaC2 10 51,0275 7,4903 38,9231 59,8941 128,35
Borderline_SMOTE-SMOTEBagging
10 55,2832 9,1008 43,2698 68,5529 128,20
NCL-UnderOverBagging 10 53,1205 9,9011 33,8308 68,3502 128,05
Safe_Level_SMOTE-AdaBoost 10 54,0823 8,0054 44,9335 68,7500 127,65
CPM-OverBagging 10 54,1907 17,1390 35,0505 88,5417 126,75
Safe_Level_SMOTE-SMOTEBagging
10 55,8843 12,4831 39,7308 86,4583 126,25
SMOTE-OverBagging 10 58,2599 14,8118 44,9183 96,8750 126,10
Ninguno-SMOTEBagging 10 56,3024 10,9982 38,0218 73,6111 126,00
CNN-IIVotes 10 54,4427 16,0846 22,7612 79,5139 124,95
SMOTE_TL-EasyEnsemble 10 52,6479 10,4442 38,1944 74,5000 124,85
Borderline_SMOTE-C45CS 10 55,0652 11,6525 38,1428 78,4826 123,30
SPIDER2-AdaBoost 10 49,3090 7,2139 35,8943 56,0976 122,85
ADOMS-BalanceCascade 10 51,0262 14,7766 23,3514 71,8750 122,60
CPM-AdaBoostM1 10 56,3010 15,3646 34,7701 89,5833 121,50
SMOTE-RUSBoost 10 55,7017 12,4373 38,8990 80,3483 121,25
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
97
Clasificador N Media Desviación
estándar Mínimo Máximo
Rango promedio
Safe_Level_SMOTE-OverBagging2
10 53,3202 7,6276 43,2547 67,5705 120,85
Ninguno-NNCS 10 48,9717 15,4823 22,0416 69,2568 119,60
Safe_Level_SMOTE-BalanceCascade
10 53,0958 12,7439 34,8238 84,3750 117,70
SMOTE-BalanceCascade 10 56,5283 11,5362 42,3775 79,9751 117,50
Ninguno-UnderBagging2 10 50,9606 14,0688 25,3731 68,0705 115,70
TL-AdaBoost 10 48,7041 11,2394 23,6111 66,3957 115,00
CPM-AdaBoost 10 51,2462 5,3348 41,1692 60,6019 113,40
SPIDER2-Bagging 10 56,4767 15,0985 47,4099 97,5694 113,00
ADOMS-AdaBoostM1 10 56,9009 14,7365 44,1016 93,7500 112,20
ADOMS-AdaBoostM2 10 56,9009 14,7365 44,1016 93,7500 112,20
CNN-AdaBoost 10 50,9505 12,6365 32,2917 82,4242 112,10
SMOTE-SMOTEBoost 10 52,8672 9,3437 45,8106 77,7363 108,85
CPM-Bagging 10 52,6351 10,9966 36,3581 72,5694 102,10
CNNTL-AdaBoost 10 50,7909 11,0892 26,3682 65,8802 101,00
ADOMS-AdaC2 10 52,9952 8,9534 39,7308 67,6300 100,00
CPM-NNCS 10 50,7076 14,1097 31,3063 80,9091 99,40
SMOTE_TL-SMOTEBoost 10 55,7624 20,4685 31,7164 95,4861 94,40
SMOTE-IIVotes 10 52,0996 8,4642 41,2376 67,9692 86,70
CPM-IIVotes 10 51,6919 10,2359 31,2189 67,3084 85,30
CPM-EasyEnsemble 10 49,8249 12,0015 20,5224 64,2361 80,65
RUS-AdaBoostM1 10 49,0897 11,0889 29,3919 69,5100 79,90
Según el criterio de selección establecido, como intervienen 320 clasificadores, el tercio mejor se
encuentra por encima de 213 en el ranking promedio. Por tanto, se seleccionan aquellos que superan ese
valor:
Clasificador N Media Desviación estándar
Mínimo Máximo Rango
promedio
NCL-AdaBoostM1 10 62,3059 15,3046 45,9459 99,6528 233,85
NCL-AdaBoostM2 10 62,3059 15,3046 45,9459 99,6528 233,85
ADASYN-IIVotes 10 63,0873 13,5493 47,5802 94,7917 231,55
ROS-RUSBoost 10 61,6280 15,8968 44,9788 98,6111 229,55
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
98
Clasificador N Media Desviación estándar
Mínimo Máximo Rango
promedio
SPIDER-BalanceCascade 10 61,6856 15,5729 48,4234 99,3056 227,95
ROS-AdaBoost 10 60,6780 17,5698 32,8796 99,3056 226,10
TL-AdaBoostM1 10 62,3835 16,1044 46,6418 99,6528 224,00
ADASYN-SMOTEBoost 10 61,8098 15,4541 47,0149 97,5694 219,95
ROS-AdaC2 10 61,0737 15,3942 45,0847 99,3056 219,30
CPM-SMOTEBoost 10 62,5478 13,1599 49,2117 90,4040 217,35
SPIDER-OverBagging 10 61,4613 15,4237 47,9730 98,6111 216,50
ROS-AdaBoostM1 10 60,6018 17,6139 33,7568 99,3056 214,95
ROS-AdaBoostM2 10 60,6018 17,6139 33,7568 99,3056 214,95
Existen varias combinaciones que son idénticas (NCL-AdaBoostM1 con NCL-AdaBoostM2 y ROS-
AdaBoostM1 con ROS-AdaBoostM2), por lo que se elimina una de cada una de ellas para evitar realizar
trabajo redundante e innecesario. Acto seguido, se construyen las matrices de confusión y se calculan los
indicadores, en cada conjunto de datos, de los clasificadores seleccionados, para así observar de qué
resultados se parten. En este primera observación, se descarta el conjunto Talca M4, cuyos clasificadores
daban un resultado idéntico en prácticamente todos los casos, por lo que carece capacidad de mejora
con los ensembles. Aun así, los resultados se consideran aceptables y dicho conjunto se incluirá en el
resultado final, pues sea cual sea la combinación que se genere en las iteraciones, el resultado de este
conjunto de datos no va a variar.
Una vez hecho esto, se enumeran los algoritmos que van a intervenir en la generación de ensembles de
la primera iteración:
Clasificador Nº Rango promedio
NCL-AdaBoostM1 1 233,85
ADASYN-IIVotes 2 231,55
ROS-RUSBoost 3 229,55
SPIDER-BalanceCascade 4 227,95
ROS-AdaBoost 5 226,10
TL-AdaBoostM1 6 224,00
ADASYN-SMOTEBoost 7 219,95
ROS-AdaC2 8 219,30
CPM-SMOTEBoost 9 217,35
SPIDER-OverBagging 10 216,50
ROS-AdaBoostM1 11 214,95
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
99
Tras seleccionarlos, se generan tantos ensembles como combinaciones de dos existan, lo que hace un
total de 55 ensembles por conjunto de datos. Después se evalúan los resultados y se descartan aquellos
conjuntos cuyos resultados sean muy malos y/o que carezcan de capacidad de mejora con el paso de las
iteraciones. Por último, se busca un algoritmo que tenga unos resultados aceptables en el mayor conjunto
de datos posible.
Aunque en el siguiente apartado se comentarán los resultados conjunto a conjunto, el resultado principal
de esta iteración fue el descarte de los conjuntos Santiago M4, Valparaíso M5 y Nagoya M5 debido a sus
malos resultados y la falta de capacidad de mejora con el paso de las iteraciones. En la siguiente
iteración, el test de Friedman hace uso del indicador General de cada uno de los ensembles generados y
evaluados. En esta iteración se cuenta con un total de 6 conjuntos de datos, tras los descartes realizados
anteriormente, y con 55 clasificadores a evaluar, resultado de todas las combinaciones posibles a dos
entre los 11 clasificadores seleccionados en la primera iteración. El resultado del test, ordenado de mejor
a peor, es el siguiente:
Ensemble N Media Desviación estándar Mínimo Máximo Rango promedio
@19 6 75,6894 11,6544 60,6687 91,4931 41,75
@13 6 75,3174 17,2444 50,1569 100,0000 40,33
@12 6 74,8787 16,7193 50,1569 100,0000 39,92
@15 6 71,6954 17,5133 46,5491 100,0000 37,33
@27 6 72,9768 13,2473 50,2072 84,4792 36,00
@24 6 75,7119 8,0587 67,8576 87,1528 35,75
@26 6 73,9225 12,7209 55,9824 91,4931 35,75
@111 6 71,5476 17,5060 46,5491 100,0000 35,50
@29 6 74,1055 9,2237 60,6687 84,2647 35,33
@17 6 70,7966 14,6924 50,1667 91,4931 33,83
@310 6 73,3644 13,3046 52,4785 87,1528 33,17
@14 6 70,8750 16,9932 51,6906 100,0000 32,92
@18 6 71,4698 16,0363 51,8532 100,0000 32,50
@211 6 71,8542 18,1167 39,4481 91,4931 32,42
@210 6 72,7701 14,2719 48,2103 87,1528 32,25
@110 6 71,6794 16,8090 50,1471 100,0000 31,50
@311 6 71,9694 18,6836 39,1958 91,4931 31,50
@36 6 72,1859 15,8902 46,0023 91,4931 31,00
@23 6 72,1821 15,9518 44,3710 87,1528 30,92
@37 6 72,4251 15,3065 47,5021 87,1528 30,83
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
100
Ensemble N Media Desviación estándar Mínimo Máximo Rango promedio
@79 6 72,2046 12,7071 51,8532 84,2647 30,83
@38 6 72,0054 16,2645 45,1644 91,4931 29,75
@28 6 72,0030 16,1054 45,1644 91,4931 29,50
@35 6 71,7677 18,7800 39,1958 91,4931 29,50
@39 6 72,6602 12,3700 53,7646 84,2647 29,50
@34 6 71,6530 18,4887 40,1954 91,4931 28,92
@69 6 71,6986 11,9372 51,8532 84,2647 28,42
@911 6 71,3899 16,7034 42,9414 87,1528 27,92
@67 6 70,5526 12,0363 57,7493 91,4931 27,67
@16 6 72,5909 14,2756 62,8319 100,0000 27,50
@25 6 68,5957 17,1569 39,4481 91,4931 27,50
@1011 6 68,9933 16,0187 43,1334 91,4931 27,42
@910 6 71,1658 10,6938 57,4726 84,4792 26,42
@611 6 67,9801 16,9044 39,4481 91,4931 25,42
@59 6 70,7874 16,9720 42,9414 87,1528 25,25
@89 6 71,6331 12,9190 54,3753 87,1528 25,25
@510 6 68,2434 16,1233 43,1334 91,4931 25,08
@47 6 68,8498 15,2196 44,4153 87,1528 24,50
@49 6 72,0907 18,1876 47,2738 100,0000 24,50
@56 6 67,8983 16,9135 39,4481 91,4931 24,25
@610 6 70,6833 11,4361 59,2779 91,4931 24,17
@711 6 67,4056 17,7703 35,7387 87,1528 23,83
@68 6 69,5176 12,9819 52,5900 91,4931 23,75
@57 6 67,4031 17,8191 35,7387 87,1528 23,42
@710 6 69,0505 13,5541 48,2103 87,1528 22,83
@411 6 66,0558 20,6678 28,7987 91,4931 22,33
@46 6 68,5823 12,7504 49,1597 87,1528 21,75
@78 6 67,9825 14,2354 44,8649 87,1528 21,58
@45 6 65,8097 20,6513 28,7987 91,4931 21,08
@410 6 68,0864 14,6010 48,2103 91,4931 19,92
@810 6 68,0505 14,2475 48,2103 91,4931 18,17
@511 6 65,4856 18,5865 31,4890 87,1528 17,17
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
101
Ensemble N Media Desviación estándar Mínimo Máximo Rango promedio
@48 6 67,0095 16,7781 39,6507 91,4931 16,08
@811 6 65,7649 17,5582 34,1278 87,1528 14,92
@58 6 65,4384 17,5357 34,1278 87,1528 13,42
En este caso, como han participado 55 ensembles, el tercio mejor se encuentra en 36,67. Por tanto, se
seleccionan los ensembles que se encuentran por encima de ese valor:
Ensemble N Media Desviación estándar Mínimo Máximo Rango promedio
@19 6 75,6894 11,6544 60,6687 91,4931 41,75
@13 6 75,3174 17,2444 50,1569 100,0000 40,33
@12 6 74,8787 16,7193 50,1569 100,0000 39,92
@15 6 71,6954 17,5133 46,5491 100,0000 37,33
Tras esto, se realizan todos los ensembles posibles a dos y se evalúan los resultados. En esta iteración,
se tiene que el ensemble resultante de la combinación de los ensembles 1-9 y 1-2, es decir, la
combinación de los clasificadores iniciales 1,2 y 9 (NCL-AdaBoostM1 + ADASYN-IIVotes + CPM-
SMOTEBoost) presenta unos resultados aceptables en los 6 conjuntos de datos que no habían sido
descartados, más el conjunto Talca M4, que fue descartado inicialmente porque ya no podía mejorar más,
pero que presentaba resultados aceptables también.
Tras comentar los resultados a nivel general, ahora se procede a detallar los resultados de los mejores
clasificadores globales de cada conjunto de datos.
5.2.1. Pichilemu M4
5.2.1.1. Iteración 1
En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera
iteración:
Clasificador AUC
NCL-AdaBoostM1 0,5186
ADASYN-IIVotes 0,4758
ROS-RUSBoost 0,4498
SPIDER-BalanceCascade 0,4003
ROS-AdaBoost 0,3288
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
102
Clasificador AUC
TL-AdaBoostM1 0,5461
ADASYN-SMOTEBoost 0,5032
ROS-AdaC2 0,4508
CPM-SMOTEBoost 0,5012
SPIDER-OverBagging 0,4920
ROS-AdaBoostM1 0,3376
Se construyen las matrices de confusión y se calculan los indicadores:
Clasificador TP FP TN FN S E VPP VPN GRAL.
NCL-AdaBoostM1 9 7 51 48 0,1579 0,8793 0,5625 0,5152 0,5287
ADASYN-IIVotes 11 14 44 46 0,1930 0,7586 0,4400 0,4889 0,4701
ROS-RUSBoost 10 16 42 47 0,1754 0,7241 0,3846 0,4719 0,4390
SPIDER-BalanceCascade 25 37 21 32 0,4386 0,3621 0,4032 0,3962 0,4000
ROS-AdaBoost 8 28 30 49 0,1404 0,5172 0,2222 0,3797 0,3149
TL-AdaBoostM1 20 15 43 37 0,3509 0,7414 0,5714 0,5375 0,5503
ADASYN-SMOTEBoost 21 21 37 36 0,3684 0,6379 0,5000 0,5068 0,5033
ROS-AdaC2 17 23 35 40 0,2982 0,6034 0,4250 0,4667 0,4483
CPM-SMOTEBoost 8 8 50 49 0,1404 0,8621 0,5000 0,5051 0,5019
SPIDER-OverBagging 4 5 53 53 0,0702 0,9138 0,4444 0,5000 0,4821
ROS-AdaBoostM1 9 28 30 48 0,1579 0,5172 0,2432 0,3846 0,3257
Tras esto, se generan los ensembles de la primera iteración y se muestran los resultados:
Intersección TP FP TN FN S E VPP VPN GRAL.
1,2 5 5 53 52 0,0877 0,9138 0,5000 0,5048 0,5016
1,3 5 5 53 52 0,0877 0,9138 0,5000 0,5048 0,5016
1,4 7 6 52 50 0,1228 0,8966 0,5385 0,5098 0,5169
1,5 4 6 52 53 0,0702 0,8966 0,4000 0,4952 0,4655
1,6 7 1 57 50 0,1228 0,9828 0,8750 0,5327 0,6283
1,7 6 6 52 51 0,1053 0,8966 0,5000 0,5049 0,5017
1,8 6 5 53 51 0,1053 0,9138 0,5455 0,5096 0,5185
1,9 5 1 57 52 0,0877 0,9828 0,8333 0,5229 0,6067
1,10 4 4 54 53 0,0702 0,9310 0,5000 0,5047 0,5015
1,11 4 6 52 53 0,0702 0,8966 0,4000 0,4952 0,4655
2,3 5 9 49 52 0,0877 0,8448 0,3571 0,4851 0,4437
2,4 20 3 55 37 0,3509 0,9483 0,8696 0,5978 0,6916
2,5 4 12 46 53 0,0702 0,7931 0,2500 0,4646 0,3945
2,6 9 5 53 48 0,1579 0,9138 0,6429 0,5248 0,5598
2,7 10 10 48 47 0,1754 0,8276 0,5000 0,5053 0,5021
2,8 7 11 47 50 0,1228 0,8103 0,3889 0,4845 0,4516
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
103
Intersección TP FP TN FN S E VPP VPN GRAL.
2,9 5 1 57 52 0,0877 0,9828 0,8333 0,5229 0,6067
2,10 4 5 53 53 0,0702 0,9138 0,4444 0,5000 0,4821
2,11 4 12 46 53 0,0702 0,7931 0,2500 0,4646 0,3945
3,4 7 16 42 50 0,1228 0,7241 0,3043 0,4565 0,4020
3,5 5 14 44 52 0,0877 0,7586 0,2632 0,4583 0,3920
3,6 6 9 49 51 0,1053 0,8448 0,4000 0,4900 0,4600
3,7 7 9 49 50 0,1228 0,8448 0,4375 0,4949 0,4750
3,8 7 11 47 50 0,1228 0,8103 0,3889 0,4845 0,4516
3,9 6 4 54 51 0,1053 0,9310 0,6000 0,5143 0,5376
3,10 4 3 55 53 0,0702 0,9483 0,5714 0,5093 0,5248
3,11 5 14 44 52 0,0877 0,7586 0,2632 0,4583 0,3920
4,5 5 27 31 52 0,0877 0,5345 0,1563 0,3735 0,2880
4,6 12 13 45 45 0,2105 0,7759 0,4800 0,5000 0,4916
4,7 13 19 39 44 0,2281 0,6724 0,4063 0,4699 0,4442
4,8 11 22 36 46 0,1930 0,6207 0,3333 0,4390 0,3965
4,9 6 8 50 51 0,1053 0,8621 0,4286 0,4950 0,4727
4,10 4 5 53 53 0,0702 0,9138 0,4444 0,5000 0,4821
4,11 5 27 31 52 0,0877 0,5345 0,1563 0,3735 0,2880
5,6 4 12 46 53 0,0702 0,7931 0,2500 0,4646 0,3945
5,7 5 18 40 52 0,0877 0,6897 0,2174 0,4348 0,3574
5,8 5 20 38 52 0,0877 0,6552 0,2000 0,4222 0,3413
5,9 3 7 51 54 0,0526 0,8793 0,3000 0,4857 0,4294
5,10 2 5 53 55 0,0351 0,9138 0,2857 0,4907 0,4313
5,11 8 28 30 49 0,1404 0,5172 0,2222 0,3797 0,3149
6,7 16 9 49 41 0,2807 0,8448 0,6400 0,5444 0,5775
6,8 11 9 49 46 0,1930 0,8448 0,5500 0,5158 0,5259
6,9 6 5 53 51 0,1053 0,9138 0,5455 0,5096 0,5185
6,10 4 1 57 53 0,0702 0,9828 0,8000 0,5182 0,5928
6,11 4 12 46 53 0,0702 0,7931 0,2500 0,4646 0,3945
7,8 10 15 43 47 0,1754 0,7414 0,4000 0,4778 0,4486
7,9 6 5 53 51 0,1053 0,9138 0,5455 0,5096 0,5185
7,10 4 5 53 53 0,0702 0,9138 0,4444 0,5000 0,4821
7,11 5 18 40 52 0,0877 0,6897 0,2174 0,4348 0,3574
8,9 5 3 55 52 0,0877 0,9483 0,6250 0,5140 0,5438
8,10 4 5 53 53 0,0702 0,9138 0,4444 0,5000 0,4821
8,11 5 20 38 52 0,0877 0,6552 0,2000 0,4222 0,3413
9,10 3 1 57 54 0,0526 0,9828 0,7500 0,5135 0,5747
9,11 3 7 51 54 0,0526 0,8793 0,3000 0,4857 0,4294
10,11 2 5 53 55 0,0351 0,9138 0,2857 0,4907 0,4313
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
104
Se selecciona el mejor ensemble de la primera iteración y se compara con el mejor clasificador simple:
Clasificador S E VPP VPN GRAL.
TL-AdaBoostM1 0,3509 0,7414 0,5714 0,5375 0,5503
2,4 0,3509 0,9483 0,8696 0,5978 0,6916
Mejora Ensemble 0,0000 0,2069 0,2981 0,0603 0,1413
5.2.1.2. Iteración 2
En primer lugar, se muestran en detalle los clasificadores seleccionados en el test de Friedman de la
segunda iteración:
Ensemble TP FP TN FN S E VPP VPN GRAL.
1,9 5 1 57 52 0,0877 0,9828 0,8333 0,5229 0,6067
1,3 5 5 53 52 0,0877 0,9138 0,5000 0,5048 0,5016
1,2 5 5 53 52 0,0877 0,9138 0,5000 0,5048 0,5016
1,5 4 6 52 53 0,0702 0,8966 0,4000 0,4952 0,4655
Tras esto, se generan los ensembles de la segunda iteración y se muestran los resultados:
Intersección TP FP TN FN S E VPP VPN GRAL.
1-9,1-3 5 1 57 52 0,0877 0,9828 0,8333 0,5229 0,6067
1-9,1-2 4 0 58 53 0,0702 1,0000 1,0000 0,5225 0,6482
1-9,1-5 3 1 57 54 0,0526 0,9828 0,7500 0,5135 0,5747
1-3,1-2 4 4 54 53 0,0702 0,9310 0,5000 0,5047 0,5015
1-3,1-5 3 5 53 54 0,0526 0,9138 0,3750 0,4953 0,4592
1-2,1-5 3 5 53 54 0,0526 0,9138 0,3750 0,4953 0,4592
Como se comentó inicialmente, se selecciona el ensemble 1-9,1-2 y se compara con el mejor de la
primera iteración y con el mejor clasificador simple:
Clasificador S E VPP VPN GRAL.
TL-AdaBoostM1 0,3509 0,7414 0,5714 0,5375 0,5503
1-9,1-2 0,0702 1,0000 1,0000 0,5225 0,6482
Mejora Ensemble -0,2807 0,2586 0,4286 -0,0150 0,0979
Clasificador S E VPP VPN GRAL.
2,4 0,3509 0,9483 0,8696 0,5978 0,6916
1-9,1-2 0,0702 1,0000 1,0000 0,5225 0,6482
Mejora Ensemble -0,2807 0,0517 0,1304 -0,0753 -0,0435
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
105
5.2.2. Pichilemu M5
5.2.2.1. Iteración 1
En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera
iteración:
Clasificador AUC
NCL-AdaBoostM1 0,6500
ADASYN-IIVotes 0,6323
ROS-RUSBoost 0,6100
SPIDER-BalanceCascade 0,7631
ROS-AdaBoost 0,6069
TL-AdaBoostM1 0,6400
ADASYN-SMOTEBoost 0,6700
ROS-AdaC2 0,6069
CPM-SMOTEBoost 0,5808
SPIDER-OverBagging 0,5746
ROS-AdaBoostM1 0,6023
Se construyen las matrices de confusión y se calculan los indicadores:
Clasificador TP FP TN FN S E VPP VPN GRAL.
NCL-AdaBoostM1 15 0 65 35 0,3000 1,0000 1,0000 0,6500 0,7375
ADASYN-IIVotes 14 1 64 36 0,2800 0,9846 0,9333 0,6400 0,7095
ROS-RUSBoost 11 0 65 39 0,2200 1,0000 1,0000 0,6250 0,7113
SPIDER-BalanceCascade 34 10 55 16 0,6800 0,8462 0,7727 0,7746 0,7684
ROS-AdaBoost 13 3 62 37 0,2600 0,9538 0,8125 0,6263 0,6632
TL-AdaBoostM1 14 0 65 36 0,2800 1,0000 1,0000 0,6436 0,7309
ADASYN-SMOTEBoost 17 0 65 33 0,3400 1,0000 1,0000 0,6633 0,7508
ROS-AdaC2 13 3 62 37 0,2600 0,9538 0,8125 0,6263 0,6632
CPM-SMOTEBoost 15 9 56 35 0,3000 0,8615 0,6250 0,6154 0,6005
SPIDER-OverBagging 9 2 63 41 0,1800 0,9692 0,8182 0,6058 0,6433
ROS-AdaBoostM1 11 1 64 39 0,2200 0,9846 0,9167 0,6214 0,6857
Tras esto, se generan los ensembles de la primera iteración y se muestran los resultados:
Intersección TP FP TN FN S E VPP VPN GRAL.
1,2 10 0 65 40 0,2 1 1 0,6190 0,7048
1,3 10 0 65 40 0,2 1 1 0,6190 0,7048
1,4 15 0 65 35 0,3 1 1 0,6500 0,7375
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
106
Intersección TP FP TN FN S E VPP VPN GRAL.
1,5 12 0 65 38 0,24 1 1 0,6311 0,7178
1,6 10 0 65 40 0,2 1 1 0,6190 0,7048
1,7 13 0 65 37 0,26 1 1 0,6373 0,7243
1,8 12 0 65 38 0,24 1 1 0,6311 0,7178
1,9 10 0 65 40 0,2 1 1 0,6190 0,7048
1,10 8 0 65 42 0,16 1 1 0,6075 0,6919
1,11 10 0 65 40 0,2 1 1 0,6190 0,7048
2,3 9 0 65 41 0,18 1 1 0,6132 0,6983
2,4 13 0 65 37 0,26 1 1 0,6373 0,7243
2,5 9 0 65 41 0,18 1 1 0,6132 0,6983
2,6 10 0 65 40 0,2 1 1 0,6190 0,7048
2,7 13 0 65 37 0,26 1 1 0,6373 0,7243
2,8 9 0 65 41 0,18 1 1 0,6132 0,6983
2,9 9 0 65 41 0,18 1 1 0,6132 0,6983
2,10 7 0 65 43 0,14 1 1 0,6019 0,6855
2,11 9 0 65 41 0,18 1 1 0,6132 0,6983
3,4 10 0 65 40 0,2 1 1 0,6190 0,7048
3,5 10 0 65 40 0,2 1 1 0,6190 0,7048
3,6 11 0 65 39 0,22 1 1 0,6250 0,7113
3,7 11 0 65 39 0,22 1 1 0,6250 0,7113
3,8 10 0 65 40 0,2 1 1 0,6190 0,7048
3,9 8 0 65 42 0,16 1 1 0,6075 0,6919
3,10 8 0 65 42 0,16 1 1 0,6075 0,6919
3,11 10 0 65 40 0,2 1 1 0,6190 0,7048
4,5 12 2 63 38 0,24 0,9692 0,8571 0,6238 0,6725
4,6 12 0 65 38 0,24 1 1 0,6311 0,7178
4,7 15 0 65 35 0,3 1 1 0,6500 0,7375
4,8 12 2 63 38 0,24 0,9692 0,8571 0,6238 0,6725
4,9 15 7 58 35 0,3 0,8923 0,6818 0,6237 0,6244
4,10 9 2 63 41 0,18 0,9692 0,8182 0,6058 0,6433
4,11 10 1 64 40 0,2 0,9846 0,9091 0,6154 0,6773
5,6 10 0 65 40 0,2 1 1 0,6190 0,7048
5,7 12 0 65 38 0,24 1 1 0,6311 0,7178
5,8 13 3 62 37 0,26 0,9538 0,8125 0,6263 0,6632
5,9 8 2 63 42 0,16 0,9692 0,8 0,6000 0,6323
5,10 7 1 64 43 0,14 0,9846 0,875 0,5981 0,6494
5,11 10 1 64 40 0,2 0,9846 0,9091 0,6154 0,6773
6,7 12 0 65 38 0,24 1 1 0,6311 0,7178
6,8 10 0 65 40 0,2 1 1 0,6190 0,7048
6,9 9 0 65 41 0,18 1 1 0,6132 0,6983
6,10 9 0 65 41 0,18 1 1 0,6132 0,6983
6,11 10 0 65 40 0,2 1 1 0,6190 0,7048
7,8 12 0 65 38 0,24 1 1 0,6311 0,7178
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
107
Intersección TP FP TN FN S E VPP VPN GRAL.
7,9 10 0 65 40 0,2 1 1 0,6190 0,7048
7,10 8 0 65 42 0,16 1 1 0,6075 0,6919
7,11 11 0 65 39 0,22 1 1 0,6250 0,7113
8,9 8 2 63 42 0,16 0,9692 0,8 0,6000 0,6323
8,10 7 1 64 43 0,14 0,9846 0,875 0,5981 0,6494
8,11 10 1 64 40 0,2 0,9846 0,9091 0,6154 0,6773
9,10 8 2 63 42 0,16 0,9692 0,8 0,6000 0,6323
9,11 8 1 64 42 0,16 0,9846 0,8889 0,6038 0,6593
10,11 7 0 65 43 0,14 1 1 0,6019 0,6855
Se selecciona el mejor ensemble de la primera iteración y se compara con el mejor clasificador simple:
Clasificador S E VPP VPN GRAL.
SPIDER-BalanceCascade 0,6800 0,8462 0,7727 0,7746 0,7684
1,4 0,3 1 1 0,6500 0,7375
Mejora Ensemble -0,3800 0,1538 0,2273 -0,1246 -0,0309
5.2.2.2. Iteración 2
En primer lugar, se muestran en detalle los clasificadores seleccionados en el test de Friedman de la
segunda iteración:
Ensembles TP FP TN FN S E VPP VPN GRAL.
1,2 10 0 65 40 0,2 1 1 0,6190 0,7048
1,3 10 0 65 40 0,2 1 1 0,6190 0,7048
1,5 12 0 65 38 0,24 1 1 0,6311 0,7178
1,9 10 0 65 40 0,2 1 1 0,6190 0,7048
Tras esto, se generan los ensembles de la primera iteración y se muestran los resultados:
Ensembles TP FP TN FN S E VPP VPN GRAL.
1-9,1-3 8 0 65 42 0,16 1 1 0,6075 0,6919
1-9,1-2 9 0 65 41 0,18 1 1 0,6132 0,6983
1-9,1-5 8 0 65 42 0,16 1 1 0,6075 0,6919
1-3,1-2 8 0 65 42 0,16 1 1 0,6075 0,6919
1-3,1-5 9 0 65 41 0,18 1 1 0,6132 0,6983
1-2,1-5 8 0 65 42 0,16 1 1 0,6075 0,6919
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
108
Como se comentó inicialmente, se selecciona el ensemble 1-9,1-2 y se compara con el mejor de la
primera iteración y con el mejor clasificador simple:
Clasificador S E VPP VPN GRAL.
SPIDER-BalanceCascade 0,6800 0,8462 0,7727 0,7746 0,7684
1-9,1-2 0,18 1 1 0,6132 0,6983
Mejora Ensemble -0,5000 0,1538 0,2273 -0,1614 -0,0701
Clasificador S E VPP VPN GRAL.
1,4 0,3 1 1 0,6500 0,7375
1-9,1-2 0,18 1 1 0,6132 0,6983
Mejora Ensemble -0,1200 0,0000 0,0000 -0,0368 -0,0392
5.2.3. Santiago M4
5.2.3.1. Iteración 1
En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera
iteración:
Clasificador AUC
NCL-AdaBoostM1 0,4595
ADASYN-IIVotes 0,5608
ROS-RUSBoost 0,5000
SPIDER-BalanceCascade 0,4662
ROS-AdaBoost 0,5056
TL-AdaBoostM1 0,4696
ADASYN-SMOTEBoost 0,4899
ROS-AdaC2 0,5056
CPM-SMOTEBoost 0,4921
SPIDER-OverBagging 0,4831
ROS-AdaBoostM1 0,5056
Se construyen las matrices de confusión y se calculan los indicadores:
Clasificador TP FP TN FN S E VPP VPN GRAL.
NCL-AdaBoostM1 0 12 136 12 0,0000 0,9189 0,0000 0,9189 0,4595
ADASYN-IIVotes 3 19 129 9 0,2500 0,8716 0,1364 0,9348 0,5482
ROS-RUSBoost 0 0 148 12 0,0000 1,0000 - 0,9250 -
SPIDER-BalanceCascade 3 47 101 9 0,2500 0,6824 0,0600 0,9182 0,4777
ROS-AdaBoost 2 23 125 10 0,1667 0,8446 0,0800 0,9259 0,5043
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
109
Clasificador TP FP TN FN S E VPP VPN GRAL.
TL-AdaBoostM1 0 9 139 12 0,0000 0,9392 0,0000 0,9205 0,4649
ADASYN-SMOTEBoost 0 3 145 12 0,0000 0,9797 0,0000 0,9236 0,4758
ROS-AdaC2 2 23 125 10 0,1667 0,8446 0,0800 0,9259 0,5043
CPM-SMOTEBoost 2 27 121 10 0,1667 0,8176 0,0690 0,9237 0,4942
SPIDER-OverBagging 0 5 143 12 0,0000 0,9662 0,0000 0,9226 0,4722
ROS-AdaBoostM1 2 23 125 10 0,1667 0,8446 0,0800 0,9259 0,5043
Tras observar que los clasificadores iniciales no dan lugar al optimismo, se generan sólo los ensembles
de la primera iteración que mayores expectativas generan:
Intersección TP FP TN FN S E VPP VPN GRAL.
2,4 2 7 141 10 0,1667 0,9527 0,2222 0,9338 0,5688
2,5 1 6 142 11 0,0833 0,9595 0,1429 0,9281 0,5284
2,8 1 6 142 11 0,0833 0,9595 0,1429 0,9281 0,5284
2,9 1 4 144 11 0,0833 0,9730 0,2000 0,9290 0,5463
2,11 1 6 142 11 0,0833 0,9595 0,1429 0,9281 0,5284
4,5 0 8 140 12 0,0000 0,9459 0,0000 0,9211 0,4667
4,8 0 8 140 12 0,0000 0,9459 0,0000 0,9211 0,4667
4,9 1 10 138 11 0,0833 0,9324 0,0909 0,9262 0,5082
4,11 0 8 140 12 0,0000 0,9459 0,0000 0,9211 0,4667
5,8 2 23 125 10 0,1667 0,8446 0,0800 0,9259 0,5043
5,9 0 8 140 12 0,0000 0,9459 0,0000 0,9211 0,4667
5,11 2 23 125 10 0,1667 0,8446 0,0800 0,9259 0,5043
8,9 0 8 140 12 0,0000 0,9459 0,0000 0,9211 0,4667
8,11 2 23 125 10 0,1667 0,8446 0,0800 0,9259 0,5043
9,11 0 8 140 12 0,0000 0,9459 0,0000 0,9211 0,4667
Ante la falta de expectativas de este conjunto, se decide excluirlo del proceso iterativo.
5.2.4. Talca M4
5.2.4.1. Iteración 1
En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera
iteración:
Clasificador AUC
NCL-AdaBoostM1 0,5610
ADASYN-IIVotes 0,5610
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
110
Clasificador AUC
ROS-RUSBoost 0,5610
SPIDER-BalanceCascade 0,5610
ROS-AdaBoost 0,5610
TL-AdaBoostM1 0,5610
ADASYN-SMOTEBoost 0,5610
ROS-AdaC2 0,5610
CPM-SMOTEBoost 0,5488
SPIDER-OverBagging 0,5610
ROS-AdaBoostM1 0,5610
Se construyen las matrices de confusión y se calculan los indicadores:
Clasificador TP FP TN FN S E VPP VPN GRAL.
NCL-AdaBoostM1 5 0 27 36 0,1220 1 1 0,4286 0,6376
ADASYN-IIVotes 5 0 27 36 0,1220 1 1 0,4286 0,6376
ROS-RUSBoost 5 0 27 36 0,1220 1 1 0,4286 0,6376
SPIDER-BalanceCascade 5 0 27 36 0,1220 1 1 0,4286 0,6376
ROS-AdaBoost 5 0 27 36 0,1220 1 1 0,4286 0,6376
TL-AdaBoostM1 5 0 27 36 0,1220 1 1 0,4286 0,6376
ADASYN-SMOTEBoost 5 0 27 36 0,1220 1 1 0,4286 0,6376
ROS-AdaC2 5 0 27 36 0,1220 1 1 0,4286 0,6376
CPM-SMOTEBoost 4 0 27 37 0,0976 1 1 0,4219 0,6299
SPIDER-OverBagging 5 0 27 36 0,1220 1 1 0,4286 0,6376
ROS-AdaBoostM1 5 0 27 36 0,1220 1 1 0,4286 0,6376
Como se observa, todos los clasificadores, excepto uno (CPM-SMOTEBoost), son idénticos, por lo que
resulta innecesaria la generación de ensembles, pues el resultado va a ser el mismo, excepto si en el
ensemble interviene el clasificador que no es igual a los demás, como es el caso del mejor clasificador
global seleccionado. En ese caso, el resultado del ensemble será el mismo que el de dicho clasificador
(CPM-SMOTEBoost).
Clasificador TP FP TN FN S E VPP VPN GRAL.
1-9,1-2 4 0 27 37 0,0976 1 1 0,4219 0,6299
Debido a lo expuesto, este conjunto de datos se excluye de la siguiente iteración. No obstante, el
resultado se considera aceptable y se incluirá en el resultado final.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
111
5.2.5. Talca M5
5.2.5.1. Iteración 1
En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera
iteración:
Clasificador AUC
NCL-AdaBoostM1 0,6242
ADASYN-IIVotes 0,7000
ROS-RUSBoost 0,7000
SPIDER-BalanceCascade 0,8788
ROS-AdaBoost 0,6747
TL-AdaBoostM1 0,6697
ADASYN-SMOTEBoost 0,6646
ROS-AdaC2 0,6747
CPM-SMOTEBoost 0,9040
SPIDER-OverBagging 0,6646
ROS-AdaBoostM1 0,6747
Se construyen las matrices de confusión y se calculan los indicadores:
Clasificador TP FP TN FN S E VPP VPN GRAL.
NCL-AdaBoostM1 2 15 84 3 0,4 0,8485 0,1176 0,9655 0,5829
ADASYN-IIVotes 2 0 99 3 0,4 1 1 0,9706 0,8426
ROS-RUSBoost 2 0 99 3 0,4 1 1 0,9706 0,8426
SPIDER-BalanceCascade 5 24 75 0 1,0 0,7576 0,1724 1,0000 0,7325
ROS-AdaBoost 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
TL-AdaBoostM1 2 6 93 3 0,4 0,9394 0,2500 0,9688 0,6395
ADASYN-SMOTEBoost 2 7 92 3 0,4 0,9293 0,2222 0,9684 0,6300
ROS-AdaC2 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
CPM-SMOTEBoost 5 19 80 0 1,0 0,8081 0,2083 1,0000 0,7541
SPIDER-OverBagging 2 7 92 3 0,4 0,9293 0,2222 0,9684 0,6300
ROS-AdaBoostM1 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
Tras esto, se generan los ensembles de la primera iteración y se muestran los resultados:
Intersección TP FP TN FN Sensibilidad Especificidad VPP VPN GRAL.
1,2 2 0 99 3 0,4 1 1 0,9706 0,8426
1,3 2 0 99 3 0,4 1 1 0,9706 0,8426
1,4 2 15 84 3 0,4 0,8485 0,1176 0,9655 0,5829
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
112
Intersección TP FP TN FN Sensibilidad Especificidad VPP VPN GRAL.
1,5 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
1,6 2 6 93 3 0,4 0,9394 0,2500 0,9688 0,6395
1,7 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
1,8 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
1,9 2 0 99 3 0,4 1 1 0,9706 0,8426
1,10 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
1,11 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
2,3 2 0 99 3 0,4 1 1 0,9706 0,8426
2,4 2 0 99 3 0,4 1 1 0,9706 0,8426
2,5 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
2,6 2 0 99 3 0,4 1 1 0,9706 0,8426
2,7 2 0 99 3 0,4 1 1 0,9706 0,8426
2,8 2 0 99 3 0,4 1 1 0,9706 0,8426
2,9 2 0 99 3 0,4 1 1 0,9706 0,8426
2,10 2 0 99 3 0,4 1 1 0,9706 0,8426
2,11 2 0 99 3 0,4 1 1 0,9706 0,8426
3,4 2 0 99 3 0,4 1 1 0,9706 0,8426
3,5 2 0 99 3 0,4 1 1 0,9706 0,8426
3,6 2 0 99 3 0,4 1 1 0,9706 0,8426
3,7 2 0 99 3 0,4 1 1 0,9706 0,8426
3,8 2 0 99 3 0,4 1 1 0,9706 0,8426
3,9 2 0 99 3 0,4 1 1 0,9706 0,8426
3,10 2 0 99 3 0,4 1 1 0,9706 0,8426
3,11 2 0 99 3 0,4 1 1 0,9706 0,8426
4,5 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
4,6 2 6 93 3 0,4 0,9394 0,2500 0,9688 0,6395
4,7 2 7 92 3 0,4 0,9293 0,2222 0,9684 0,6300
4,8 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
4,9 5 0 99 0 1 1 1 1,0000 1,0000
4,10 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
4,11 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
5,6 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
5,7 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
5,8 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
5,9 2 0 99 3 0,4 1 1 0,9706 0,8426
5,10 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
5,11 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
6,7 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
6,8 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
6,9 2 0 99 3 0,4 1 1 0,9706 0,8426
6,10 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
6,11 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
7,8 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
113
Intersección TP FP TN FN Sensibilidad Especificidad VPP VPN GRAL.
7,9 2 0 99 3 0,4 1 1 0,9706 0,8426
7,10 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
7,11 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
8,9 2 0 99 3 0,4 1 1 0,9706 0,8426
8,10 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
8,11 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
9,10 2 1 98 3 0,4 0,9899 0,6667 0,9703 0,7567
9,11 2 0 99 3 0,4 1 1 0,9706 0,8426
10,11 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
Se selecciona el mejor ensemble de la primera iteración y se compara con el mejor clasificador simple:
Clasificador S E VPP VPN GRAL.
ADASYN-IIVotes 0,4 1 1 0,9706 0,8426
4,9 1 1 1 1 1
Mejora Ensemble 0,6000 0,0000 0,0000 0,0294 0,1574
5.2.5.2. Iteración 2
En primer lugar, se muestran en detalle los clasificadores seleccionados en el test de Friedman de la
segunda iteración:
Intersección TP FP TN FN S E VPP VPN GRAL.
1,2 2 0 99 3 0,4 1 1 0,9706 0,8426
1,3 2 0 99 3 0,4 1 1 0,9706 0,8426
1,5 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511
1,9 2 0 99 3 0,4 1 1 0,9706 0,8426
Tras esto, se generan los ensembles de la primera iteración y se muestran los resultados:
Ensembles TP FP TN FN S E VPP VPN GRAL.
1-9,1-3 2 0 99 3 0,4 1 1 0,9706 0,8426
1-9,1-2 2 0 99 3 0,4 1 1 0,9706 0,8426
1-9,1-5 2 0 99 3 0,4 1 1 0,9706 0,8426
1-3,1-2 2 0 99 3 0,4 1 1 0,9706 0,8426
1-3,1-5 2 0 99 3 0,4 1 1 0,9706 0,8426
1-2,1-5 2 0 99 3 0,4 1 1 0,9706 0,8426
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
114
Como se comentó inicialmente, se selecciona el ensemble 1-9,1-2 y se compara con el mejor de la
primera iteración y con el mejor clasificador simple:
Clasificador S E VPP VPN GRAL.
ADASYN-IIVotes 0,4 1 1 0,9706 0,8426
1-9,1-2 0,4 1 1 0,9706 0,8426
Mejora Ensemble 0,0000 0,0000 0,0000 0,0000 0,0000
Clasificador S E VPP VPN GRAL.
4,9 1 1 1 1 1
1-9,1-2 0,4 1 1 0,9706 0,8426
Mejora Ensemble -0,6000 0,0000 0,0000 -0,0294 -0,1574
5.2.6. Valparaíso M4
5.2.6.1. Iteración 1
En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera
iteración:
Clasificador AUC
NCL-AdaBoostM1 0,7114
ADASYN-IIVotes 0,6865
ROS-RUSBoost 0,7384
SPIDER-BalanceCascade 0,6821
ROS-AdaBoost 0,7170
TL-AdaBoostM1 0,6250
ADASYN-SMOTEBoost 0,7340
ROS-AdaC2 0,6356
CPM-SMOTEBoost 0,7183
SPIDER-OverBagging 0,7030
ROS-AdaBoostM1 0,7170
Se construyen las matrices de confusión y se calculan los indicadores:
Clasificador TP FP TN FN S E VPP VPN GRAL.
NCL-AdaBoostM1 48 13 214 52 0,48 0,9427 0,7869 0,8045 0,7535
ADASYN-IIVotes 58 47 180 42 0,58 0,7930 0,5524 0,8108 0,6840
ROS-RUSBoost 49 3 224 51 0,49 0,9868 0,9423 0,8145 0,8084
SPIDER-BalanceCascade 58 49 178 42 0,58 0,7841 0,5421 0,8091 0,6788
ROS-AdaBoost 50 15 212 50 0,50 0,9339 0,7692 0,8092 0,7531
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
115
Clasificador TP FP TN FN S E VPP VPN GRAL.
TL-AdaBoostM1 25 0 227 75 0,25 1,0000 1,0000 0,7517 0,7504
ADASYN-SMOTEBoost 49 5 222 51 0,49 0,9780 0,9074 0,8132 0,7971
ROS-AdaC2 28 2 225 72 0,28 0,9912 0,9333 0,7576 0,7405
CPM-SMOTEBoost 56 28 199 44 0,56 0,8767 0,6667 0,8189 0,7306
SPIDER-OverBagging 45 10 217 55 0,45 0,9559 0,8182 0,7978 0,7555
ROS-AdaBoostM1 50 15 212 50 0,50 0,9339 0,7692 0,8092 0,7531
Tras esto, se generan los ensembles de la primera iteración y se muestran los resultados:
Intersección TP FP TN FN S E VPP VPN GRAL.
1,2 48 11 216 52 0,48 0,9515 0,8136 0,8060 0,7628
1,3 48 1 226 52 0,48 0,9956 0,9796 0,8129 0,8170
1,4 48 11 216 52 0,48 0,9515 0,8136 0,8060 0,7628
1,5 47 6 221 53 0,47 0,9736 0,8868 0,8066 0,7842
1,6 25 0 227 75 0,25 1 1 0,7517 0,7504
1,7 48 0 227 52 0,48 1 1 0,8136 0,8234
1,8 27 1 226 73 0,27 0,9956 0,9643 0,7559 0,7464
1,9 48 3 224 52 0,48 0,9868 0,9412 0,8116 0,8049
1,10 44 2 225 56 0,44 0,9912 0,9565 0,8007 0,7971
1,11 47 6 221 53 0,47 0,9736 0,8868 0,8066 0,7842
2,3 49 2 225 51 0,49 0,9912 0,9608 0,8152 0,8143
2,4 52 22 205 48 0,52 0,9031 0,7027 0,8103 0,7340
2,5 48 8 219 52 0,48 0,9648 0,8571 0,8081 0,7775
2,6 25 0 227 75 0,25 1 1 0,7517 0,7504
2,7 49 4 223 51 0,49 0,9824 0,9245 0,8139 0,8027
2,8 28 1 226 72 0,28 0,9956 0,9655 0,7584 0,7499
2,9 52 6 221 48 0,52 0,9736 0,8966 0,8216 0,8029
2,10 45 3 224 55 0,45 0,9868 0,9375 0,8029 0,7943
2,11 48 8 219 52 0,48 0,9648 0,8571 0,8081 0,7775
3,4 49 3 224 51 0,49 0,9868 0,9423 0,8145 0,8084
3,5 47 1 226 53 0,47 0,9956 0,9792 0,8100 0,8137
3,6 25 0 227 75 0,25 1 1 0,7517 0,7504
3,7 49 1 226 51 0,49 0,9956 0,9800 0,8159 0,8204
3,8 28 0 227 72 0,28 1 1 0,7592 0,7598
3,9 49 1 226 51 0,49 0,9956 0,9800 0,8159 0,8204
3,10 45 0 227 55 0,45 1 1 0,8050 0,8137
3,11 47 1 226 53 0,47 0,9956 0,9792 0,8100 0,8137
4,5 48 12 215 52 0,48 0,9471 0,8 0,8052 0,7581
4,6 25 0 227 75 0,25 1 1 0,7517 0,7504
4,7 49 3 224 51 0,49 0,9868 0,9423 0,8145 0,8084
4,8 28 2 225 72 0,28 0,9912 0,9333 0,7576 0,7405
4,9 52 4 223 48 0,52 0,9824 0,9286 0,8229 0,8135
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
116
Intersección TP FP TN FN S E VPP VPN GRAL.
410 45 8 219 55 0,45 0,9648 0,8491 0,7993 0,7658
4,11 48 12 215 52 0,48 0,9471 0,8 0,8052 0,7581
5,6 24 0 227 76 0,24 1 1 0,7492 0,7473
5,7 47 3 224 53 0,47 0,9868 0,94 0,8087 0,8014
5,8 27 1 226 73 0,27 0,9956 0,9643 0,7559 0,7464
5,9 47 0 227 53 0,47 1 1 0,8107 0,8202
5,10 44 4 223 56 0,44 0,9824 0,9167 0,7993 0,7846
5,11 50 15 212 50 0,5 0,9339 0,7692 0,8092 0,7531
6,7 25 0 227 75 0,25 1 1 0,7517 0,7504
6,8 21 0 227 79 0,21 1 1 0,7418 0,7380
6,9 25 0 227 75 0,25 1 1 0,7517 0,7504
6,10 23 0 227 77 0,23 1 1 0,7467 0,7442
6,11 24 0 227 76 0,24 1 1 0,7492 0,7473
7,8 28 0 227 72 0,28 1 1 0,7592 0,7598
7,9 49 0 227 51 0,49 1 1 0,8165 0,8266
7,10 45 2 225 55 0,45 0,9912 0,9574 0,8036 0,8006
7,11 47 3 224 53 0,47 0,9868 0,94 0,8087 0,8014
8,9 28 0 227 72 0,28 1 1 0,7592 0,7598
8,10 26 1 226 74 0,26 0,9956 0,9630 0,7533 0,7430
8,11 27 1 226 73 0,27 0,9956 0,9643 0,7559 0,7464
9,10 45 1 226 55 0,45 0,9956 0,9783 0,8043 0,8070
9,11 47 0 227 53 0,47 1 1 0,8107 0,8202
10,11 44 4 223 56 0,44 0,9824 0,9167 0,7993 0,7846
Se selecciona el mejor ensemble de la primera iteración y se compara con el mejor clasificador simple:
Clasificador S E VPP VPN GRAL.
ROS-RUSBoost 0,49 0,9868 0,9423 0,8145 0,8084
7,9 0,49 1 1 0,8165 0,8266
Mejora Ensemble 0,0000 0,0132 0,0577 0,0020 0,0182
5.2.6.2. Iteración 2
En primer lugar, se muestran en detalle los clasificadores seleccionados en el test de Friedman de la
segunda iteración:
Intersección TP FP TN FN S E VPP VPN GRAL.
1,2 48 11 216 52 0,48 0,9515 0,8136 0,8060 0,7628
1,3 48 1 226 52 0,48 0,9956 0,9796 0,8129 0,8170
1,5 47 6 221 53 0,47 0,9736 0,8868 0,8066 0,7842
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
117
Intersección TP FP TN FN S E VPP VPN GRAL.
1,9 48 3 224 52 0,48 0,9868 0,9412 0,8116 0,8049
Tras esto, se generan los ensembles de la segunda iteración y se muestran los resultados:
Intersección TP FP TN FN S E VPP VPN GRAL.
1-9,1-3 48 1 226 52 0,48 0,9956 0,9796 0,8129 0,8170
1-9,1-2 48 2 225 52 0,48 0,9912 0,9600 0,8123 0,8109
1-9,1-5 47 0 227 53 0,47 1 1 0,8107 0,8202
1-3,1-2 48 1 226 52 0,48 0,9956 0,9796 0,8129 0,8170
1-3,1-5 47 0 227 53 0,47 1 1 0,8107 0,8202
1-2,1-5 47 6 221 53 0,47 0,9736 0,8868 0,8066 0,7842
Como se comentó inicialmente, se selecciona el ensemble 1-9,1-2 y se compara con el mejor de la
primera iteración y con el mejor clasificador simple:
Clasificador S E VPP VPN GRAL.
ROS-RUSBoost 0,49 0,9868 0,9423 0,8145 0,8084
1-9,1-2 0,48 0,9912 0,9600 0,8123 0,8109
Mejora Ensemble -0,0100 0,0044 0,0177 -0,0023 0,0025
Clasificador S E VPP VPN GRAL.
7,9 0,49 1 1 0,8165 0,8266
1-9,1-2 0,48 0,9912 0,9600 0,8123 0,8109
Mejora Ensemble -0,0100 -0,0088 -0,0400 -0,0043 -0,0158
5.2.7. Valparaíso M5
5.2.7.1. Iteración 1
En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera
iteración:
Clasificador AUC
NCL-AdaBoostM1 0,5721
ADASYN-IIVotes 0,4914
ROS-RUSBoost 0,5126
SPIDER-BalanceCascade 0,4652
ROS-AdaBoost 0,5274
TL-AdaBoostM1 0,5057
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
118
Clasificador AUC
ADASYN-SMOTEBoost 0,5000
ROS-AdaC2 0,5274
CPM-SMOTEBoost 0,5480
SPIDER-OverBagging 0,4966
ROS-AdaBoostM1 0,4949
Se construyen las matrices de confusión y se calculan los indicadores:
Clasificador TP FP TN FN S E VPP VPN GRAL.
NCL-AdaBoostM1 9 33 259 26 0,2571 0,8870 0,2143 0,9088 0,5668
ADASYN-IIVotes 0 5 287 35 0,0000 0,9829 0,0000 0,8913 0,4685
ROS-RUSBoost 1 1 291 34 0,0286 0,9966 0,5000 0,8954 0,6051
SPIDER-BalanceCascade 2 37 255 33 0,0571 0,8733 0,0513 0,8854 0,4668
ROS-AdaBoost 3 9 283 32 0,0857 0,9692 0,2500 0,8984 0,5508
TL-AdaBoostM1 1 5 287 34 0,0286 0,9829 0,1667 0,8941 0,5180
ADASYN-SMOTEBoost 0 0 292 35 0,0000 1,0000 - 0,8930 -
ROS-AdaC2 3 9 283 32 0,0857 0,9692 0,2500 0,8984 0,5508
CPM-SMOTEBoost 6 22 270 29 0,1714 0,9247 0,2143 0,9030 0,5533
SPIDER-OverBagging 0 2 290 35 0,0000 0,9932 0,0000 0,8923 0,4714
ROS-AdaBoostM1 3 28 264 32 0,0857 0,9041 0,0968 0,8919 0,4946
Tras esto, se generan los ensembles de la primera iteración y se muestran los resultados:
Intersección TP FP TN FN S E VPP VPN GRAL.
1,2 0 2 225 100 0 0,9912 0,0000 0,6923 0,4209
1,3 1 1 226 99 0,01 0,9956 0,5000 0,6954 0,5502
1,4 0 6 221 100 0 0,9736 0,0000 0,6885 0,4155
1,5 3 5 222 97 0,03 0,9780 0,3750 0,6959 0,5197
1,6 1 5 222 99 0,01 0,9780 0,1667 0,6916 0,4616
1,7 0 0 227 100 0 1,0000 - 0,6942 -
1,8 3 5 222 97 0,03 0,9780 0,3750 0,6959 0,5197
1,9 5 11 216 95 0,05 0,9515 0,3125 0,6945 0,5021
1,10 0 1 226 100 0 0,9956 0,0000 0,6933 0,4222
1,11 3 11 216 97 0,03 0,9515 0,2143 0,6901 0,4715
2,3 0 0 227 100 0 1,0000 - 0,6942 -
2,4 0 3 224 100 0 0,9868 0,0000 0,6914 0,4195
2,5 0 1 226 100 0 0,9956 0,0000 0,6933 0,4222
2,6 0 0 227 100 0 1,0000 - 0,6942 -
2,7 0 0 227 100 0 1,0000 - 0,6942 -
2,8 0 1 226 100 0 0,9956 0,0000 0,6933 0,4222
2,9 0 3 224 100 0 0,9868 0,0000 0,6914 0,4195
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
119
Intersección TP FP TN FN S E VPP VPN GRAL.
2,10 0 1 226 100 0 0,9956 0,0000 0,6933 0,4222
2,11 0 4 223 100 0 0,9824 0,0000 0,6904 0,4182
3,4 0 1 226 100 0 0,9956 0,0000 0,6933 0,4222
3,5 1 0 227 99 0,01 1,0000 1,0000 0,6963 0,6766
3,6 0 0 227 100 0 1,0000 - 0,6942 -
3,7 0 0 227 100 0 1,0000 - 0,6942 -
3,8 1 0 227 99 0,01 1,0000 1,0000 0,6963 0,6766
3,9 1 0 227 99 0,01 1,0000 1,0000 0,6963 0,6766
3,10 0 0 227 100 0 1,0000 - 0,6942 -
3,11 1 1 226 99 0,01 0,9956 0,5000 0,6954 0,5502
4,5 0 3 224 100 0 0,9868 0,0000 0,6914 0,4195
4,6 0 2 225 100 0 0,9912 0,0000 0,6923 0,4209
4,7 0 0 227 100 0 1,0000 - 0,6942 -
4,8 0 3 224 100 0 0,9868 0,0000 0,6914 0,4195
4,9 0 8 219 100 0 0,9648 0,0000 0,6865 0,4128
4,10 0 2 225 100 0 0,9912 0,0000 0,6923 0,4209
4,11 0 14 213 100 0 0,9383 0,0000 0,6805 0,4047
5,6 1 1 226 99 0,01 0,9956 0,5000 0,6954 0,5502
5,7 0 0 227 100 0 1,0000 - 0,6942 -
5,8 3 9 218 97 0,03 0,9604 0,2500 0,6921 0,4831
5,9 2 2 225 98 0,02 0,9912 0,5000 0,6966 0,5519
5,10 0 2 225 100 0 0,9912 0,0000 0,6923 0,4209
5,11 3 6 221 97 0,03 0,9736 0,3333 0,6950 0,5080
6,7 0 0 227 100 0 1,0000 - 0,6942 -
6,8 1 1 226 99 0,01 0,9956 0,5000 0,6954 0,5502
6,9 0 2 225 100 0 0,9912 0,0000 0,6923 0,4209
6,10 0 0 227 100 0 1,0000 - 0,6942 -
6,11 1 3 224 99 0,01 0,9868 0,2500 0,6935 0,4851
7,8 0 0 227 100 0 1,0000 - 0,6942 -
7,9 0 0 227 100 0 1,0000 - 0,6942 -
7,10 0 0 227 100 0 1,0000 - 0,6942 -
7,11 0 0 227 100 0 1,0000 - 0,6942 -
8,9 2 2 225 98 0,02 0,9912 0,5000 0,6966 0,5519
8,10 0 2 225 100 0 0,9912 0,0000 0,6923 0,4209
8,11 3 6 221 97 0,03 0,9736 0,3333 0,6950 0,5080
9,10 0 1 226 100 0 0,9956 0,0000 0,6933 0,4222
9,11 2 12 215 98 0,02 0,9471 0,1429 0,6869 0,4492
10,11 0 1 226 100 0 0,9956 0,0000 0,6933 0,4222
Al observar los resultados de los ensembles, se evidencia una falta de capacidad de mejora del conjunto,
por lo que se decide excluirlo del proceso iterativo.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
120
5.2.8. Tokyo M5
5.2.8.1. Iteración 1
En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera
iteración:
Clasificador AUC
NCL-AdaBoostM1 0,6485
ADASYN-IIVotes 0,6684
ROS-RUSBoost 0,6050
SPIDER-BalanceCascade 0,5708
ROS-AdaBoost 0,6607
TL-AdaBoostM1 0,6543
ADASYN-SMOTEBoost 0,6125
ROS-AdaC2 0,6596
CPM-SMOTEBoost 0,6170
SPIDER-OverBagging 0,6229
ROS-AdaBoostM1 0,6740
Se construyen las matrices de confusión y se calculan los indicadores:
Clasificador TP FP TN FN S E VPP VPN GRAL.
NCL-AdaBoostM1 397 106 122 124 0,7620 0,5351 0,7893 0,4959 0,6456
ADASYN-IIVotes 420 107 121 101 0,8061 0,5307 0,7970 0,5450 0,6697
ROS-RUSBoost 411 132 96 110 0,7889 0,4211 0,7569 0,4660 0,6082
SPIDER-BalanceCascade 444 162 66 77 0,8522 0,2895 0,7327 0,4615 0,5840
ROS-AdaBoost 348 79 149 173 0,6679 0,6535 0,8150 0,4627 0,6498
TL-AdaBoostM1 339 78 150 182 0,6507 0,6579 0,8129 0,4518 0,6433
ADASYN-SMOTEBoost 380 115 113 141 0,7294 0,4956 0,7677 0,4449 0,6094
ROS-AdaC2 276 48 180 245 0,5298 0,7895 0,8519 0,4235 0,6487
CPM-SMOTEBoost 403 123 105 118 0,7735 0,4605 0,7662 0,4709 0,6178
SPIDER-OverBagging 416 126 102 105 0,7985 0,4474 0,7675 0,4928 0,6265
ROS-AdaBoostM1 339 69 159 182 0,6507 0,6974 0,8309 0,4663 0,6613
Tras esto, se generan los ensembles de la primera iteración y se muestran los resultados:
Intersección TP FP TN FN S E VPP VPN GRAL.
1,2 372 75 153 149 0,7140 0,6711 0,8322 0,5066 0,6810
1,3 330 69 159 191 0,6334 0,6974 0,8271 0,4543 0,6530
1,4 377 92 136 144 0,7236 0,5965 0,8038 0,4857 0,6524
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
121
Intersección TP FP TN FN S E VPP VPN GRAL.
1,5 330 54 174 191 0,6334 0,7632 0,8594 0,4767 0,6832
1,6 325 77 151 196 0,6238 0,6623 0,8085 0,4352 0,6324
1,7 338 83 145 183 0,6488 0,6360 0,8029 0,4421 0,6324
1,8 260 39 189 261 0,4990 0,8289 0,8696 0,4200 0,6544
1,9 337 65 163 184 0,6468 0,7149 0,8383 0,4697 0,6674
1,10 364 82 146 157 0,6987 0,6404 0,8161 0,4818 0,6592
1,11 321 48 180 200 0,6161 0,7895 0,8699 0,4737 0,6873
2,3 355 77 151 166 0,6814 0,6623 0,8218 0,4763 0,6604
2,4 400 91 137 121 0,7678 0,6009 0,8147 0,5310 0,6786
2,5 337 59 169 184 0,6468 0,7412 0,8510 0,4788 0,6795
2,6 323 61 167 198 0,6200 0,7325 0,8411 0,4575 0,6628
2,7 342 70 158 179 0,6564 0,6930 0,8301 0,4688 0,6621
2,8 265 37 191 256 0,5086 0,8377 0,8775 0,4273 0,6628
2,9 362 69 159 159 0,6948 0,6974 0,8399 0,5000 0,6830
2,10 385 77 151 136 0,7390 0,6623 0,8333 0,5261 0,6902
2,11 328 53 175 193 0,6296 0,7675 0,8609 0,4755 0,6834
3,4 377 105 123 144 0,7236 0,5395 0,7822 0,4607 0,6265
3,5 295 61 167 226 0,5662 0,7325 0,8287 0,4249 0,6381
3,6 292 53 175 229 0,5605 0,7675 0,8464 0,4332 0,6519
3,7 312 75 153 209 0,5988 0,6711 0,8062 0,4227 0,6247
3,8 237 34 194 284 0,4549 0,8509 0,8745 0,4059 0,6465
3,9 334 77 151 187 0,6411 0,6623 0,8127 0,4467 0,6407
3,10 362 82 146 159 0,6948 0,6404 0,8153 0,4787 0,6573
3,11 290 53 175 231 0,5566 0,7675 0,8455 0,4310 0,6502
4,5 331 64 164 190 0,6353 0,7193 0,8380 0,4633 0,6640
4,6 329 73 155 192 0,6315 0,6798 0,8184 0,4467 0,6441
4,7 362 91 137 159 0,6948 0,6009 0,7991 0,4628 0,6394
4,8 259 43 185 262 0,4971 0,8114 0,8576 0,4139 0,6450
4,9 376 95 133 145 0,7217 0,5833 0,7983 0,4784 0,6454
4,10 412 123 105 109 0,7908 0,4605 0,7701 0,4907 0,6280
4,11 322 55 173 199 0,6180 0,7588 0,8541 0,4651 0,6740
5,6 291 48 180 230 0,5585 0,7895 0,8584 0,4390 0,6614
5,7 296 58 170 225 0,5681 0,7456 0,8362 0,4304 0,6451
5,8 276 46 182 245 0,5298 0,7982 0,8571 0,4262 0,6528
5,9 303 58 170 218 0,5816 0,7456 0,8393 0,4381 0,6512
5,10 328 63 165 193 0,6296 0,7237 0,8389 0,4609 0,6633
5,11 339 69 159 182 0,6507 0,6974 0,8309 0,4663 0,6613
6,7 297 70 158 224 0,5701 0,6930 0,8093 0,4136 0,6215
6,8 230 36 192 291 0,4415 0,8421 0,8647 0,3975 0,6364
6,9 296 48 180 225 0,5681 0,7895 0,8605 0,4444 0,6656
6,10 322 72 156 199 0,6180 0,6842 0,8173 0,4394 0,6397
6,11 282 42 186 239 0,5413 0,8158 0,8704 0,4376 0,6663
7,8 225 37 191 296 0,4319 0,8377 0,8588 0,3922 0,6301
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
122
Intersección TP FP TN FN S E VPP VPN GRAL.
7,9 335 79 149 186 0,6430 0,6535 0,8092 0,4448 0,6376
7,10 346 80 148 175 0,6641 0,6491 0,8122 0,4582 0,6459
7,11 287 51 177 234 0,5509 0,7763 0,8491 0,4307 0,6517
8,9 236 33 195 285 0,4530 0,8553 0,8773 0,4063 0,6480
8,10 256 43 185 265 0,4914 0,8114 0,8562 0,4111 0,6425
8,11 275 43 185 246 0,5278 0,8114 0,8648 0,4292 0,6583
9,10 359 82 146 162 0,6891 0,6404 0,8141 0,4740 0,6544
9,11 297 51 177 224 0,5701 0,7763 0,8534 0,4414 0,6603
10,11 320 55 173 201 0,6142 0,7588 0,8533 0,4626 0,6722
Se selecciona el mejor ensemble de la primera iteración y se compara con el mejor clasificador simple:
Clasificador S E VPP VPN GRAL.
ADASYN-IIVotes 0,8061 0,5307 0,7970 0,5450 0,6697
2,,10 0,7390 0,6623 0,8333 0,5261 0,6902
Mejora Ensemble -0,0672 0,1316 0,0364 -0,0189 0,0205
5.2.8.2. Iteración 2
En primer lugar, se muestran en detalle los clasificadores seleccionados en el test de Friedman de la
segunda iteración:
Intersección TP FP TN FN S E VPP VPN GRAL.
1,2 372 75 153 149 0,7140 0,6711 0,8322 0,5066 0,6810
1,3 330 69 159 191 0,6334 0,6974 0,8271 0,4543 0,6530
1,5 330 54 174 191 0,6334 0,7632 0,8594 0,4767 0,6832
1,9 337 65 163 184 0,6468 0,7149 0,8383 0,4697 0,6674
Tras esto, se generan los ensembles de la segunda iteración y se muestran los resultados:
Intersección TP FP TN FN S E VPP VPN GRAL.
1-9,1-3 286 46 182 235 0,5489 0,7982 0,8614 0,4365 0,6613
1-9,1-2 329 53 175 192 0,6315 0,7675 0,8613 0,4768 0,6843
1-9,1-5 293 43 185 228 0,5624 0,8114 0,8720 0,4479 0,6734
1-3,1-2 318 56 172 203 0,6104 0,7544 0,8503 0,4587 0,6684
1-3,1-5 284 45 183 237 0,5451 0,8026 0,8632 0,4357 0,6617
1-2,1-5 328 51 177 193 0,6296 0,7763 0,8654 0,4784 0,6874
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
123
Como se comentó inicialmente, se selecciona el ensemble 1-9,1-2 y se compara con el mejor de la
primera iteración y con el mejor clasificador simple:
Clasificador S E VPP VPN GRAL.
ADASYN-IIVotes 0,8061 0,5307 0,7970 0,5450 0,6697
1-9,1-2 0,6315 0,7675 0,8613 0,4768 0,6843
Mejora Ensemble -0,1747 0,2368 0,0643 -0,0682 0,0146
Clasificador S E VPP VPN GRAL.
2,,10 0,7390 0,6623 0,8333 0,5261 0,6902
1-9,1-2 0,6315 0,7675 0,8613 0,4768 0,6843
Mejora Ensemble -0,1075 0,1053 0,0279 -0,0493 -0,0059
5.2.9. Nagoya M5
5.2.9.1. Iteración 1
En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera
iteración:
Clasificador AUC
NCL-AdaBoostM1 0,4888
ADASYN-IIVotes 0,5846
ROS-RUSBoost 1
SPIDER-BalanceCascade 0,2463
ROS-AdaBoost 0,4925
TL-AdaBoostM1 0,4664
ADASYN-SMOTEBoost 0,4701
ROS-AdaC2 0,4925
CPM-SMOTEBoost 0,5771
SPIDER-OverBagging 0,4515
ROS-AdaBoostM1 1
Se construyen las matrices de confusión y se calculan los indicadores:
Clasificador TP FP TN FN Total S E VPP VPN GRAL.
NCL-AdaBoostM1 0 3 131 3 137 0 0,9776 0 0,9776 0,4888
ADASYN-IIVotes 1 22 112 2 137 0 0,8358 0,0435 0,9825 0,5488
ROS-RUSBoost 0 0 134 3 137 0 1 - 0,9781 -
SPIDER-BalanceCascade 0 68 66 3 137 0 0,4925 0 0,9565 0,3623
ROS-AdaBoost 0 2 132 3 137 0 0,9851 0 0,9778 0,4907
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
124
Clasificador TP FP TN FN Total S E VPP VPN GRAL.
TL-AdaBoostM1 0 9 125 3 137 0 0,9328 0 0,9766 0,4773
ADASYN-SMOTEBoost 0 8 126 3 137 0 0,9403 0 0,9767 0,4793
ROS-AdaC2 0 2 132 3 137 0 0,9851 0 0,9778 0,4907
CPM-SMOTEBoost 1 24 110 2 137 0 0,8209 0 0,9821 0,5441
SPIDER-OverBagging 0 13 121 3 137 0 0,9030 0 0,9758 0,4697
ROS-AdaBoostM1 0 0 134 3 137 0 1 - 0,9781 -
Tras observar que los clasificadores iniciales no dan lugar al optimismo, se generan sólo los ensembles
de la primera iteración que mayores expectativas generan (en este caso, solo es posible realizar un
ensemble):
Intersección TP FP TN FN S E VPP VPN GRAL.
1,11 1 10 124 2 0,3333 0,9254 0,0909 0,9841 0,5834
Aunque se ha conseguido duplicar el VPP, la falta de expectativas del conjunto es evidente, por lo que se
decide excluirlo del proceso iterativo.
5.2.10. Osaka M5
5.2.10.1. Iteración 1
En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera
iteración:
Clasificador AUC
NCL-AdaBoostM1 0,9965
ADASYN-IIVotes 0,9479
ROS-RUSBoost 0,9861
SPIDER-BalanceCascade 0,9271
ROS-AdaBoost 0,9931
TL-AdaBoostM1 0,9826
ADASYN-SMOTEBoost 0,9757
ROS-AdaC2 0,9931
CPM-SMOTEBoost 0,7674
SPIDER-OverBagging 0,9861
ROS-AdaBoostM1 0,9931
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
125
Se construyen las matrices de confusión y se calculan los indicadores:
Clasificador TP FP TN FN S E VPP VPN GRAL.
NCL-AdaBoostM1 2 1 143 0 1 0,9931 0,6667 1 0,9149
ADASYN-IIVotes 2 15 129 0 1 0,8958 0,1176 1 0,7534
ROS-RUSBoost 2 4 140 0 1 0,9722 0,3333 1 0,8264
SPIDER-BalanceCascade 2 21 123 0 1 0,8542 0,0870 1 0,7353
ROS-AdaBoost 2 2 142 0 1 0,9861 0,5 1 0,8715
TL-AdaBoostM1 2 5 139 0 1 0,9653 0,2857 1 0,8127
ADASYN-SMOTEBoost 2 7 137 0 1 0,9514 0,2222 1 0,7934
ROS-AdaC2 2 2 142 0 1 0,9861 0,5 1 0,8715
CPM-SMOTEBoost 2 67 77 0 1 0,5347 0,0290 1 0,6409
SPIDER-OverBagging 2 4 140 0 1 0,9722 0,3333 1 0,8264
ROS-AdaBoostM1 2 2 142 0 1 0,9861 0,5 1 0,8715
Tras esto, se generan los ensembles de la primera iteración y se muestran los resultados:
Intersección TP FP TN FN S E VPP VPN GRAL.
1,2 2 0 144 0 1 1 1 1 1
1,3 2 0 144 0 1 1 1 1 1
1,4 2 0 144 0 1 1 1 1 1
1,5 2 0 144 0 1 1 1 1 1
1,6 2 0 144 0 1 1 1 1 1
1,7 2 1 143 0 1 0,9931 0,6667 1 0,9149
1,8 2 0 144 0 1 1 1 1 1
1,9 2 1 143 0 1 0,9931 0,6667 1 0,9149
1,10 2 0 144 0 1 1 1 1 1
1,11 2 0 144 0 1 1 1 1 1
2,3 2 2 142 0 1 0,9861 0,5 1 0,8715
2,4 2 2 142 0 1 0,9861 0,5 1 0,8715
2,5 2 1 143 0 1 0,9931 0,6667 1 0,9149
2,6 2 1 143 0 1 0,9931 0,6667 1 0,9149
2,7 2 3 141 0 1 0,9792 0,4 1 0,8448
2,8 2 1 143 0 1 0,9931 0,6667 1 0,9149
2,9 2 5 139 0 1 0,9653 0,2857 1 0,8127
2,10 2 2 142 0 1 0,9861 0,5 1 0,8715
2,11 2 1 143 0 1 0,9931 0,6667 1 0,9149
3,4 2 1 143 0 1 0,9931 0,6667 1 0,9149
3,5 2 1 143 0 1 0,9931 0,6667 1 0,9149
3,6 2 1 143 0 1 0,9931 0,6667 1 0,9149
3,7 2 2 142 0 1 0,9861 0,5 1 0,8715
3,8 2 1 143 0 1 0,9931 0,6667 1 0,9149
3,9 2 4 140 0 1 0,9722 0,3333 1 0,8264
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
126
Intersección TP FP TN FN S E VPP VPN GRAL.
3,10 2 2 142 0 1 0,9861 0,5 1 0,8715
3,11 2 1 143 0 1 0,9931 0,6667 1 0,9149
4,5 2 1 143 0 1 0,9931 0,6667 1 0,9149
4,6 2 2 142 0 1 0,9861 0,5 1 0,8715
4,7 2 2 142 0 1 0,9861 0,5 1 0,8715
4,8 2 1 143 0 1 0,9931 0,6667 1 0,9149
4,9 2 11 133 0 1 0,9236 0,1538 1 0,7694
4,10 2 1 143 0 1 0,9931 0,6667 1 0,9149
4,11 2 1 143 0 1 0,9931 0,6667 1 0,9149
5,6 2 1 143 0 1 0,9931 0,6667 1 0,9149
5,7 2 2 142 0 1 0,9861 0,5 1 0,8715
5,8 2 2 142 0 1 0,9861 0,5 1 0,8715
5,9 2 2 142 0 1 0,9861 0,5 1 0,8715
5,10 2 1 143 0 1 0,9931 0,6667 1 0,9149
5,11 2 2 142 0 1 0,9861 0,5 1 0,8715
6,7 2 1 143 0 1 0,9931 0,6667 1 0,9149
6,8 2 1 143 0 1 0,9931 0,6667 1 0,9149
6,9 2 4 140 0 1 0,9722 0,3333 1 0,8264
6,10 2 1 143 0 1 0,9931 0,6667 1 0,9149
6,11 2 1 143 0 1 0,9931 0,6667 1 0,9149
7,8 2 2 142 0 1 0,9861 0,5 1 0,8715
7,9 2 6 138 0 1 0,9583 0,25 1 0,8021
7,10 2 2 142 0 1 0,9861 0,5 1 0,8715
7,11 2 2 142 0 1 0,9861 0,5 1 0,8715
8,9 2 2 142 0 1 0,9861 0,5 1 0,8715
8,10 2 1 143 0 1 0,9931 0,6667 1 0,9149
8,11 2 2 142 0 1 0,9861 0,5 1 0,8715
9,10 2 3 141 0 1 0,9792 0,4 1 0,8448
9,11 2 2 142 0 1 0,9861 0,5 1 0,8715
10,11 2 1 143 0 1 0,9931 0,6667 1 0,9149
Se selecciona el mejor ensemble de la primera iteración y se compara con el mejor clasificador simple:
Clasificador S E VPP VPN GRAL.
NCL-AdaBoostM1 1 0,9931 0,6667 1 0,9149
1,2 1 1 1 1 1
Mejora Ensemble 0,0000 0,0069 0,3333 0,0000 0,0851
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
127
5.2.10.2. Iteración 2
En primer lugar, se muestran en detalle los clasificadores seleccionados en el test de Friedman de la
segunda iteración:
Intersección TP FP TN FN S E VPP VPN GRAL.
1,2 2 0 144 0 1 1 1 1 1
1,3 2 0 144 0 1 1 1 1 1
1,5 2 0 144 0 1 1 1 1 1
1,9 2 1 143 0 1 0,9931 0,6667 1 0,9149
Tras esto, se generan los ensembles de la segunda iteración y se muestran los resultados:
Intersección TP FP TN FN S E VPP VPN GRAL.
1-9,1-3 2 0 144 0 1 1 1 1 1
1-9,1-2 2 0 144 0 1 1 1 1 1
1-9,1-5 2 0 144 0 1 1 1 1 1
1-3,1-2 2 0 144 0 1 1 1 1 1
1-3,1-5 2 0 144 0 1 1 1 1 1
1-2,1-5 2 0 144 0 1 1 1 1 1
Como se comentó inicialmente, se selecciona el ensemble 1-9,1-2 y se compara con el mejor de la
primera iteración y con el mejor clasificador simple:
Clasificador S E VPP VPN GRAL.
NCL-AdaBoostM1 1 0,9931 0,6667 1 0,9149
1-9,1-2 1 1 1 1 1
Mejora Ensemble 0,0000 0,0069 0,3333 0,0000 0,0851
Clasificador S E VPP VPN GRAL.
1,2 1 1 1 1 1
1-9,1-2 1 1 1 1 1
Mejora Ensemble 0,0000 0,0000 0,0000 0,0000 0,0000
5.2.11. Resumen de los mejores resultados
Debido a la extensión de los resultados, se muestra un resumen de los resultados del clasificador global
seleccionado (NCL-AdaBoostM1 + ADASYN-IIVotes + CPM-SMOTEBoost) de cada conjunto de datos.
Para una mayor comprensión y visión simplificada, se mostrarán dos tablas: en una se muestra la matriz
de confusión de cada conjunto, y en otra, los indicadores.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
128
En primer lugar se muestra la tabla con la matriz de confusión de cada conjunto:
Clasificador TP FP TN FN
Pichilemu M4 4 0 58 53
Pichilemu M5 9 0 65 41
Talca M4 4 0 27 37
Talca M5 2 0 99 3
Valparaíso M4 48 2 225 52
Tokyo M5 329 53 175 192
Osaka M5 2 0 144 0
A continuación, se muestran los indicadores de los clasificadores anteriores, distinguiendo los conjuntos
que están desbalanceados (azul) de los que no (naranja):
Clasificador S E VPP VPN GRAL.
Pichilemu M4 0,07 1 1 0,52 0,65
Pichilemu M5 0,18 1 1 0,61 0,70
Talca M4 0,10 1 1 0,42 0,63
Talca M5 0,4 1 1 0,97 0,84
Valparaíso M4 0,48 0,99 0,96 0,81 0,81
Tokyo M5 0,63 0,77 0,86 0,48 0,68
Osaka M5 1 1 1 1 1
Como se observa, aunque se consigue mantener un VPP tan elevado como los mejores indicadores
individuales, la Sensibilidad y el VPN y, por tanto, el indicador General, se han visto afectados. En
algunos conjuntos, tales como Pichilemu M4, Pichilemu M5 y Talca M4, la Sensibilidad alcanza valores
realmente bajos. La bajada de rendimiento se debe al carácter global del clasificador usado. El hecho de
construir un clasificador que posea resultados aceptables en el mayor número de conjuntos de datos
posible, hace que dicho clasificador no sea el mejor clasificador en ninguno de estos conjuntos. Es, en
definitiva, una consecuencia de la generalización del clasificador. En otras palabras, es un coste que se
debe asumir a cambio de poseer un clasificador global.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
129
6. Conclusiones
El estudio realizado ha permitido el análisis de los algoritmos basados en aprendizaje desbalanceado en
el arte de la predicción de seísmos de gran magnitud. Se ha logrado desarrollar una metaheurística que
metodiza el proceso de análisis de estos algoritmos de aprendizaje desbalanceado. Haciendo uso de esta
metaheurística, se ha podido aplicar el análisis sobre datos reales en distintas zonas de Chile y Japón.
La metaheurística desarrollada se basa en una primera etapa de experimentación y evaluación de los
modelos predictivos generados, y una segunda etapa iterativa de combinación de los modelos anteriores
y evaluación de las combinaciones generadas. El criterio de parada del proceso iterativo se basa en la
obtención de un modelo que cumpla las expectativas del usuario. El proceso de combinación se ha
basado en la intersección entre los modelos que intervienen en él, con el objetivo de obtener
clasificadores con una alta credibilidad.
Los resultados obtenidos arrojan optimismo y abren una nueva vía de investigación en la disciplina de la
predicción de terremotos. Se plantean las siguientes líneas de investigación a seguir en el futuro:
1. Experimentación de los algoritmos desbalanceados realizando modificaciones de sus
parámetros de ajuste.
2. Combinación de los modelos predictivos usando vías alternativas a la intersección tales como la
mezcla de expertos ponderada.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
130
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
131
7. Referencias
[1] B. Raskutti and A. Kowalczyk. Extreme rebalancing for svms: a case study. SIGKDD Explorations, 6(1):60-69, 2004.
[2] Barandela, R., Sánchez, J.S., García, V., Rangel, E.: Strategies for learning in class imbalance problems, Pattern Recognition 36(3) (2003) 849-851.
[3] Bradley. The use of the area under the ROC curve in the evaluation of machine learning algorithms. Pattern Recognition, 30(7): 1145-1159, 1997.
[4] R. Hickey. Learning rare class footprints: the reflex algorithm. In Proceedings of the ICML'03 Workshop on Learning from Imbalanced Data Sets, 2003.
[5] R. Yan, Y. Liu, R. Jin, and A. Hauptmann. On predicting rare classes with SVM ensembles in scene classification. In IEEE International Conference on Acoustics, Speech and Signal Processing, 2003.
[6] W. W. Cohen. Fast effective rule induction. In Proceedings of the Twelfth International Conference on Machine Learning, pages 115-123, 1995.
[7] Andrew Estabrooks, Taeho Jo and Nathalie Japkowicz: A Multiple Resampling Method for Learning from Imbalanced Data Sets. Computational Intelligence 20 (1) (2004) 18-36.
[8] Kaizhu Huang, Haiqin Yang, Irwin King, Michael R. Lyu. Learning Classifiers from Imbalanced Data Based on Biased Minimax Probability Machine. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (2004)
[9] M. Kubat and S. Matwin. Addressing the curse of imbalanced training sets: One sided selection. In Proceedings of the Fourteenth International Conference on Machine Learning, pages 179-186, Nashville, Tennesse, 1997. Morgan Kaufmann.
[10] G. Weiss. Mining with rarity: A unifying framework.SIGKDD Explorations, 6(1):7-19, 2004.
[11] Prati, R. C., Batista, G. E. A. P. A., and Monard, M. C. Class Imbalances versus Class Overlapping: an Analysis of a Learning System Behavior. In MICAI (2004), pp. 312–321. LNAI 2972.
[12] P. K. Chan, and S. J. Stolfo. Toward scalable learning with non-uniform class and cost distributions: a case study in credit card fraud detection. In Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining, pages 164-168, 2001.
[13] N. V. Chawla, L. O. Hall, K. W. Bowyer, and W. P. Kegelmeyer. SMOTE: Synthetic Minority Oversampling TEchnique. Journal of Artificial Intelligence Research, 16:321-357, 2002.
[14] W. Fan, S. J. Stolfo, J. Zhang, and P. K. Chan. AdaCost: misclassification cost-sensitive boosting. In Proceedings of the Sixteenth International Conference on Machine Learning, pages 99-105, 1999.
[15] N. Japkowicz and S. Stephen. The class imbalance problem: A systematic study. Intelligent Data Analysis, 6(5):203-231, 2002.
[16] S. Visa and A. Ralescu. Learning imbalanced and overlapping classes using fuzzy sets. In Proceedings of the ICML'03 Workshop on Learning from Imbalanced Data Sets, 2003.
[17] J.W. Grzymala-Busse, L. K. Goodwin, and X. Zhang. Increasing sensitivity of preterm birth by changing rule strengths. Pattern Recognition Letters, (24):903–910, 2003.
[18] Kolez, A. Chowdhury, and J. Alspector. Data duplication: An imbalance problem? In Proceedings of the ICML'2003 Workshop on Learning from Imbalanced Datasets, 2003.
[19] Domingos, P. (1999). “MetaCost: A general method for making classifiers cost-sensitive.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
132
Proceedings of the Fifth International Conference on Knowledge Discovery and Data Mining, pp. 155-164. ACM Press.
[20] Provost, F., & Fawcett, T. (2001). Robust classification for imprecise environments. Machine Learning, 42, 203-231.
[21] G. M. Weiss, and F. Provost. Learning when training data are costly: the effect of class distribution on tree induction. Journal of Artificial Intelligence Research, 19:315-354, 2003.
[22] Wu, G. & Chang, E. (2003). Class-Boundary Alignment for Imbalanced Dataset Learning. In ICML 2003 Workshop on Learning from Imbalanced Data Sets II, Washington, DC.
[23] N. V. Chawla, A. Lazarevic, L. O. Hall, and K. W. Bowyer. Smoteboost: Improving prediction of the minority class in boosting. In Proceedings of the Seventh European Conference on Principles and Practice of Knowledge Discovery in Databases, pages 107-119, Dubrovnik, Croatia, 2003.
[24] Estabrooks, and N. Japkowicz. A mixture-of-experts framework for learning from unbalanced data sets. In Proceedings of the 2001 Intelligent Data Analysis Conference, pages 34-43, 2001.
[25] Veropoulos, K., Campbell, C., & Cristianini, N. (1999). Controlling the sensitivity of support vector machines. Proceedings of the International Joint Conference on AI, 55–60.
[26] M. V. Joshi, V. Kumar, and R. C. Agarwal. Evaluating boosting algorithms to classify rare cases: comparison and improvements. In First IEEE International Conference on Data Mining, pages 257-264, November 2001.
[27] B. Zadrozny and C. Elkan. Learning and making decisions when costs and probabilities are both unknown. In Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 204-213, 2001.
[28] N. Japkowicz. Class imbalance: Are we focusing on the right issue? In Proceedings of the ICML'03 Workshop on Learning from Imbalanced Data Sets, 2003.
[29] H. Guo and H. L. Viktor. Learning from imbalanced data sets with boosting and data generation: The DataBoost-IM approach. SIGKDD Explorations, 6(1):30-39, 2004.
[30] Taeho Jo and N. Japkowicz (2004), Class Imbalances versus Small Disjuncts, Sigkdd Explorations. Volume 6, Issue 1 - Page 40-49.
[31] N. Japkowicz. Concept-learning in the presence of between-class and within-class imbalances. In Proceedings of the Fourteenth Conference of the Canadian Society for Computational Studies of Intelligence, pages 67-77, 2001.
[32] G. E. A. P. A. Batista, R. C. Prati, and M. C. Monard. A study of the behavior of several methods for balancing machine learning training data. SIGKDD Explorations, 6(1):20-29, 2004.
[33] G. Asencio Cortés, F. Martínez Álvarez, A. Morales Esteban, J. Reyes, A sensitivity study of seismicity indicators in supervised learning to improve earthquake prediction.
[34] S. Kotsiantis, P. Pintelas, Mixture of Expert Agents for Handling Imbalanced Data Sets, Annals of Mathematics, Computing & TeleInformatics, Vol 1, No 1 (46-55), 2003.
[35] Laurikkala, J.: Improving identification of difficult small classes by balancing class distribution. Report A 2001-2 (2001)
[36] Han, H., Wang, W.-Y., Mao, B.-H.: Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning. Springer-Verlag (2005) 878-887
[37] Cohen, G., Hilario, M., Sax, H., Hogonnet, S., Geissbuhler, A.: Learning from imbalanced data in surveillance of nosocomial infection. Articial Intelligence in Medicine (2006) 7-18
[38] Z. Zheng, X. Wu, and R. Srihari. Feature selection for text categorization on imbalanced data. SIGKDD Explorations, 6(1):80-89, 2004.
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
133
[39] Drummond, C., and Holte, R. C. C4.5, Class Imbalance, and Cost Sensitivity: Why Under-sampling beats Over-sampling. In Workshop on Learning from Imbalanced Data Sets II (2003).
[40] He, H., Garcia, E. (2009). Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering. 21 (9): 1263-1284.
[41] Fernández, A., García, S., Herrera, F. (2011). Addressing the Classification with Imbalanced Data: Open Problems and New Challenges on Class Distribution. E. Corchado, M. Kurzyński, M. Woźniak (Eds.): HAIS 2011, Part I, LNAI 6678, pp. 1–10, 2011. Springer-Verlag.
[42] Garcia, V., Sánchez, J.S., Mollineda, R.A., Alejo, R., Sotoca, J.M. (2007). The class imbalanced problem in pattern classification and learning. II Congreso Español de Informática. 283-291. Thomson.
[43] López, V., Fernández, A., Moreno-Torres, J., Herrera, F. (2012). Analysis of preprocessing vs. cost-sensitive learning for imbalanced classification. Open problems on intrinsic data characteristics. Expert Systems with Applications 39(7):6585-6608.
[44] J. Reyes, A. Morales-Esteban, F. Martínez-Álvarez, Neural networks to predict earthquakes in Chile, Applied Soft Computing 13 (2) (2013) 1314–1328.
[45] A. Morales-Esteban, F. Martínez-Álvarez, J. Reyes, Earthquake prediction in seismogenic areas of the Iberian Peninsula based on computational intelligence, Tectonophysics 593 (2013) 121–134.
[46] A. Panakkat, H. Adeli, Neural network models for earthquake magnitude prediction using multiple seismicity indicators, International Journal of Neural Systems 17 (1) (2007) 13–33.
[47] Lee, K., & Yang, W. S. (2006). Historical seismicity of Korea. Bulletin of the Seismological Society of America, 71(3), 846–855.
[48] Zollo, A., Marzocchi, W., Capuano, P., Lomaz, A., & Iannaccone, G. (2002). Space and time behavior of seismic activity at Mt. Vesuvius volcano, Southern Italy.Bulletin of the Seismological Society of America, 92 (2), 625–640.
[49] Nuannin, P., Kulhanek, O., & Persson, L. (2005). Spatial and temporal b –value anomalies preceding the devastating off coast of NW Sumatra earthquake of December 26, 2004.Geophysical Research Letters, 32.
[50] Gibowitz, S. J. (1974). Frequency–magnitude depth and time relations for earthquakes in Island Arc: North Island, New Zealand. Tectonophysics, 23(3),283–297
[51] Wiemer, S., Gerstenberger, M., & Hauksson, E. (2002). Properties of the aftershock sequence of the 1999 7.1 hector mine earthquake: Implications for aftershock hazard. Bulletin of the Seismological Society of America, 92(4), 1227–1240.
[52] Sammonds, P. R., Meredith, P. G., & Main, I. G. (1992). Role of pore fluid in the generation of seismic precursors to shear fracture. Nature, 359, 228–230
[53] B. Gutenberg and C. F. Richter, Earthquake magnitude, intensity, energy and acceleration, Bulletin of the Seismological Society of America 46(1) (1956) 105–146.
[54] Y. Y. Kagan and Jackson, D. Long-term earthquake clustering, Geophysical Journal International 104 (1991) 117–133.
[55] D. Boore, Comparisons of ground motions from the 1999 Chi-Chi earthquake with empirical predictions largely based on data from California, Bulletin of Seismological Society of America 91(5) (2001) 1212–1217.
[56] I. Zaliapin, V. Kelis-Borok and M. Ghil, A Boolean delay equation model of colliding cascades; Part II: Prediction of critical transitions, Journal of Statistical Physics 111(3) (2003) 839–861.
[57] C. Bufe and D. Varnes, Predictive modeling of seismic cycle in the greater San-Fransisco bay
Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud
Manuel Jesús Fernández Gómez
134
region, Journal of Geophysical Research 98 (1993) 9871–9983.
[58] S. Jaume, D. Weatherley and P. Mora, Accelerating moment release and the evolution of event time and size statistics, results from two cellular automation models, Pure and Applied Geophysics 157(11) (2000) 2209–2226.
[59] D. Vere-Jones, R. Robinson and W. Wang, Remarks on the accelerated release moment model: Problems of model formulation, simulation and estimation, Geophysics Journal International 144(3) (2001) 517–531.
[60] V. I. Kelis-Borok, and V. G. Kossobokov, Premonitory activation of earthquake flow: Algorithm M8, Physics of the Earth and Planetary Interiors 61 (1990) 73–83.
[61] E. Roeloffs, The Parkfield, California earthquake experiment, An update in 2000, Current Science 79(9) (2000) 1226–1236.
[62] K. Tiampo, J. Rundle, S. McGinnis, S. Gross and W. Klein, Mean-field threshold systems and phase dynamics: An application to earthquake fault systems, Europhysics Letters 60 (2002) 481–487.
[63] H. Reid, The mechanism of the earthquake; The California earthquake of April, 18, 1906, Report of the State Earthquake Investigation Commission, Carnegie Institute of Washington, Washington D.C. 2 (1910) 16–28.