Download - Mineria de datos Parte II
Introducción a la Minería de Datos
LUIS PAULO VIEIRA BRAGA
LUIS IVÁN ORTIZ VALENCIA
Page 2
Indice
Introducción
KDD y Minería de Datos
Base de datos para minería de datos – Data Warehouse,Data Mart y Data Webhouse
Tratamiento de datos para DM
Métodos para Modelaje
Validación del Modelo
Estudios de Casos
Introducción a la Minería de Datos
Page 3
Introducción
Herramientas
Introducción a la Minería de Datos
http://introduccionmineriadedatos.blogspot.com/
Libro texto
http://www.r-project.org/index.html
Page 4
Introducción
Dependiendo de la finalidad del modelaje, el conjunto de datos utilizado sufre alteraciones. Podemos destacar tres finalidades comunes: datos para prospección, evaluación del riesgo y metas respecto a los clientes. Usando el sistema de base de datos se construye el Datamart apropiado para el modelaje requerido.
Introducción a la Minería de Datos
Page 5
Introducción
El modelaje matemático, necesariamente, pasa por tres etapas:
a) Formulación del modelo (especificación)
b) Ajuste del modelo (estimación)
c) Evaluación del modelo (validación)
Introducción a la Minería de Datos
Page 6
Tratamiento de datos para DM
MUESTREO
De una manera general, el número de registros en una base de datos es muy grande, siendo innecesario utilizar totalmente la base para el ajuste de un modelo.
Introducción a la Minería de Datos
Page 7
Tratamiento de datos para DM
MUESTRA DE ENTRENAMIENTO
MUESTRA DE VALIDACIÓN
Introducción a la Minería de Datos
Page 8
Tratamiento de datos para DM
Introducción a la Minería de Datos
En el caso de la estimación de proporciones tenemos los siguientes valores:
Page 9
Tratamiento de datos para DM
PRE PROCESAMIENTO
Una vez seleccionada la muestra, los pasos siguientes son: tratar los errores, valores aberrantes (outliers) y valores faltantes (missing values).
Introducción a la Minería de Datos
Page 10
Tratamiento de datos para DM
Valores aberrantes (outliers)
Introducción a la Minería de Datos
Page 11
Tratamiento de datos para DM
Realce y extracción de características
El número de variables presentes en el dataset puede ser muy grande, además las variables pueden estar expresadas de forma poco conveniente. Diversas técnicas pueden ser útiles y se incluyen en la etapa de realce y extracción de características del proyecto de minería de datos.
Introducción a la Minería de Datos
Page 12
Tratamiento de datos para DM
Reducción de Variables
Reducción de variables, o reducción de la dimensión, tiene como objetivo eliminar atributos irrelevantes, o poco relevantes teniendo en vista el problema seleccionado.
Introducción a la Minería de Datos
Page 13
Tratamiento de datos para DM
El dengue es el tema más grande de la campaña de salud pública en Brasil, que se centra en el control de vectores Ae. aegypti. Este mosquito está adaptado para reproducirse en ambientes domésticos y peridomésticos, en recipientes donde se almacena el agua potable y recipientes desechables que se encuentran comúnmente en la basura de las ciudades donde se acumula agua de lluvia.
Introducción a la Minería de Datos
Page 14
Tratamiento de datos para DM
El dengue está presente en los 27 estados de Brasil, distribuidos en 3.794 municipios. Brasil contribuye con alrededor del 60% de las notificaciones de dengue en las Américas.
El estudio abarcó la ciudad de Río de Janeiro, turístico y comercial en el país con una población de más de seis millones de habitantes
Introducción a la Minería de Datos
Page 15
Tratamiento de datos para DM
O instrumento de coleta de dados é um formulário com 87 campos , além de um campo para observações adicionais. Esses campos estão agrupados segundo a seguinte classificação:
Datos generales – 1 a 4
Datos del episodio – 5 a 14
Datos de la vivienda – 15 a 25
Antecedentes Epidemiologicos – 26 a 32
Datos Clínicos – 33 a 41
Atendimento – 42 a 48
Datos de Laboratorio – 49 a 70
Conclusión – 71 a 82
Investigador – 83 a 87
Introducción a la Minería de Datos
Page 16
Tratamiento de datos para DM
Considerando el interés de la investigación, lo incompleto de la información y la redundancia fueron eliminadas las siguientes variables:
NU_NOTIFIC:Designación del tipo (siempre individual) sin intereses
DT_NOTIFIC:Notificación de fecha (dd / mm / aa) sin intereses
NU_ANO: redundancia
ID_AGRAVO:Dengue redundancia
SG_RJ: redundancia
ID_MUNICI:redundancia
...
AUTOCTONE:unidad de la federación 43 atributos eliminados
Introducción a la Minería de Datos
Page 17
Tratamiento de datos para DM
Englobam cualquier proceso que modifique la forma de los datos. Discretización (convertir um numérico a nominal) y numerización (viceversa).
Transformación de variables
Introducción a la Minería de Datos
Page 18
Tratamiento de datos para DM
Como continuación del ejercicio propuesto al final del capítulo La Construcción de Modelos en el Proceso KDD/DM especifique:
a) fuente de datos que irá ser utilizada
b) variables (atributos) que serán leídas (todas)c) esquema de particiónd) criterios para detección de errorese) criterios para tratamiento de outliers
Establezca ahora procedimientos para la transformación de variables que sean necesarias para la extracción de características y realce. Prevea también procedimientos para la reducción de variables.
Introducción a la Minería de Datos
Page 19
Métodos para Modelaje
X2
A B xx xxxxxx +++
x xxxx++++ xxxx ++++
A´ X1
B´ Função discriminante Y
Introducción a la Minería de Datos
?
Page 20
Métodos para Modelaje
Métodos para modelos de predicción con variables de entrada y salida continuas.
Toda la familia de métodos de regresión puede ser útil para estos modelos: regresión lineal, no lineal, univariada y multivariada.
Introducción a la Minería de Datos
Page 21
Métodos para Modelaje
Métodos para modelos de predicción con variables de entrada y salida continuas.
Análisis de Regresión Lineal – el término regresión fue introducido por Francis Galton en 1885. En estos modelos se supone que la media de una variable Y es dependiente de una o más variables (X1, X2,…, Xr). La variable Y es llamada de variable de salida o dependiente y las variables Xi son llamadas de variablesde entrada, explicativas o aún de variables independientes.
Introducción a la Minería de Datos
Page 22
Métodos para Modelaje
Métodos para modelos de predicción con variables de entrada y salida continuas.
El ajuste del modelo para una población dada, normalmente es elaborado a partir de la minimización de la suma de los cuadrados de los errores (Método de los Mínimos Cuadrados), aunque existan otros criterios, tales como el de la máxima verosimilitud o incluso los métodos de inferencia bayesiana.
Introducción a la Minería de Datos
Page 23
Métodos para Modelaje
Métodos para modelos de predicción con variables de entrada y salida continuas.
En minería de datos el principal interés está más en la previsión que en la explicación del papel de los coeficientes. Es obvio que para realizar la previsión es necesario estimar los coeficientes, pero no hay necesidad de profundizar el análisis. El objetivo es maximizar el poder predictivo de las variables Xi. La combinación lineal de estas variables es construida para ser una predicción óptima de la variable propuesta.
Introducción a la Minería de Datos
Page 24
Métodos para Modelaje
Ejercício 2,parte II
Basado en el libro de Luis Torgo, “Minería de datos con R”, consulte los enlaces en el blog. El método adoptado es el de regresión lineal aplicada a un problema en el área ambiental. El problema es predecir la tasa de ocurrencia de los siete (7) tipos diferentes de algas a partir de muestras de agua tomadas en diferentes estaciones, en los ríos de diferentes tamaños, con diferentes velocidades de flujo, en el que se analizaron los niveles de ocho diferentes elementos químicos: pH mínimo de O2, con una media de cloro, el promedio de nitratos, el promedio de amoníaco, ortofosfato promedio, el fosfato y el valor promedio medio de la clorofila, además de las tasas de asistencia de algas diferentes.
Introducción a la Minería de Datos
Page 25
Métodos para Modelaje
La muestra de formación cuenta con 200 observaciones y está archivada en algas-Entrenamiento-regresión lineal.txt en la página "Detalles" del blog.La muestra de validación tiene 140 observaciones, que fueron divididos en dos archivos, el primero validacion Alga de regresión lineal-txt no contiene ninguna información acerca de las algas. El segundo archivo, validacion algas de regresión lineal-sol-txt, sólo contiene información acerca de las algas.
El programa hace el análisis exploratorio, el entrenamiento y validación, “Regrssion lineal”, está disponible en la página de "Programas" del blog. Para utilizar el programa, los participantes del curso deben tener instalado en su computadora el paquete "DMwR".
Introducción a la Minería de Datos