análisis y modelación masiva de datos a través

12
Análisis y modelación de datos a través de Minería de Datos y algoritmos evolutivos de Regresión Lineal Múltiple Juan Pablo Bribiesca Espinosa ITAM 2015

Upload: juan-pablo-bribiesca-espinosa

Post on 22-Mar-2017

292 views

Category:

Engineering


2 download

TRANSCRIPT

Page 1: Análisis y modelación masiva de datos a través

Análisis y modelación de datos a través de Minería de Datos y algoritmos evolutivos de

Regresión Lineal Múltiple

Juan Pablo Bribiesca EspinosaITAM 2015

Page 2: Análisis y modelación masiva de datos a través

Conceptos Básicos

Page 3: Análisis y modelación masiva de datos a través

Definición de Base de Datos

Exclusión de candidatosDefinición de variable de Respuesta

Inclusión de Base de DatosMuestreo Aleatorio sin remplazoDefinición de Clases (tuplas)

Page 4: Análisis y modelación masiva de datos a través

Exclusión de datos potencialmente erróneos y estabilización del modelo

Outliers:

Apalancamiento:

25

50

75

0 25 50 75 100horas trabajadas

edad

Amer-Indian-Eskimo Asian-Pac-Islander Black Other White

𝑦 𝑖0=β00+∑𝑗=1

𝑘

𝛽 𝑗0∗𝑥 𝑖𝑗+𝜀𝑖0 ,𝑖=1,2 ,…,𝑛

Page 5: Análisis y modelación masiva de datos a través

Determinación de Transformaciones

• Modelos no lineales por mínimos cuadrados.• Relaciones Funcionales - Familias:

– Familia Polinomial– Familia Exponencial– Funciones Potencia– Modelos Rendimiento-Densidad– Modelos Sigmoidales– Splines

Page 6: Análisis y modelación masiva de datos a través

Determinación de TransformacionesCorrelación de Pearson EscalamientoJerarquización vía Coeficientes de Determinación Ajustados

Definición de Transformaciones

Page 7: Análisis y modelación masiva de datos a través

Criterio de Información de Akaike• Depuración de regresores vía análisis AIC

Page 8: Análisis y modelación masiva de datos a través

Inserción de Relaciones

– Regresores categóricos

Page 9: Análisis y modelación masiva de datos a través

Modelo final

Stepwise AIC

Outliers:

Page 10: Análisis y modelación masiva de datos a través

Criterios

• Análisis Exploratorio de Datos (aproximación)• Estadísticos:

– Análisis de Varianza.– Contraste de White.– Prueba de normalidad de K-S.

Page 11: Análisis y modelación masiva de datos a través
Page 12: Análisis y modelación masiva de datos a través

“Cuando las estadísticas nos dicen que la familia mexicana tiene un promedio de cuatro hijos y medio, nos explicamos por qué siempre hay uno chaparrito.”

Marco Antonio Almazán