análisis y modelación masiva de datos a través
TRANSCRIPT
Análisis y modelación de datos a través de Minería de Datos y algoritmos evolutivos de
Regresión Lineal Múltiple
Juan Pablo Bribiesca EspinosaITAM 2015
Conceptos Básicos
Definición de Base de Datos
Exclusión de candidatosDefinición de variable de Respuesta
Inclusión de Base de DatosMuestreo Aleatorio sin remplazoDefinición de Clases (tuplas)
Exclusión de datos potencialmente erróneos y estabilización del modelo
Outliers:
Apalancamiento:
25
50
75
0 25 50 75 100horas trabajadas
edad
Amer-Indian-Eskimo Asian-Pac-Islander Black Other White
𝑦 𝑖0=β00+∑𝑗=1
𝑘
𝛽 𝑗0∗𝑥 𝑖𝑗+𝜀𝑖0 ,𝑖=1,2 ,…,𝑛
Determinación de Transformaciones
• Modelos no lineales por mínimos cuadrados.• Relaciones Funcionales - Familias:
– Familia Polinomial– Familia Exponencial– Funciones Potencia– Modelos Rendimiento-Densidad– Modelos Sigmoidales– Splines
Determinación de TransformacionesCorrelación de Pearson EscalamientoJerarquización vía Coeficientes de Determinación Ajustados
Definición de Transformaciones
Criterio de Información de Akaike• Depuración de regresores vía análisis AIC
Inserción de Relaciones
– Regresores categóricos
Modelo final
Stepwise AIC
Outliers:
Criterios
• Análisis Exploratorio de Datos (aproximación)• Estadísticos:
– Análisis de Varianza.– Contraste de White.– Prueba de normalidad de K-S.
“Cuando las estadísticas nos dicen que la familia mexicana tiene un promedio de cuatro hijos y medio, nos explicamos por qué siempre hay uno chaparrito.”
Marco Antonio Almazán