brochure curso avanzado de análisis predictivo desarrollo de modelos empresariales (dm061)
Post on 10-Aug-2015
179 Views
Preview:
DESCRIPTION
TRANSCRIPT
Av. José Pardo 138, Oficina 1402 informes@kasperu.com
Miraflores– Lima - Perú www.kasperu.com
Telf. (51-1) 697–8227 / 725-7209
1
Curso Avanzado de Análisis Predictivo
Desarrollo de Modelos Empresariales (DM061)
SUMILLA
El curso se orienta a plantear un método para la construcción de nuevos modelos predictivos desde datos transaccionales disponibles en bases de datos empresariales, se pretende impartir
la experiencia adquirida por KASPeru en la conceptualización, desarrollo, optimización e
implementación de modelos predictivos. El desarrollo del curso es netamente práctico, se
recomienda que el participante tenga experiencia práctica en el desarrollo de modelos predictivos o que haya cursado estudios en análisis predictivo.
Los modelos predictivos se plantean mediante una arquitectura genérica de 5 módulos:
adquisición de datos, preparación de datos, aprendizaje de patrones, optimización del modelo y consulta de la predicción. Cada módulo dispone de técnicas y herramientas propias que se
plantean durante el desarrollo del curso.
El curso tiene como propósito sistematizar el proceso de desarrollo de modelos predictivos
acorde a las mejores prácticas aprendidas por KASPeru en múltiples proyectos. La sistematización del proceso permite gestionar los alcances del proyecto, preparar el plan de
proyecto, estimar los recursos necesarios, estimar los tiempos de cada actividad, gestionar los
riesgos, así como definir los objetivos del modelo, adquirir los datos, preparar los datos,
desarrollar los modelos, diseñar los experimentos, medir el rendimiento de cada modelo y desplegar el modelo.
El curso se desarrolla en 18 horas (6 sesiones de 3 horas c/u), para grupos de no más de
6 estudiantes.
Las clases se desarrollan haciendo uso del SQL Server Data Base Engine como motor de base
de datos; del RapidMiner y del SQL Server Analysis Services como motores de minería de datos
y del KASOptimizer como herramienta de optimización.
CONTENIDO El curso está conformado por los siguientes temas.
Gestión del Proyecto
Entendimiento del Negocio
Entendimiento de los Datos
Preparación de Datos
Modelado y Evaluación
Optimización
Despliegue
Los temas se encadenan en una secuencia lógica de desarrollo pedagógico, basado en la
metodología CRISP-DM.
Av. José Pardo 138, Oficina 1402 informes@kasperu.com
Miraflores– Lima - Perú www.kasperu.com
Telf. (51-1) 697–8227 / 725-7209
2
OBJETIVOS
Al final del curso los participantes estarán en capacidad de:
Identificar los alcances del proyecto. Plantear el plan del proyecto para el desarrollo del
modelo. Estimar los tiempos para cada etapa del proyecto y los recursos humanos necesarios. Identificar los potenciales riesgos del proyecto.
Identificar problemas que pueden ser resueltos mediante la implementación de modelos
predictivos. Definir las herramientas de software que se usará en cada etapa del proyecto.
Definir los objetivos del proyecto. Plantear, en coordinación con el usuario final, potenciales atributos que explican la variable
a predecir (la clase). Preparar procedimientos almacenados para la preparación de atributos
puntuales y de atributos seriados en el tiempo (curvas de comportamiento). Preparar
procedimientos almacenados para calcular el estado de la clase que corresponde a cada instancia de datos. Comprender y usar técnicas para el muestreo, la descripción, limpieza y
transformación de datos mediante la identificación y eliminación de datos extremos, valores
nulos y datos mal clasificados, la selección de características y el balanceo de datos. Evaluar
la calidad predictiva de cada uno de los atributos identificados, individualmente y en
conjunto. Entender y aplicar algoritmos de árboles de decisión, modelo naive bayes, regresión
logística y redes neuronales. Decidir qué algoritmo usar para abordar el problema y asignar
los parámetros necesarios para su operación. Evaluar el rendimiento de los modelos
creados, usando los indicadores %VP y %VPP. Diseñar experimentos necesarios para la optimización del modelo, en función a los
parámetros de los atributos, parámetros de la etapa de preparación de datos y parámetros
de los algoritmos implementados. Usar el procedimiento de Voting y la regla de Pareto para
seleccionar el subconjunto de atributos que proporcionan el mejor rendimiento. Diseñar procedimientos para la consulta del modelo predictivo.
Adquisición de
Datos
Base de Datos
Aprendizaje
de Patrones
Preparación
de Datos
DataSet
Modelo
Optimización
del Modelo
Diseño
Experimental
Consulta al
Modelo Probabilidad
Arquitectura genérica de un modelo predictivo
Av. José Pardo 138, Oficina 1402 informes@kasperu.com
Miraflores– Lima - Perú www.kasperu.com
Telf. (51-1) 697–8227 / 725-7209
3
METODOLOGÍA
Planteamiento de un problema predictivo real.
Desarrollo de casos (integrados a la solución del problema).
Desarrollo de tareas domiciliarias. Aplicación de herramientas de software según las necesidades de cada etapa.
Evaluación por casos.
Uso de medios audiovisuales (proyectores)
Materiales de clase impresos y en CD.
DOMINIOS DE APLICACIÓN
Riesgos Financieros Riesgos de Fraudes
Riesgos de Accidentes de Trabajo
Deserción de clientes
Detección de fraudes Segmentación de Clientes
Ventas Cruzadas
Patrones Secuenciales
Análisis de opiniones subjetivas Similaridad de documentos
Búsqueda e indexación de documentos
Análisis de mensajes en redes sociales
Análisis de encuestas abiertas. Análisis de post en blogs.
Análisis de correos electrónicos (spam).
Estructuración de base de datos.
REQUISITOS
Es deseable que los alumnos tengan conocimientos o experiencia en:
Base de datos (MS SQL, Oracle, Sybase, etc.). Desarrollo de procedimientos almacenados (Transact-SQL).
Estadística y probabilidades.
Hoja de cálculo.
Análisis predictivo.
QUIENES PUEDEN ASISTIR
Profesionales encargados del desarrollo de modelos predictivos. Profesionales encargados de la preparación y limpieza de datos.
Profesionales encargados de la optimización de los modelos predictivos.
MATERIALES
El alumno recibe como parte de su capacitación
Un CD conteniendo: el material del curso, la base de datos con data fuente, la base de
datos con el modelo corriendo, software libre y documentos relacionados. Material impreso explicando cada uno de los casos.
CERTIFICADO
Para recibir el certificado de aprobación del curso, los alumnos deben asistir al 100% de las
sesiones y desarrollar los casos proporcionados tal que demuestran su aprendizaje.
Los alumnos que asistan al 100% de las sesiones y no entregan la tareas reciben una
constancia de asistencia por 15 horas.
Av. José Pardo 138, Oficina 1402 informes@kasperu.com
Miraflores– Lima - Perú www.kasperu.com
Telf. (51-1) 697–8227 / 725-7209
4
HERRAMIENTAS
Para el desarrollo del curso se hace uso de los siguientes programas de software, que el
estudiante debe tener instalado en su computador.
Herramientas estadísticas para el análisis de datos
1. @RISK (ANÁLISIS UNIVARIADO) (no indispensable)
2. MICROSOFT EXCEL
Herramienta para el desarrollo el modelado
1. WEKA EXPLORER
2. ADD-IN PARA ANALYSIS SERVICES
3. RAPIDMINER 4. SQL Server Analysis Services + SQL Server Database Engine
Herramienta para el diseño de experimentos
1. MICROSOFT EXCEL 2. EXPERIMENTER DEL WEKA
3. KASOptimizer (experimentador desarrollado por KASPeru)
Herramienta para la consulta del modelo 1. SQL Server Analysis Services + SQL Server Database Engine
Todos los programas de software que se usan en el desarrollo del curso, pueden ser
descargados de internet y usados en su versión de prueba, excepto el KASOptimizer que es proporcionado como parte del curso.
INSTRUCTOR
Ing. Samuel Oporto Díaz. Especialista en el desarrollo de modelos
predictivos. Magíster en Inteligencia Artificial – ITESM-México.
Ingeniero de Sistemas – UNI-Perú. Estudios de Especialización en robótica aplicada-CNAD-México DF. Docente del curso de
Inteligencia Artificial en la UNI, UPAO, USMP y UPC. Docente del
Curso de Minería de Datos en el IIFIIS, CTIC-UNI y la UPC. Jefe del
Proyectos en el CTIC-UNI. Investigador Principal del Instituto de
Investigación de la FIIS (IIFIIS). Especialista en Visión Artificial, Reconocimiento de Patrones y Redes Neuronales. Investigador en
Ciencias de Computación con publicaciones en: IJCNN2007,
ICAIPR2007, ICIAR2005, LNCS2005, CLEI2004, CLEI2006. Consultor
en Sistemas Inteligentes y Sistemas Autónomos. Consultor del programa de Modernización del Estado Peruano. Consultor de la
Secretaría de Planificación Estratégica del Ministerio de Educación
del Perú. Gerente de KASPERU.
Av. José Pardo 138, Oficina 1402 informes@kasperu.com
Miraflores– Lima - Perú www.kasperu.com
Telf. (51-1) 697–8227 / 725-7209
5
TEMARIO
SESION 1.
GESTION DEL PROYECTO (1 hora) El proceso de desarrollo de modelos predictivos. Definir los alcances del proyecto. Elaborar
el plan del proyecto. Estimar los tiempos. Identificar los recursos humanos necesarios para
desarrollar el proyecto. Identificar los riesgos del proyecto. Identificar los hitos del proyecto
y puntos de control. Definir las herramientas metodológicas y de software para cada etapa.
ENTENDIMIENTO DEL NEGOCIO (2 horas)
Qué problemas pueden ser resueltos mediante un modelo predictivo. Planteamiento del
problema predictivo. Exposición de los objetivos del proyecto. Identificación del objeto de estudio (unidad de análisis). Planteamiento de potenciales atributos explicatorios. Definición
de los criterios para establecer la clase (objetivo del modelo). Planteamiento de las medidas
de rendimiento esperadas.
SESION 2.
ENTENDIMIENTO DE LOS DATOS (3 horas)
Revisión de los datos proporcionados. Validación preliminar de los datos (datos completos, tamaño de la muestra). Descripción de los datos originales. Revisión de la lista de atributos
explicatorios puntuales. Cálculo de la pre-clase. Identificación de problemas de calidad de
datos. Preparación de la lista de tareas de limpieza de datos.
Tarea 1. Procedimiento para preparar los atributos puntuales y la clase.
SESION 3.
PREPARACIÓN DE LOS DATOS (3 horas)
Diseño del procedimiento de solución. Procedimiento para la importación y actualización
incremental den datos. Procedimiento para la limpieza de los datos. Procedimiento para
preparar los atributos explicatorios puntuales. Procedimiento para preparar la clase. Descripción de los atributos extraídos. Identificación de problemas de calidad de datos en
los atributos. Verificación de datos completos, verificación de autocorrelación.
Tarea 2. Procedimiento para preparar atributos seriados en el tiempo.
SESION 4.
MODELADO Y EVALUACIÓN DEL MODELO (3 horas)
Caracterización de los algoritmos de árboles de decisión, naive bayes, regresión logística y
redes neuronales. Generación de los datos de entrenamiento y los datos de prueba.
Balanceo de datos. Cálculo del peso de los atributos y selección de características. Transformaciones aplicables: normalización y discretización. Uso de los algoritmos naive
bayes, árbol de decisión, regresión logística y redes neuronales para la construcción del
modelo predictivo. Entrenamiento del modelo. Cálculo de la matriz de confusión (%VP,
%VN, %VPP).
Tarea 3. Generación del ranking de atributos puntuales.
Generación de la lista de atributos puntuales con mayor contribución.
Generación del ranking por algoritmo.
Av. José Pardo 138, Oficina 1402 informes@kasperu.com
Miraflores– Lima - Perú www.kasperu.com
Telf. (51-1) 697–8227 / 725-7209
6
SESION 5.
OPTIMIZACIÓN DEL MODELO (3 horas)
Descripción del KASOptimizer (tablas, procedimientos y parámetros). Identificación de los parámetros de optimización (de atributos, de preparación de datos y de algoritmos). Definir
el criterio de optimización (%VP, %FP o %VPP). Creación del diseño experimental. Corrida
del optimizador. Cálculo de la combinación óptima de atributos (Voting, Pareto).
Tarea 4. Cálculo de la combinación óptima de atributos.
SESION 6.
DESPLIEGUE DEL MODELO (3 horas)
Depuración de la base de datos del modelo (dejar solo los atributos y parámetros
encontrados durante la optimización). Creación de conexión al servidor del modelo. Desarrollo de consultas transaccionales al modelo. Desarrollo de consultas desde
procedimientos almacenados. Actualización incremental de la base de datos fuente.
Tarea 5. Creación del caso de uso para el despliegue del modelo.
Av. José Pardo 138, Oficina 1402 informes@kasperu.com
Miraflores– Lima - Perú www.kasperu.com
Telf. (51-1) 697–8227 / 725-7209
7
KASPeru
Av. José Pardo 138, Oficina 1402
Miraflores
Lima – Perú
(51-1) 697-8227 (51-1) 725-7209
www.kasperu.com informes@kasperu.com
Todos los derechos reservados.
Todos los nombres de empresas y/o productos mencionados tienen propósitos de identificación
únicamente, ellos son registrados por sus respectivos dueños.
top related