brochure taller de inducción al rapidminer 5.1 minería de datos y minería de textos (dm047)
DESCRIPTION
El RapidMiner es un programa informático para la minería de datos, minería de textos y otras tareas para el análisis de datos. Permite el desarrollo de procesos de análisis de datos mediante el encadenamiento de operadores a través de un entorno gráfico. Se usa en investigación educación, capacitación, creación rápida de prototipos y en aplicaciones empresariales, debido a su facilidad de instalación, de uso y su amplia librería de operadores, proporciona más de 500 operadores orientados al análisis de datos, incluyendo los necesarios para realizar operaciones de entrada y salida, preprocesamiento de datos y visualización, funciones para el intercambio de datos con base de datos. También permite utilizar los algoritmos incluidos en Weka y en R. En una encuesta realizada por KDnuggets, una web de minería de datos, RapidMiner ocupó el segundo lugar en herramientas de analítica y de minería de datos utilizadas para proyectos reales en el 2009, primero en el 2010, primero en el 2011 y tercero en el 2012 luego del R y del excel. La versión inicial fue desarrollada por el departamento de inteligencia artificial de la Universidad de Dortmund en 2001. Se distribuye bajo licencia AGPL y está hospedado en SourceForge desde el 2004.TRANSCRIPT
Av. José Pardo 138, Oficina 1402 [email protected]
Miraflores– Lima - Perú www.kasperu.com
Telf. (51-1) 697–8227 / 725-7209
1
Taller de Inducción al RapidMiner 5.1
Minería de Datos y Minería de Textos (DM047)
SUMILLA
El RapidMiner es un programa informático para la minería de datos, minería de textos y otras
tareas para el análisis de datos. Permite el desarrollo de procesos de análisis de datos mediante
el encadenamiento de operadores a través de un entorno gráfico. Se usa en investigación educación, capacitación, creación rápida de prototipos y en aplicaciones empresariales, debido
a su facilidad de instalación, de uso y su amplia librería de operadores, proporciona más de 500
operadores orientados al análisis de datos, incluyendo los necesarios para realizar operaciones
de entrada y salida, preprocesamiento de datos y visualización, funciones para el intercambio
de datos con base de datos. También permite utilizar los algoritmos incluidos en Weka y en R.
En una encuesta realizada por KDnuggets, una web de minería de datos, RapidMiner ocupó el
segundo lugar en herramientas de analítica y de minería de datos utilizadas para proyectos
reales en el 2009, primero en el 2010, primero en el 2011 y tercero en el 2012 luego del R y del excel. La versión inicial fue desarrollada por el departamento de inteligencia artificial de la
Universidad de Dortmund en 2001. Se distribuye bajo licencia AGPL y está hospedado en
SourceForge desde el 2004.
OBJETIVOS
Al final del taller los alumnos estarán en capacidad de: Conocer las perspectivas de diseño y de resultados, conocer la arquitectura de los
operadores y los repositorios de procesos.
Conocer los tipos de datos y tipos de atributos usados por el RapidMiner y su relación con
otras herramientas.
Creación, modificación y eliminación de definiciones de procesos (conjunto de operadores), visualización de la ventana de parámetros.
Ejecutar operadores para la lectura de datos, exportación de datos, ejecución de sentencias
SQL.
Implementar definiciones de procesos para la transformación de datos. Comprender y aplicar los conceptos necesarios para evaluar el rendimiento de los modelos
basado en su efectividad haciendo uso de la matriz de clasificación y del MAPE.
Implementar definiciones de procesos para la creación de modelos de clasificación.
Implementar definiciones de procesos para la creación de modelos de agrupamiento. Implementar definiciones de procesos para la creación de modelos de reglas se asociación.
Implementar definiciones de procesos para la creación de modelos de minería de datos.
Comprender, usar y entender los resultados entregados en la perspectiva de resultados.
Av. José Pardo 138, Oficina 1402 [email protected]
Miraflores– Lima - Perú www.kasperu.com
Telf. (51-1) 697–8227 / 725-7209
2
CONTENIDO
El contenido está conformado por los siguientes temas:
Uso básico Preparación de datos
Modelos predictivos
Evaluación de modelos
Ejemplos de aplicación
Minería de Textos
Los temas se encadenan en una secuencia lógica de desarrollo pedagógico, basada en la
exposición de las acciones y los pasos necesarios para implementar modelos de minería de
datos y minería de textos en el RapidMiner.
METODOLOGÍA
Aprendizaje basado en la solución de problemas y casos.
Desarrollo de conceptos básicos para explicar los conceptos necesarios.
Desarrollo de ejercicios, donde se aplica la herramienta para abordar problemas prácticos.
Uso de medios audiovisuales (proyectores). Materiales de clase impresos y en CD.
DOMINIOS DE APLICACIÓN
Riesgos Financieros
Riesgos de Fraudes
Riesgos de Accidentes de Trabajo
Deserción de clientes Detección de fraudes
Segmentación de Clientes
Ventas Cruzadas
Patrones Secuenciales
Análisis de opiniones subjetivas
Similaridad de documentos
Búsqueda e indexación de documentos
Análisis de mensajes en redes sociales Análisis de encuestas abiertas.
Análisis de post en blogs.
Análisis de correos electrónicos (spam).
Estructuración de base de datos.
REQUISITOS
Es deseable que los alumnos tengan experiencia en (no indispensable):
Conocimientos básicos de minería de datos.
Base de datos (MS SQL, mySQL, Oracle, Sybase, etc.)
Estadística y probabilidades
Hoja de cálculo. Disponer de una computadora para el desarrollo de las clases
QUIENES PUEDEN ASISTIR Analistas de riesgos.
Analistas de marketing en la web.
Analistas de marketing, mercadeo o de pronóstico.
Investigadores de mercado que desean analizar encuestas abiertas. Personal involucrado en proyectos de Business Intelligence.
Personal involucrado en proyectos de pronóstico y predicción.
Profesionales de estadísticos y economía.
Profesionales en estadística interesados en analizar el contenido de textos no estructurados
(formularios, encuestas, etc.). Administradores de Bases de Datos.
Av. José Pardo 138, Oficina 1402 [email protected]
Miraflores– Lima - Perú www.kasperu.com
Telf. (51-1) 697–8227 / 725-7209
3
HERRAMIENTAS
Para el desarrollo del taller se hace uso del software libre RapidMiner.
MATERIALES
El alumno recibe como parte de su capacitación:
Un CD conteniendo el material del taller, ejercicios prácticos, software libre y documentos relacionados.
Material impreso.
Break de cortesía.
CONSTANCIA
Para recibir la constancia de asistencia al taller, el alumno debe de asistir al 100% de la sesión. La constancia de asistencia se entrega solo al finalizar la sesión, si esta estudiante no se
encuentra en el aula en el momento de la entrega no recibirá la constancia de asistencia.
INSTRUCTOR
Ing. Samuel Oporto Díaz. Especialista en el desarrollo de modelos
predictivos. Magíster en Inteligencia Artificial – ITESM-México.
Ingeniero de Sistemas – UNI-Perú. Estudios de Especialización en robótica aplicada-CNAD-México DF. Política Educativa Virtual-UAH-
Chile. Docente del curso de Inteligencia Artificial en la UNI, UPAO,
USMP y UPC. Docente del Curso de Minería de Datos en el IIFIIS,
CTIC-UNI y la UPC. Jefe del Proyectos en el CTIC-UNI. Investigador Principal del Instituto de Investigación de la FIIS (IIFIIS).
Especialista en Visión Artificial, Reconocimiento de Patrones y Redes
Neuronales. Investigador en Ciencias de Computación con
publicaciones en: IJCNN2007, ICAIPR2007, ICIAR2005, LNCS2005,
CLEI2004, CLEI2006. Consultor en Sistemas Inteligentes y Sistemas Autónomos. Consultor del programa de Modernización del Estado
Peruano. Consultor de la Secretaría de Planificación Estratégica del
Ministerio de Educación del Perú.
Av. José Pardo 138, Oficina 1402 [email protected]
Miraflores– Lima - Perú www.kasperu.com
Telf. (51-1) 697–8227 / 725-7209
4
TEMARIO
Nombre de los temas a tratar Duración
USO BÁSICO DEL RAPIDMINER
Interface de usuario, repositorios, proyectos, operaciones y procesos, carga de datos de archivos planos y base de datos. Perspectivas de diseño y de
resultados, conocer la arquitectura de los operadores y los repositorios de
procesos. Creación, modificación y eliminación de definiciones de procesos
(conjunto de operadores), visualización de la ventana de parámetros.
2 horas
PREPARACIÓN DE DATOS Tipos de datos y tipos de atributos usados por el RapidMiner, normalización y
estandarización, discretización, valores null, valores extremos, muestreo
absoluto, relativo y probable, balanceo de datos.
1 horas
SELECCIÓN DE ATRIBUTOS Reducción de la dimensionalidad. Identificación de atributos con mayor
relevancia, calculo de pesos, generación del ranking, tipos de ranking, filtro
por ranking, eliminación de atributos con menor ranking.
1 horas
MODELOS PREDICTIVOS CON RAPIDMINER Exploración de datos y visualización de datos, correlaciones, regresión lineal,
naive bayes, árbol de decisión, redes neuronales, SVM, regresión logística.
1 horas
EVALUACIÓN DE MODELOS Partición de datos, métodos de evaluación, grafico de elevación, curva ROC,
matriz de confusión.
1 horas
MINERÍA DE TEXTOS (TEXT MINING) Lectura y escritura de documentos, Preparación de datos: tokenizacion,
stopwords, stemming, filtros, n-grams, Creación del vector de índices,
Clasificación de documentos.
2 horas
Total de horas a dictar 8 horas
Av. José Pardo 138, Oficina 1402 [email protected]
Miraflores– Lima - Perú www.kasperu.com
Telf. (51-1) 697–8227 / 725-7209
5
EX ALUMNOS DE NUESTROS CURSOS O TALLERES
EDELNOR
SUNAT
Pacifico Vida
Profuturo AFP
Caja Municipal de Trujillo
FondeSurco
SCI
Nextel del Perú
Telefónica del Perú
ATENTO
Corporación Radial del Perú
RPP
TECSUP
UPCH
UPC
BSH Electrodomésticos
LAN Perú
Visanet Perú
Corporación Lindley
Citibank del Perú S.A.
Aceros Arequipa
Financiera Efectiva S.A.
Red Científica Peruana
Av. José Pardo 138, Oficina 1402 [email protected]
Miraflores– Lima - Perú www.kasperu.com
Telf. (51-1) 697–8227 / 725-7209
6
KASPeru Av. José Pardo 138, Oficina 1402
Miraflores
Lima – Perú
(51-1) 697-8227 (51-1) 725-7209
www.kasperu.com [email protected] Todos los derechos reservados.
Todos los nombres de empresas y/o productos mencionados tienen propósitos de identificación
únicamente, ellos son registrados por sus respectivos dueños.