clase 6 data mining

31
1 Data Mining 1) Fundamentos de Data Mining Las técnicas de Data Mining son el resultado de un largo proceso de investigación y desarrollo de productos. Esta evolución comenzó cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continuó con mejoras en el acceso a los datos, y más recientemente con tecnologías generadas para permitir a los usuarios navegar a través de los datos en tiempo real. Data Mining toma este proceso de evolución más allá del acceso y navegación retrospectiva de los datos, hacia la entrega de información prospectiva y proactiva. Data Mining está listo para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías que ya están suficientemente maduras: o Recolección masiva de datos o Potentes computadoras con multiprocesadores o Algoritmos de Data Mining Las bases de datos comerciales están creciendo a un ritmo sin precedentes. Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontró que el 19% de los que contestaron están por encima del nivel de los 50 Gigabytes, mientras que el 59% espera alcanzarlo en el segundo trimestre de 2005. En algunas industrias, tales como ventas al por menor (retail), estos números pueden ser aún mayores. MCI Telecommunications Corp. cuenta con una base de datos de 3 terabytes + 1 terabyte de índices y overhead corriendo en MVS sobre IBM SP2. La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma más costo - efectiva con tecnología de computadoras con multiprocesamiento paralelo. Los algoritmos de Data Mining utilizan técnicas que han existido por lo menos desde hace 10 años, pero que sólo han sido implementadas recientemente como herramientas maduras, confiables, entendibles que consistentemente son más performantes que métodos estadísticos clásicos. En la evolución desde los datos de negocios a información de negocios, cada nuevo paso se basa en el previo. Por ejemplo, el acceso a datos dinámicos es crítico para las aplicaciones de navegación de datos (drill through applications), y la habilidad para almacenar grandes bases de datos es crítica para Data Mining. Los componentes esenciales de la tecnología de Data Mining han estado bajo desarrollo por décadas, en áreas de investigación como estadísticas, inteligencia artificial y aprendizaje de máquinas. Hoy, la madurez de estas técnicas, junto con los motores de bases de datos relacionales de alta performance, hicieron que estas tecnologías fueran prácticas para los entornos de Data Warehouse actuales.

Upload: ricardo-perez

Post on 17-Feb-2016

218 views

Category:

Documents


0 download

DESCRIPTION

data mining

TRANSCRIPT

Page 1: Clase 6 Data Mining

1

Data Mining

1) Fundamentos de Data Mining

Las teacutecnicas de Data Mining son el resultado de un largo proceso de investigacioacuten y

desarrollo de productos Esta evolucioacuten comenzoacute cuando los datos de negocios fueron

almacenados por primera vez en computadoras y continuoacute con mejoras en el acceso a los

datos y maacutes recientemente con tecnologiacuteas generadas para permitir a los usuarios navegar a

traveacutes de los datos en tiempo real

Data Mining toma este proceso de evolucioacuten maacutes allaacute del acceso y navegacioacuten retrospectiva

de los datos hacia la entrega de informacioacuten prospectiva y proactiva Data Mining estaacute listo

para su aplicacioacuten en la comunidad de negocios porque estaacute soportado por tres tecnologiacuteas

que ya estaacuten suficientemente maduras

o Recoleccioacuten masiva de datos

o Potentes computadoras con multiprocesadores

o Algoritmos de Data Mining

Las bases de datos comerciales estaacuten creciendo a un ritmo sin precedentes Un reciente

estudio del META GROUP sobre los proyectos de Data Warehouse encontroacute que el 19 de

los que contestaron estaacuten por encima del nivel de los 50 Gigabytes mientras que el 59

espera alcanzarlo en el segundo trimestre de 2005

En algunas industrias tales como ventas al por menor (retail) estos nuacutemeros pueden ser

auacuten mayores MCI Telecommunications Corp cuenta con una base de datos de 3 terabytes

+ 1 terabyte de iacutendices y overhead corriendo en MVS sobre IBM SP2 La necesidad

paralela de motores computacionales mejorados puede ahora alcanzarse de forma maacutes costo

- efectiva con tecnologiacutea de computadoras con multiprocesamiento paralelo

Los algoritmos de Data Mining utilizan teacutecnicas que han existido por lo menos desde hace

10 antildeos pero que soacutelo han sido implementadas recientemente como herramientas maduras

confiables entendibles que consistentemente son maacutes performantes que meacutetodos

estadiacutesticos claacutesicos

En la evolucioacuten desde los datos de negocios a informacioacuten de negocios cada nuevo paso se

basa en el previo Por ejemplo el acceso a datos dinaacutemicos es criacutetico para las aplicaciones

de navegacioacuten de datos (drill through applications) y la habilidad para almacenar grandes

bases de datos es criacutetica para Data Mining

Los componentes esenciales de la tecnologiacutea de Data Mining han estado bajo desarrollo por

deacutecadas en aacutereas de investigacioacuten como estadiacutesticas inteligencia artificial y aprendizaje de

maacutequinas Hoy la madurez de estas teacutecnicas junto con los motores de bases de datos

relacionales de alta performance hicieron que estas tecnologiacuteas fueran praacutecticas para los

entornos de Data Warehouse actuales

2

2) Queacute es Data Mining

Data Mining es la extraccioacuten de informacioacuten oculta y predecible de grandes bases de datos

es una poderosa tecnologiacutea nueva con gran potencial que ayuda a las compantildeiacuteas a

concentrarse en la informacioacuten maacutes importante de sus Bases de Informacioacuten (Data

Warehouse)

Un Sistema Data mining es una tecnologiacutea de soporte para usuario final cuyo objetivo es

extraer conocimiento uacutetil y utilizable a partir de la informacioacuten contenida en las bases de

datos de las empresas

3) Coacutemo se desarrollan los sistemas Data Mining

Los sistemas Datamining se desarrollan bajo lenguajes de uacuteltima generacioacuten basados en la

inteligencia artificial y utilizan modelos matemaacuteticos tales como

Redes neuronales artificiales modelos predecible no-lineales que aprenden a traveacutes del

entrenamiento y semejan la estructura de una red neuronal bioloacutegica

Arboles de decisioacuten estructuras de forma de aacuterbol que representan conjuntos de decisiones

Estas decisiones generan reglas para la clasificacioacuten de un conjunto de datos Meacutetodos

especiacuteficos de aacuterboles de decisioacuten incluyen Arboles de Clasificacioacuten y Regresioacuten (CART

Classification And Regression Tree) y Deteccioacuten de Interaccioacuten Automaacutetica de Chi

Cuadrado (CHAI Chi Square Automatic Interaction Detection)

Algoritmos geneacuteticos teacutecnicas de optimizacioacuten que usan procesos tales como

combinaciones geneacuteticas mutaciones y seleccioacuten natural en un disentildeo basado en los

conceptos de evolucioacuten

Meacutetodo del vecino maacutes cercano una teacutecnica que clasifica cada registro en un conjunto de

datos basado en una combinacioacuten de las clases delde los k registro (s) maacutes similares a eacutel

en un conjunto de datos histoacutericos (donde k 1) Algunas veces se llama la teacutecnica del

vecino k-maacutes cercano

Regla de induccioacuten la extraccioacuten de reglas if-then de datos basados en significado

estadiacutestico

Muchas de estas tecnologiacuteas han estado en uso por maacutes de una deacutecada en herramientas de

anaacutelisis especializadas que trabajan con voluacutemenes de datos relativamente pequentildeos Estas

capacidades estaacuten ahora evolucionando para integrarse directamente con herramientas

OLAP y de

Data Warehousing

3

4) Queacute son capaces de hacer las herramientas del Data Mining

Las herramientas de Data Mining predicen futuras tendencias y comportamientos

permitiendo en los negocios tomar decisiones proactivas y conducidas por un conocimiento

acabado de la informacioacuten (knowledge-driven) Los anaacutelisis prospectivos automatizados

ofrecidos por un producto asiacute van maacutes allaacute de los eventos pasados provistos por

herramientas retrospectivas tiacutepicas de sistemas de soporte de decisioacuten

Las herramientas de Data Mining pueden responder a preguntas de negocios que

tradicionalmente consumen demasiado tiempo para poder ser resueltas y a los cuales los

usuarios de esta informacioacuten casi no estaacuten dispuestos a aceptar ldquoEstas herramientas

exploran las bases de datos en busca de patrones ocultos encontrando informacioacuten

predecible que un experto no puede llegar a encontrar porque se encuentra fuera de sus

expectativasrdquo

Una vez que las herramientas de Data Mining fueron implementadas en

computadoras cliente servidor de alta performance o de procesamiento paralelo pueden

analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestCuaacuteles

clientes tienen maacutes probabilidad de responder al proacuteximo mailing promocional y por queacute

y presentar los resultados en formas de tablas con graacuteficos reportes texto hipertexto etc

Las teacutecnicas de Data Mining pueden ser implementadas raacutepidamente en plataformas ya

existentes de software y hardware para acrecentar el valor de las fuentes de informacioacuten

existentes y pueden ser integradas con nuevos productos y sistemas pues son traiacutedas en

liacutenea (on-line)

5) El Alcance del Data Mining

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede

generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos

Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases

de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora

pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de

problema predecible es el marketing apuntado a objetivos (targeted marketing) Data

Mining usa datos en mailing promocionales anteriores para identificar posibles objetivos

para maximizar los resultados de la inversioacuten en futuros mailing Otros problemas

predecibles incluyen pronoacutesticos de problemas financieros futuros y otras formas de

incumplimiento e identificar segmentos de poblacioacuten que probablemente respondan

similarmente a eventos dados

Descubrimiento automatizado de modelos previamente desconocidos

Las herramientas de Data Mining barren las bases de datos e identifican modelos

previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos

incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos

anormales que pueden representar errores de tipeado en la carga de datos

4

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las

plataformas de hardware y software existentes y puede ser implementadas en sistemas

nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean

desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de

procesamiento paralelo de alto performance pueden analizar bases de datos masivas en

minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente

experimentar con maacutes modelos para entender datos complejos Alta velocidad hace que sea

praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a

su vez producen mejores predicciones

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar

cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables

que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de

modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar

toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a

los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de

poblacioacuten

6) iquestCoacutemo Trabaja el Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce

o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama

Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten

donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la

respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que

podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado

Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda

y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que

probablemente tomara el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma

un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros

hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que

en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de

esperanza si tiene un buen modelo probablemente encontraraacute el tesoro

Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace

mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de

Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que

la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca

de una variedad de situaciones donde una respuesta es conocida y luego el software de Data

Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas

de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado

en situaciones similares donde usted no conoce la respuesta

5

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo

puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle

que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data

Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos

del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden

ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo

funciona las observaciones deben mantenerse para los datos excluidos

7) Arquitectura para Data Mining

Para aplicar mejor estas teacutecnicas avanzadas eacutestas deben estar totalmente integradas con el

data warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de

negocios Varias herramientas de Data Mining actualmente operan fuera del warehouse

requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos

conceptos requieren implementacioacuten operacional la integracioacuten con el warehouse

simplifica la aplicacioacuten de los resultados desde Data Mining El Data warehouse analiacutetico

resultante puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en

aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de

nuevos productos etc

El punto de inicio ideal es un data warehouse que contenga una combinacioacuten de datos de

seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la

actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten

provee una excelente base para prospecting Este warehouse puede ser implementado en

una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los

datos flexible y raacutepido

Un server multidimensional OLAP permite que un modelo de negocios maacutes sofisticado

pueda ser aplicado cuando se navega por el data warehouse Las estructuras

multidimensionales permiten que el usuario analice los datos de acuerdo a como quiera

mirar el negocio - resumido por liacutenea de producto u otras perspectivas claves para su

negocio El server de Data Mining debe estar integrado con el data warehouse y el server

OLAP para insertar el anaacutelisis de negocios directamente en esta infraestructura Un

avanzado metadata centrado en procesos define los objetivos del Data Mining para

resultados especiacuteficos tales como manejos de campantildea prospecting y optimizacioacuten de

promociones La integracioacuten con el data warehouse permite que decisiones operacionales

sean implementadas directamente y monitoreadas A medida que el data warehouse crece

con nuevas decisiones y resultados la organizacioacuten puede minar las mejores praacutecticas y

aplicarlas en futuras decisiones

Este disentildeo representa una transferencia fundamental desde los sistemas de soporte de

decisioacuten convencionales Maacutes que simplemente proveer datos a los usuarios finales a traveacutes

de software de consultas y reportes el server de Anaacutelisis Avanzado aplica los modelos de

negocios del usuario directamente al warehouse y devuelve un anaacutelisis proactivo de la

informacioacuten maacutes relevante Estos resultados mejoran los metadatos en el server OLAP

proveyendo una estrato de metadatos que representa una vista fraccionada de los datos

6

Generadores de reportes visualizadores y otras herramientas de anaacutelisis pueden ser

aplicadas para planificar futuras acciones y confirmar el impacto de esos planes

8) Por queacute usar Data Mining

Sin duda alguna que el uso de Data Mining

o Contribuye a la toma de decisiones taacutecticas y estrateacutegicas proporcionando un

sentido automatizado para identificar informacioacuten clave desde voluacutemenes de datos

generados por procesos tradicionales y de e-Business

o Permite a los usuarios dar prioridad a decisiones y acciones mostrando factores que

tienen un mayor en un objetivo queacute segmentos de clientes son desechables y queacute

unidades de negocio son sobrepasados y por queacute

o Proporciona poderes de decisioacuten a los usuarios del negocio que mejor entienden el

problema y el entorno y es capaz de medir la acciones y los resultados de la mejor

forma

o Genera Modelos descriptivos En un contexto de objetivos definidos en los

negocios permite a empresas sin tener en cuenta la industria o el tamantildeo explorar

automaacuteticamente visualizar y comprender los datos e identificar patrones

relaciones y dependencias que impactan en los resultados finales de la cuenta de

resultados (tales como el aumento de los ingresos incremento de los beneficios

contencioacuten de costos y gestioacuten de riesgos)

o Genera Modelos predictivos permite que relaciones no descubiertas e identificadas

a traveacutes del proceso del Data Mining sean expresadas como reglas de negocio o

modelos predictivos Estos outputs pueden comunicarse en formatos tradicionales

(presentaciones informes informacioacuten electroacutenica compartida embebidos en

aplicaciones) para guiar la estrategia y planificacioacuten de la empresa

Mineriacutea de datos

La Mineriacutea de Datos es un conjunto de teacutecnicas para la induccioacuten de conocimiento

uacutetil a partir de masas ingentes de datos Tiene por lo tanto un solapamiento importante con

otras disciplinas como la estadiacutestica tradicional el reconocimiento de patrones la

inteligencia artificial etc Se la suele distinguir de ellas por el campo de aplicacioacuten se suele

aceptar que la mineriacutea de datos estudia informacioacuten acumulada en empresas y otras

organizaciones acerca de sus clientes usuarios etc y las interacciones de eacutestos con

aqueacutellas de manera que el conocimiento que pueda extraerse de ella sirva para mejorar la

rentabilidad el nivel de servicio redefinir estrategias de maacuterketing etc

Tradicionalmente las teacutecnicas de mineriacutea de datos se aplicaban sobre informacioacuten

contenida en almacenes de datos De hecho muchas grandes empresas e instituciones han

creado y alimentan bases de datos especialmente disentildeadas para proyectos de mineriacutea de

7

datos en las que centralizan informacioacuten potencialmente uacutetil de todas sus aacutereas de negocio

etc No obstante actualmente estaacute cobrando una importancia cada vez mayor la mineriacutea de

datos desestructurados como informacioacuten contenida en ficheros de texto en internet etc

Tabla de contenidos

1 Ejemplos de uso de la mineriacutea de datos

2 Mineriacutea de datos y otras disciplinas anaacutelogas

3 Protocolo de un proyecto de mineriacutea de datos

4 Tendencias

5 Enlaces externos

6 Veacutease tambieacuten

1- Ejemplos de uso de la mineriacutea de datos

El ejemplo claacutesico mdashaparte de algo rancio y posiblemente apoacutecrifomdash de

aplicacioacuten de la mineriacutea de datos tiene que ver con la deteccioacuten de haacutebitos de compra en

supermercados Un estudio muy citado detectoacute que los viernes habiacutea una cantidad

inusualmente elevada de clientes que adquiriacutean a la vez pantildeales y cerveza Se detectoacute que

se debiacutea a que dicho diacutea soliacutean acudir al supermercado padres joacutevenes cuya perspectiva

para el fin de semana consistiacutea en quedarse en casa cuidando de su hijo y viendo la

televisioacuten con una cerveza en la mano El supermercado pudo incrementar sus ventas de

cerveza colocaacutendolas proacuteximas a los pantildeales para fomentar las ventas compulsivas pero un

ejemplo maacutes habitual es el de la deteccioacuten de patrones de fuga En muchas industrias mdash

como la banca las telecomunicaciones etcmdash existe un comprensible intereacutes en detectar

cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para

posiblemente pasarse a la competencia A estos clientes mdashy en funcioacuten de su valormdash se

les podriacutean hacer ofertas personalizadas ofrecer promociones especiales etc con el

objetivo uacuteltimo de retenerlos La mineriacutea de datos ayuda a determinar queacute clientes son los

maacutes proclives a darse de baja estudiando sus patrones de comportamiento y comparaacutendolos

con muestras de clientes que efectivamente se dieron de baja en el pasado

Un caso anaacutelogo es el de la deteccioacuten de transacciones de blanqueo de dinero o de fraude

en el uso de tarjetas de creacutedito o de servicios de telefoniacutea moacutevil e incluso en la relacioacuten de

los contribuyentes con el fisco Generalmente estas operaciones fraudulentas o ilegales

suelen seguir patrones caracteriacutesticos que permiten con cierto grado de probabilidad

distinguirlas de las legiacutetimas y desarrollar asiacute mecanismos para tomar medidas raacutepidas

frente a ellas

Tambieacuten es un aacuterea en boga el del anaacutelisis del comportamiento de los visitantes mdashsobre

todo cuando son clientes potencialesmdash en una paacutegina de internet O la utilizacioacuten de la

informacioacuten mdashobtenida por medios maacutes o menos legiacutetimosmdash sobre ellos para ofrecerles

propaganda adaptada especiacuteficamente a su perfil O para una vez que adquieren un

determinado producto saber inmediatamente queacute otro ofrecerle teniendo en cuenta la

informacioacuten histoacuterica disponible acerca de los clientes que han comprado el primero

Mineriacutea de datos y otras disciplinas anaacutelogas

Suscita cierta poleacutemica el definir las fronteras existentes entre la mineriacutea de datos y

disciplinas anaacutelogas como pueden serlo la estadiacutestica la inteligencia artificial etc Hay

quienes sostienen que la mineriacutea de datos no es sino estadiacutestica envuelta en una jerga de

8

negocios que la conviertan en un producto vendible Otros en cambio encuentran en ella

una serie de problemas y meacutetodos especiacuteficos que la hacen distinta de otras disciplinas

El hecho es que la praacutectica totalidad de los modelos y algoritmos de uso general en mineriacutea

de datos mdashredes neuronales aacuterboles de regresioacuten y clasificacioacuten modelos logiacutesticos

anaacutelisis de componentes principales etcmdash gozan de una tradicioacuten relativamente larga en

otros campos

Fases de un proyecto de mineriacutea de datos

Un proyecto de mineriacutea de datos tiene varias fases necesarias que son esencialmente

Comprensioacuten del negocio y del problema que se quiere resolver

Determinacioacuten obtencioacuten y limpieza de los datos necesarios

Creacioacuten de modelos matemaacuteticos

Validacioacuten comunicacioacuten etc de los resultados obtenidos

Integracioacuten si procede de los resultados en un sistema transaccional o similar

La relacioacuten entre todas estas fases soacutelo es lineal sobre el papel En realidad es mucho maacutes

compleja y esconde toda una jerarquiacutea de subfases A traveacutes de la experiencia acumulada

en proyectos de mineriacutea de datos se han ido desarrollando metodologiacuteas que permiten

gestionar esta complejidad de una manera maacutes o menos uniforme Ejemplos de ellas son

CRISP-DM y SEMMA

Fases de un Proyecto de Mineriacutea de Datos

Los pasos a seguir para la realizacioacuten de un proyecto de mineriacutea de datos son siempre los

mismos independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento

utilizada

El proceso de mineriacutea de datos pasa por las siguientes fases

1- Filtrado de datos

2- Seleccioacuten de Variables

3- Extraccioacuten de Conocimiento

4- Interpretacioacuten y Evaluacioacuten

Si desea obtener una descripcioacuten maacutes detallada puede consultar la documentacioacuten de

CRISP-DM CRISP-DM (CRoss Industry Standard Process for Data Mining) es un

estaacutendar industrial utilizado por maacutes de 160 empresas e instituciones de todo el mundo que

surge en respuesta a la falta de estandarizacioacuten y propone un modelo de proceso general

para proyectos de mineriacutea de datos

Neutral respecto a industria y herramientas

Aplicable en cualquier sector de negocio

9

Fases de un proyecto de Mineriacutea de Datos

1- Filtrado de datos

El formato de los datos contenidos en la fuente de datos (base de datos Data Warehouse)

nunca es el idoacuteneo y la mayoriacutea de las veces no es posible ni siquiera utilizar ninguacuten

algoritmo de mineriacutea sobre los datos en bruto

Mediante el preprocesado se filtran los datos (de forma que se eliminan valores

incorrectos no vaacutelidos desconocidos seguacuten las necesidades y el algoritmo a usar) se

obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del

proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo clustering)

2- Seleccioacuten de variables

Auacuten despueacutes de haber sido preprocesados en la mayoriacutea de los casos se tiene una cantidad

ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las

variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de

conocimiento obtenido del proceso de mineriacutea

Los meacutetodos para la seleccioacuten de caracteriacutesticas son baacutesicamente dos

Aquellos basados en la eleccioacuten de los mejores atributos del problema

Y aquellos que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

3- Algoritmos de Extraccioacuten de Conocimiento

Mediante una teacutecnica de mineriacutea de datos se obtiene un modelo de conocimiento que

representa patrones de comportamiento observados en los valores de las variables del

problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias

teacutecnicas a la vez para generar distintos modelos aunque generalmente cada teacutecnica obliga a

un preprocesado diferente de los datos

4- Interpretacioacuten y evaluacioacuten

Una vez obtenido el modelo se debe proceder a su validacioacuten comprobando que las

conclusiones que arroja son vaacutelidas y suficientemente satisfactorias En el caso de haber

obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los

modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos

alcanza los resultados esperados debe alterarse alguno de los pasos anteriores para generar

nuevos modelos

Tendencias

La mineriacutea de datos ha sufrido transformaciones en los uacuteltimos antildeos de acuerdo con

cambios tecnoloacutegicos de estrategias de maacuterketing la extensioacuten de los modelos de compra

en liacutenea etc Los maacutes importantes de ellos son

La importancia que han cobrado los datos no estructurados (texto paacuteginas de internet etc)

La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales

portales de internet etc

La exigencia de que los procesos funcionen praacutecticamente en liacutenea (por ejemplo que frente

a un fraude con una tarjeta de creacutedito eacutesta pueda ser cancelada casi al instante)

10

Principios de Data Mining

1 Resumen

2 Introduccioacuten

3 Panorama general de data mining

4 La forma en que se trabaja con Data Mining

5 Aplicaciones de Data Mining

6 Extensiones de Data Mining

7 Conclusiones y perspectivas

8 Referencias

RESUMEN

En los uacuteltimos antildeos ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos debido baacutesicamente al gran poder de procesamiento de las maacutequinas como a su bajo costo de almacenamiento Sin embargo dentro de estas enormes masas de datos existe una gran cantidad de informacioacuten oculta de gran importancia estrateacutegica a la que no se puede acceder por las teacutecnicas claacutesicas de recuperacioacuten de la informacioacuten El descubrimiento de esta informacioacuten oculta es posible gracias a la Mineriacutea de Datos (Data Mining) que entre otras sofisticadas teacutecnicas aplica la inteligencia

artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creacioacuten de modelos es decir representaciones abstractas de la realidad pero es el descubrimiento del conocimiento (KDD por sus siglas en ingleacutes) que se encarga de la preparacioacuten de los datos y la interpretacioacuten de los resultados obtenidos los cuales dan un significado a estos patrones encontrados Asiacute el valor real de los datos reside en la informacioacuten que se puede extraer de ellos informacioacuten que ayude a tomar decisiones o mejorar nuestra comprensioacuten de los fenoacutemenos que nos rodean Hoy maacutes que nunca los meacutetodos analiacuteticos avanzados son el arma secreta de muchos negocios exitosos Empleando meacutetodos analiacuteticos avanzados para la explotacioacuten de datos los negocios incrementan sus ganancias maximizan la eficiencia operativa reducen costos y mejoran la satisfaccioacuten del cliente El presente trabajo enfatiza el uso del Data Mining para el descubrimiento del conocimiento y su uso predominante en nivel empresarial a fin de contribuir en la toma de decisiones taacutecticas y estrateacutegicas en una organizacioacuten proporcionando un sentido automatizado para la generacioacuten de conocimiento Vimos cual es la relacioacuten entre Data Mining y un Data Warehouse conocimos lo maacutes relevante sobre el proceso de Data Warehousing y como esta inmerso el Data Mining sobre su arquitectura Asiacute mismo presentamos algunas fases generales y otras un poco maacutes especiacuteficas sobre como implementar un proyecto Data Mining Tambieacuten conocimos cuales son las diferencias entre Data Mining y los procesos de estadiacutestica a pesar de que son ramas con notables diferencias ambas pueden complementarse en sus procesos de toma de decisiones y presentacioacuten de resultados

11

Se incluyeron aplicaciones de Data Mining en varias aacutereas ademaacutes de la empresarial y se da a conocer de forma muy general el alcance que tiene el utilizar un proceso de este tipo Ademaacutes hablamos de algunas herramientas de distribucioacuten libre y algunas comerciales que son empleadas para emprender proyectos de Data Mining Conocimos dos extensiones de Data Mining Web Mining y Text Mining finalmente dimos algunos puntos de vista comentarios y opiniones sobre lo que es Data Mining y lo que se espera de esta tecnologiacutea en los proacuteximos antildeos

INTRODUCCIOacuteN

Desde eacutepocas remotas la humanidad se ha preocupado por la creacioacuten de bienes con el miacutenimo de recursos Distintos pueblos y en distintos periacuteodos se practicaban la previsioacuten planeacioacuten y organizacioacuten de grupos para ejercitar diversas actividades (entre ellas la pesca agricultura el comercio la guerra etc) En antildeos maacutes recientes durante la revolucioacuten industrial se pusieron en praacutectica ideas que sirvieron para la creacioacuten de la administracioacuten ya que durante ese tiempo se pensoacute en la manera de producir maacutes con menos recursos A partir de ese momento precursores e idealistas fueron sentando las bases para la creacioacuten de la administracioacuten convirtieacutendola en una ciencia La humanidad ha utilizado varias formas para llevar a cabo transacciones de los bienes tal es el caso de los antiguos pueblos al utilizar monedas de metal con diferentes insignias descripciones y denominaciones para el intercambio de artiacuteculos o servicios Todo esto nos lleva a decir que es necesario conocer las herramientas y hacer buen uso de ellas para que una empresa pueda evaluar planes decisiones poliacuteticas procedimientos y en general todo lo concerniente a ella entre estas herramientas podemos hablar de herramientas contables financieras matemaacuteticas economiacutea y de informacioacuten El mundo experimenta cambios fundamentales Los continuos avances en tecnologiacutea de computadoras y comunicaciones tienen un fuerte impacto sobre la forma en que las personas trabajan La tecnologiacutea y las expectativas de las personas que la utilizan estaacuten modificando gradualmente las caracteriacutesticas de los sistemas de

informacioacuten Actualmente la economiacutea de muchas empresas y paiacuteses estaacute basada en la informacioacuten maacutes en la tecnologiacutea de sistemas de informacioacuten que sobre las maacutequinas y productos no relacionados con ella El desarrollo de los sistemas de informacioacuten juega en este tiempo un papel muy valioso dentro de las organizaciones En la era industrial lo maacutes importante era el uso del capital y recursos tangibles para generar nuevos productos Actualmente los recursos baacutesicos son las ideas y el uso de informacioacuten El empleo estrateacutegico de la informacioacuten continuaraacute creando en todas las empresas y organizaciones nuevas oportunidades[13] Para desarrollar un sistema de informacioacuten se necesita tecnologiacutea y gente desde los usuarios de la informacioacuten pasando por los operadores capturistas de datos y analistas de sistemas hasta llegar a los niveles directivos de toda la organizacioacuten Los primeros programadores de computadoras desarrollaban aplicaciones que satisfaciacutean vagamente los requerimientos de informacioacuten de los usuarios finales Ahora gracias a las herramientas de hardware y software con las que se cuenta es mucho maacutes faacutecil obtener la informacioacuten necesaria y a tiempo Una de estas herramientas son los Sistemas Administradores de Bases de Datos(DBMS por sus

12

siglas en ingleacutes) pero vayamos maacutes haya iquestqueacute sucederiacutea si adoptamos herramientas o teacutecnicas de bases de datos que nos digan queacute hacer seguacuten las informacioacuten que ellas presentan esto nos conduce a hablar de Data Mining o Mineriacutea de Datos Mientras que la innovacioacuten y la originalidad son habilidades fundamentales para la supervivencia de las empresas su eacutexito y prosperidad depende tambieacuten de decisiones eficientes y competitivas que deben ser tomadas en cortos intervalos de tiempo Para tomar decisiones es fundamental contar con informacioacuten de calidad Hoy en diacutea el nivel gerencial cuenta con una eficaz herramienta para lograr ese objetivo las teacutecnicas de Data Mining Con respecto a los nuevos usos de las bases de datos el Data Mining aparece como uno de los maacutes prometedores unido y fuertemente relacionado con los problemas asociados a los grandes almacenes de datos llamados Data Warehouses La relacioacuten entre el costo de los ordenadores y la atencioacuten humana ha cambiado sustancialmente El recurso maacutes precioso es el factor humano y los ordenadores deben potenciarlo Esto plantea una nueva filosofiacutea de acceso a la informacioacuten donde los ordenadores deben analizar los datos resumirlos organizarlos y resolver cuestiones mucho maacutes complejas que las actuales ofreciendo al usuario la informacioacuten que realmente le interesa Este proceso como se veraacute a lo largo de este trabajo esta muy ligado a cuestiones de Data Mining y Data Warehause Por el momento solo diremos que Data Mining es la integracioacuten de un conjunto de aacutereas que tienen como propoacutesito la identificacioacuten de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisiones en el transcurso de este trabajo detallaremos esto y seraacute de una forma maacutes comprensible Las teacutecnicas de Data Mining son el resultado de un largo proceso de investigacioacuten y desarrollo de productos Esta evolucioacuten comenzoacute cuando los datos de negocios fueron almacenados por primera vez en computadoras y continuoacute con mejoras en el acceso a los datos y maacutes recientemente con tecnologiacuteas generadas para permitir a los usuarios navegar a traveacutes de los datos en tiempo real Data Mining toma este proceso de evolucioacuten maacutes allaacute del acceso y navegacioacuten retrospectiva de los datos hacia la entrega de informacioacuten prospectiva y proactiva Data Mining estaacute listo para su aplicacioacuten en la comunidad de negocios porque estaacute soportado por tres tecnologiacuteas que ya estaacuten suficientemente maduras

Recoleccioacuten masiva de datos Potentes computadoras con multiprocesadores Algoritmos de Data Mining

Las bases de datos comerciales estaacuten creciendo a un ritmo sin precedentes Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontroacute que el 19 de los que contestaron estaacuten por encima del nivel de los 50 Gigabytes En algunas industrias tales como ventas al por menor (retail) estos nuacutemeros pueden ser auacuten mayores MCI Telecommunications Corp cuenta con una base de datos de 3 terabytes + 1 terabyte de iacutendices y overhead corriendo en MVS sobre IBM SP2 La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma maacutes costo-efectiva con tecnologiacutea de computadoras con multiprocesamiento paralelo Los algoritmos de Data Mining

13

utilizan teacutecnicas que han existido por lo menos desde hace 10 antildeos pero que soacutelo han sido implementadas recientemente como herramientas maduras confiables entendibles que consistentemente son maacutes performantes que meacutetodos estadiacutesticos claacutesicos En la evolucioacuten desde los datos de negocios a informacioacuten de negocios cada nuevo paso se basa en el previo Por ejemplo el acceso a datos dinaacutemicos es criacutetico para las aplicaciones de navegacioacuten de datos (drill through applications) y la habilidad para almacenar grandes bases de datos es criacutetica para Data Mining Los componentes esenciales de la tecnologiacutea de Data Mining han estado bajo desarrollo por deacutecadas en aacutereas de investigacioacuten como estadiacutesticas inteligencia artificial y aprendizaje de maacutequinas Hoy la madurez de estas teacutecnicas junto con los motores de bases de datos relacionales de alta performance hicieron que estas tecnologiacuteas fueran praacutecticas para los entornos de Data Warehouse actuales La idea de Data Mining no es nueva Desde los antildeos sesenta los estadiacutesticos manejaban teacuterminos como Data Fishing Data Mining o Data Archaeology con la idea de encontrar correlaciones sin una hipoacutetesis previa en bases de datos con ruido A principios de los antildeos ochenta Rakesh Agrawal Gio Wiederhold Robert Blum y Gregory Piatetsky-Shapiro entre otros empezaron a consolidar los teacuterminos de Data Mining y KDD (Knowledge Discovery in Databases Descubrimiento de Conocimiento en Bases de Datos) A finales de los antildeos ochenta soacutelo existiacutean un par de empresas dedicadas a esta tecnologiacutea en 2002 ya habiacutea maacutes de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones Las listas de discusioacuten sobre este tema las forman investigadores de maacutes de ochenta paiacuteses Esta tecnologiacutea ha sido un buen punto de encuentro entre personas pertenecientes al aacutembito acadeacutemico y al de los negocios[20] El presente trabajo tiene como finalidad dar a conocer una perspectiva general acerca de todo lo referente a la teoriacutea de Data Mining existen teacutecnicas de implantacioacuten de Data Mining algoritmos reglas etc de las cuales no daremos mayor detalle ya que no se encuentran como un objetivo de este documento solo se mencionaraacuten como la base teoacuterica de la Mineriacutea de Datos Lo que siacute perseguimos de manera especiacutefica es dejar en claro queacute es el concepto de Data Mining sus expectativas o finalidades dar a conocer sus cimientos y a queacute nos llevan todos ellos sus posibles aplicaciones y coacutemo se esta usando actualmente en algunas aacutereas principalmente en el nivel empresarial Aquiacute cabe mencionar que Data Mining es un proceso utilizado frecuentemente en macro empresas sin embargo tambieacuten es utilizado en las llamadas Pymes (Pequentildeas Y Medianas EmpresaS) y ademaacutes a nivel cientiacutefico aunque con menor frecuencia es por ello que nos hemos enfocado sobre todo a la utilizacioacuten de dicho proceso en las empresas grandes y coacutemo es que funciona en ellas auacuten asiacute creiacutemos conveniente introducir algunos ejemplos de su uso en otros entornos El primer capiacutetulo Panorama general de Data Mining comienza con un ejemplo introductorio para dar una idea general del por queacute es necesario utilizar Data Mining en ciertos casos esto nos lleva a dar un paso previo antes de conocer exactamente queacute es Data Mining Data Warehouse un paso antes de Data Mining nos menciona queacute relacioacuten hay entre Data Warehouse y Data Mining es importante entender este concepto ya que podriacuteamos decir que es una de las

14

principales bases de la Mineriacutea de Datos finalmente el capiacutetulo nos dice lo que en realidad es Data Mining sus objetivos y algunas formas generales de su utilizacioacuten

La forma en queacute trabaja Data Mining el capiacutetulo nuacutemero dos menciona de forma muy general como es que estaacute constituido Data Mining cuaacutel es su arquitectura la forma en que se implementa y las fases que se siguen para una buena implantacioacuten de un proyecto de Data Mining como bien lo hemos mencionado anteriormente este no es un trabajo para describir detalladamente las teacutecnicas de la Mineriacutea de Datos por ello cabe aclarar que este capiacutetulo tiene un enfoque teoacuterico baacutesico

Los dos primeros capiacutetulos nos sirven para entender baacutesicamente cuaacuteles podriacutean ser las aplicaciones de Data Mining el tercer capiacutetulo Aplicaciones de Data Mining nos da varios ejemplos de doacutende y coacutemo puede ser utilizado este proceso y cuaacuteles son sus ventajas en estas aacutereas de aplicacioacuten (principalmente en nivel empresarial)

El capiacutetulo nuacutemero cuatro Extensiones de Data Mining abordamos dos temas complementarios que tambieacuten se utilizan como procesos de Data Mining a saber el Web Mining y el Text Mining Estos temas tambieacuten los podriacuteamos ver como una aplicacioacuten de Data Mining sin embargo los hemos colocado en un capiacutetulo aparte ya que estaacuten considerados como un campo diferente esto es aplicaciones vistas como un meta Data Mining

Finalmente el uacuteltimo capiacutetulo Conclusiones y perspectivas damos nuestras conclusiones y algunos puntos de vista particulares mencionamos cuaacuteles son las oportunidades que existen para trabajar en proyectos de este tipo y queacute es lo que se espera de Data Mining en los proacuteximos antildeos

Hemos incluido tambieacuten un Resumen de todo lo abordado durante nuestro documento que contempla los aspectos maacutes importantes aquiacute tratados En la bibliografiacutea podraacute encontrar las direcciones http de donde se tomaron muchos de los aspectos mencionados en el transcurso de este trabajo cuando coloquemos un nuacutemero por ejemplo [2] al final de un paacuterrafo o cualquier sentencia estamos haciendo referencia al nuacutemero de artiacuteculo de internet mencionado en la bibliografiacutea de donde fue tomado dicho paacuterrafo o sentencia

CAPITULO I

PANORAMA GENERAL DE DATA MINING

En este capiacutetulo abordamos los conceptos fundamentales relacionados con Data Mining que nos ayudaraacuten a tener sobre todo una idea general de eacutel y ademaacutes nos auxiliaraacuten para entender los siguientes capiacutetulos Comenzamos con un ejemplo introductorio en la seccioacuten 11 Ejemplo de un problema asociado a Data Mining donde pretendemos dar a conocer una aplicacioacuten muy simple de Data Mining Continuamos con el apartado 12 Data Warehouse Un paso antes de Data Mining ya que creemos conveniente tener las nociones adecuadas de este tema que se relaciona fuertemente con Data Mining y del cuaacutel haremos mencioacuten en el resto de este trabajo Finalmente en la seccioacuten 13 iquestQueacute es Data Mining explicamos de la forma que creiacutemos uacutetil el concepto real de Data Mining sus objetivos y una forma breve de coacutemo y doacutende se trabaja con eacutel

15

11 Ejemplo de un problema asociado a Data Mining [18]

Para poder generar una idea general del significado y aplicacioacuten de Data Mining consideremos el siguiente problema

Suponga que usted es el gerente de mercadeo para una compantildeiacutea de telefoniacutea celular El problema considera lo siguiente La desercioacuten de clientes es muy alta La produccioacuten(despueacutes de que el contrato expira) es del 40 Los clientes reciben un teleacutefono de regalo con el contrato Usted paga una comisioacuten de ventas por contrato Se le da un teleacutefono nuevo a cada persona cuyo contrato ha expirado lo cual

es muy caro y por ende poco rentable para la compantildeiacutea Traer de regreso a un cliente despueacutes de que se va es difiacutecil y caro

111 Posible solucioacuten al problema de ejemplo

Se debe predecir queacute clientes abandonaraacuten la compantildeiacutea tres meses antes de que el contrato expire

Si queremos conservar a un cliente que creamos abandonaraacute la empresa se le deberiacutea ofrecer un nuevo teleacutefono

No hay que prestarle atencioacuten a los clientes que tienen altas posibilidades de quedarse en la empresa

Si hay clientes que no deseamos conservar simplemente no hacemos nada

Pues bien es muy faacutecil pretender hacer todo lo mencionado antes pero ahora la pregunta es iquestcoacutemo lo hacemos No podemos tomar decisiones a la ligera ni tomar medidas de las cuales estamos seguros que fallaraacuten por ejemplo suena absurdo en cuestiones como eacutestas recurrir a la lectura del Tarot La solucioacuten debe basarse en algo maacutes formal y coherente y una de esas alternativas es Data Mining

112 Solucioacuten del problema ejemplo a traveacutes de Data Mining

La solucioacuten que puede dar Data Mining al ejemplo del problema mencionado en esta seccioacuten considera lo siguiente

Interactuar dinaacutemicamente con el cliente Trabajar hacia delante y no hacia atraacutes Mejorar la calidad de la interaccioacuten iquestEl cliente quiere interactuar

o La liacutenea de ganancias se salva Optimizar el tiempo de interaccioacuten

o Aumentar el valor del cliente constantemente o Aumentar el valor de vida del cliente

En esta seccioacuten hemos visto solo un ejemplo introductoria en las secciones subsecuentes trataremos otros casos e iremos explicando como es que Data Mining ofrece soluciones a problemas de empresas

12 Data Warehouse Un paso antes de Data Mining

16

Antes de dar a conocer claramente lo que significa Data Mining es preciso dejar en claro lo que es un Data Warehouse que en principio lo podemos ver como un concepto que esta antes de Data Mining y es la base de este (aunque no siempre es asiacute) por ello el objetivo de esta seccioacuten es dar una idea general a este concepto no entraremos en muchos detalles pero daremos a conocer lo maacutes relevante para que en las secciones siguientes cuando hablemos de Data Warehouse o Data Warehousing no haya dudas sobre lo que nos estamos refiriendo

Las Bases de Datos (BD) de una empresa utilizan los ordenadores como medio para organizar sus datos de forma que sean comprensibles para las personas Este proceso es conocido como Data Warehousing La comprensioacuten de los datos almacenados es esencial para cualquier organizacioacuten ya que constituye un elemento baacutesico en la toma de decisiones

Un Data Warehouse es un almaceacuten o repositorio de datos categorizados que concentra un gran volumen de informacioacuten de intereacutes para toda una organizacioacuten la cual se distribuye por medio de diversas herramientas de consulta y de creacioacuten de informes orientadas a la toma de decisiones El objetivo del Data Warehouse (DW) es agrupar los datos con el propoacutesito de facilitar su posterior anaacutelisis de forma que sean faacuteciles de acceder y posteriormente analizar informacioacuten sobre la propia empresa A este tipo de datos se les conoce como informativos Los sistemas que manejan estos datos se denominan OLAP (Online Analytical Processing) Existe muchas definiciones formales de DW de distintos autores pero una de las mas famosas puede ser la dada por Inmon en 1992 Un Data Warehouse es una coleccioacuten de datos orientados a temas integrados no-volaacutetiles y variante en el tiempo organizados para soportar necesidades empresariales Los Data Warehouses a menudo almacenan gran cantidad de informacioacuten la cual estaacute a veces subdividida en pequentildeas unidades loacutegicas Perioacutedicamente se importan estos datos de otros sistemas de informacioacuten dentro del Data Warehouse para realizar sobre ellos un procesamiento posterior Un Data Warehouse se diferencia de una Base de Datos operacional de una empresa diremos que un Data Warehouse puede derivarse de la Base de Datos corporativa mediante la importacioacuten de informacioacuten pero el DW no es esa BD operacional[7]

Muchos de los datos de una empresa se utilizan como soporte a los negocios por eso a este tipo de datos se les denomina operacionales Los sistemas usados con el fin de recogerlos reciben el nombre de OLTP (Online Transaction Processing)[10]

Las principales caracteriacutesticas o propiedades de un DW son las siguientes

El DW estaacute orientado a la toma de decisiones Un buen disentildeo de la base de datos favorece el anaacutelisis y la recuperacioacuten de datos para obtener una ventaja estrateacutegica y para facilitar las decisiones de marketing

El DW almacena datos categorizaacutendolos o estructuraacutendolos de forma que favorezcan el anaacutelisis de los datos y puedan proporcionar anaacutelisis histoacutericos

El DW no estaacute orientado a procesos relacionados con la operativa de la empresa es decir que solo esta destinado a funcionar como un almaceacuten de datos

El DW estaacute preparado para ser explotado mediante herramientas especiacuteficas que permiten la extraccioacuten de informacioacuten significativa y patrones de

17

comportamiento que permanecen ocultos en un enorme repositorio de datos Esta explotacioacuten de los datos se suele realizar con herramientas de Data Mining

121 Software para un Data Warehouse[10]

La informacioacuten estrateacutegica se almacena en Gigabytes(tal vez maacutes) de datos de marketing En este caso se necesita software especializado que permita capturar los datos relevantes en forma raacutepida El software no deberiacutea limitarse uacutenicamente al acceso a los datos sino tambieacuten al anaacutelisis significativo de los datos esto es transformar los datos de la informacioacuten cruda o no procesada en informacioacuten uacutetil para la empresa

El software o herramientas de negocios inteligentes se colocan sobre la plataforma Data Warehousing y proveen este servicio Debido a que son el punto principal de contacto entre la aplicacioacuten del depoacutesito y la gente que lo usa estas herramientas pueden constituir la diferencia entre el eacutexito o fracaso de un depoacutesito Las herramientas de negocio inteligentes se han convertido en los sucesores de los sistemas de soporte de decisioacuten pero tienen un alcance maacutes amplio No solamente ayudan en las decisiones de soporte sino en muchos casos estas herramientas soportan muchas funciones operacionales y de misioacuten-criacutetica de la compantildeiacutea Sin embargo estos productos no son infalibles ya que soacutelo se consigue el maacuteximo provecho del Data Warehouse si eligen las herramientas adecuadas a las necesidades de cada usuario final Una de estas herramientas es Data Mining sin embargo hay otras que no mencionaremos ya que se encuentran fuera de los objetivos de este trabajo El proceso de Data Mining extrae los conocimientos guardados o informacioacuten predictiva desde el Data Warehouse sin requerir pedidos o preguntas especiacuteficas Data Mining usa algunas de las teacutecnicas de computacioacuten maacutes avanzadas para generar modelos y asociaciones como redes neurales deteccioacuten de desviacioacuten modelado predictivo y programacioacuten geneacutetica

122 Ventajas y Desventajas del Data Warehouse

La utilizacioacuten de Data Warehouse proporciona una serie de ventajas

Proporciona un gran poder de procesamiento de informacioacuten Permite una mayor flexibilidad y rapidez en el acceso a la informacioacuten Facilita la toma de decisiones en los negocios Las empresas obtienen un aumento de la productividad Proporciona una comunicacioacuten fiable entre todos los departamentos de la

empresa Mejora las relaciones con los proveedores y los clientes Permite conocer queacute estaacute pasando en el negocio es decir estar siempre

enterado de los buenos y malos resultados Transforma los datos en informacioacuten y la informacioacuten en conocimiento Permite hacer planes de forma maacutes efectiva Reduce los tiempos de respuesta y los costes de operacioacuten

Resumiendo el Data Warehouse proporciona una informacioacuten de gestioacuten accesible correcta uniforme y actualizada Proporciona un menor coste en la toma de

18

decisiones una mayor flexibilidad ante el entorno un mejor servicio al cliente y permite el redisentildeo de los procesos

Pero los Data Warehouse tambieacuten tienen algunas desventajas

Requieren una revisioacuten del modelo de datos objetos transacciones y ademaacutes del almacenamiento

Tienen un disentildeo complejo y multidisciplinar Requieren una reestructuracioacuten de los sistemas operacionales Tienen un alto coste Requieren sistemas aplicaciones y almacenamiento especiacutefico

Por uacuteltimo cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versioacuten maacutes reducida de un Data Warehouse a menudo conteniendo informacioacuten especiacutefica de alguacuten departamento como marketing finanzas o mantenimiento de la red Idealmente el Data Marts deberiacutea ser un subconjunto del Data Warehouse a fin de mantener consistencia en las praacutecticas de administracioacuten de datos corporativos y para mantener la seguridad y la integridad de la informacioacuten cruda que se estaacute usando Para las grandes compantildeiacuteas el Data Marts usualmente contiene una docena de gigabytes de datos Ahora podemos continuar y dar una explicacioacuten de lo que en realidad es Data Mining a pesar de que en este apartado hemos dado una definicioacuten de manera somera

13 iquestQueacute es Data Mining[14]

Cada diacutea generamos una gran cantidad de informacioacuten algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos Nos damos cuenta de que generamos informacioacuten cuando registramos nuestra entrada en el trabajo cuando entramos en un servidor para ver nuestro correo cuando pagamos con una tarjeta de creacutedito o cuando reservamos un boleto de avioacuten Otras veces no nos damos cuenta de que generamos informacioacuten como cuando conducimos por una viacutea donde estaacuten contabilizando el nuacutemero de automoacuteviles que pasan por minuto cuando se sigue nuestra navegacioacuten por Internet o cuando nos sacan una fotografiacutea del rostro al haber pasado cerca de una oficina gubernamental iquestCon queacute finalidad queremos generar informacioacuten Son muchos los motivos que nos llevan a generar informacioacuten ya que nos pueden ayudar a controlar optimizar administrar examinar investigar planificar predecir someter negociar o tomar decisiones de cualquier aacutembito seguacuten el dominio en que nos desarrollemos La informacioacuten por siacute misma estaacute considerada un bien patrimonial De esta forma si una empresa tiene una peacuterdida total o parcial de informacioacuten provoca bastantes perjuicios Es evidente que la informacioacuten debe ser protegida pero tambieacuten explotada

iquestQueacute nos ha permitido poder generar tanta informacioacuten En los uacuteltimos antildeos debido al desarrollo tecnoloacutegico a niveles exponenciales tanto en el aacuterea de coacutemputo como en la de transmisioacuten de datos ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacioacuten Sin duda existen cuatro factores importantes que nos han llevado a este suceso

19

1 El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente

2 El incremento de las velocidades de coacutemputo en los procesadores 3 Las mejoras en la confiabilidad y aumento de la velocidad en la transmisioacuten

de datos 4 El desarrollo de sistemas administradores de bases de datos maacutes poderosos

Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacioacuten en las bases de datos Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura ya que soacutelo se guarda (o escribe) en el disco duro pero nunca se hace uso de eacutel Generalmente todas las empresas usan un dato llamado dato-escritura-lectura que utilizan para hacer consultas dirigidas Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-anaacutelisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones Es necesario contar con tecnologiacuteas que nos ayuden a explotar el potencial de este tipo de datos La cantidad de informacioacuten que nos llega cada diacutea es tan inmensa que nos resulta difiacutecil asimilarla Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171769416 sitios donde nos pueden decir algo al respecto Suponiendo que nos tomemos un minuto para ver el contenido de cada paacutegina tardariacuteamos entonces 326 antildeos en visitarlas todas Esto es imposible y por lo tanto existe una clara necesidad de disponer de tecnologiacuteas que nos ayuden en nuestros procesos de buacutesqueda y auacuten maacutes de tecnologiacuteas que nos ayuden a comprender su contenido Como bien sabemos algunos sistemas producen una cantidad inmensa de datos estos datos con frecuencia contienen valiosa informacioacuten que puede resultar muy uacutetil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacioacuten Las dimensiones de las base de datos grandes (montantildeas) y sus velocidades de crecimiento hacen muy difiacutecil para un humano su anaacutelisis y la extraccioacuten de alguna informacioacuten importante (oro) Auacuten con el uso de herramientas estadiacutesticas claacutesicas esta tarea es casi imposible El Data Mining surge como una tecnologiacutea que intenta ayudar a comprender el contenido de una base de datos De forma general los datos son la materia prima bruta en el momento que el usuario les atribuye alguacuten significado especial pasan a convertirse en informacioacuten Cuando los especialistas elaboran o encuentran un modelo haciendo que la interpretacioacuten del confronto entre la informacioacuten y ese modelo represente un valor agregado entonces nos referimos al conocimiento En la figura 11 se ilustra la jerarquiacutea que existe en una base de datos entre dato informacioacuten y conocimiento Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquiacutea El aacuterea interna dentro del triaacutengulo representa los objetivos que se han propuesto La separacioacuten del triaacutengulo representa la estrecha unioacuten entre dato e informacioacuten no asiacute entre la informacioacuten y el conocimiento El Data Mining trabaja en el nivel superior buscando patrones comportamientos agrupaciones secuencias tendencias o asociaciones que puedan generar alguacuten modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisioacuten

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 2: Clase 6 Data Mining

2

2) Queacute es Data Mining

Data Mining es la extraccioacuten de informacioacuten oculta y predecible de grandes bases de datos

es una poderosa tecnologiacutea nueva con gran potencial que ayuda a las compantildeiacuteas a

concentrarse en la informacioacuten maacutes importante de sus Bases de Informacioacuten (Data

Warehouse)

Un Sistema Data mining es una tecnologiacutea de soporte para usuario final cuyo objetivo es

extraer conocimiento uacutetil y utilizable a partir de la informacioacuten contenida en las bases de

datos de las empresas

3) Coacutemo se desarrollan los sistemas Data Mining

Los sistemas Datamining se desarrollan bajo lenguajes de uacuteltima generacioacuten basados en la

inteligencia artificial y utilizan modelos matemaacuteticos tales como

Redes neuronales artificiales modelos predecible no-lineales que aprenden a traveacutes del

entrenamiento y semejan la estructura de una red neuronal bioloacutegica

Arboles de decisioacuten estructuras de forma de aacuterbol que representan conjuntos de decisiones

Estas decisiones generan reglas para la clasificacioacuten de un conjunto de datos Meacutetodos

especiacuteficos de aacuterboles de decisioacuten incluyen Arboles de Clasificacioacuten y Regresioacuten (CART

Classification And Regression Tree) y Deteccioacuten de Interaccioacuten Automaacutetica de Chi

Cuadrado (CHAI Chi Square Automatic Interaction Detection)

Algoritmos geneacuteticos teacutecnicas de optimizacioacuten que usan procesos tales como

combinaciones geneacuteticas mutaciones y seleccioacuten natural en un disentildeo basado en los

conceptos de evolucioacuten

Meacutetodo del vecino maacutes cercano una teacutecnica que clasifica cada registro en un conjunto de

datos basado en una combinacioacuten de las clases delde los k registro (s) maacutes similares a eacutel

en un conjunto de datos histoacutericos (donde k 1) Algunas veces se llama la teacutecnica del

vecino k-maacutes cercano

Regla de induccioacuten la extraccioacuten de reglas if-then de datos basados en significado

estadiacutestico

Muchas de estas tecnologiacuteas han estado en uso por maacutes de una deacutecada en herramientas de

anaacutelisis especializadas que trabajan con voluacutemenes de datos relativamente pequentildeos Estas

capacidades estaacuten ahora evolucionando para integrarse directamente con herramientas

OLAP y de

Data Warehousing

3

4) Queacute son capaces de hacer las herramientas del Data Mining

Las herramientas de Data Mining predicen futuras tendencias y comportamientos

permitiendo en los negocios tomar decisiones proactivas y conducidas por un conocimiento

acabado de la informacioacuten (knowledge-driven) Los anaacutelisis prospectivos automatizados

ofrecidos por un producto asiacute van maacutes allaacute de los eventos pasados provistos por

herramientas retrospectivas tiacutepicas de sistemas de soporte de decisioacuten

Las herramientas de Data Mining pueden responder a preguntas de negocios que

tradicionalmente consumen demasiado tiempo para poder ser resueltas y a los cuales los

usuarios de esta informacioacuten casi no estaacuten dispuestos a aceptar ldquoEstas herramientas

exploran las bases de datos en busca de patrones ocultos encontrando informacioacuten

predecible que un experto no puede llegar a encontrar porque se encuentra fuera de sus

expectativasrdquo

Una vez que las herramientas de Data Mining fueron implementadas en

computadoras cliente servidor de alta performance o de procesamiento paralelo pueden

analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestCuaacuteles

clientes tienen maacutes probabilidad de responder al proacuteximo mailing promocional y por queacute

y presentar los resultados en formas de tablas con graacuteficos reportes texto hipertexto etc

Las teacutecnicas de Data Mining pueden ser implementadas raacutepidamente en plataformas ya

existentes de software y hardware para acrecentar el valor de las fuentes de informacioacuten

existentes y pueden ser integradas con nuevos productos y sistemas pues son traiacutedas en

liacutenea (on-line)

5) El Alcance del Data Mining

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede

generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos

Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases

de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora

pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de

problema predecible es el marketing apuntado a objetivos (targeted marketing) Data

Mining usa datos en mailing promocionales anteriores para identificar posibles objetivos

para maximizar los resultados de la inversioacuten en futuros mailing Otros problemas

predecibles incluyen pronoacutesticos de problemas financieros futuros y otras formas de

incumplimiento e identificar segmentos de poblacioacuten que probablemente respondan

similarmente a eventos dados

Descubrimiento automatizado de modelos previamente desconocidos

Las herramientas de Data Mining barren las bases de datos e identifican modelos

previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos

incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos

anormales que pueden representar errores de tipeado en la carga de datos

4

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las

plataformas de hardware y software existentes y puede ser implementadas en sistemas

nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean

desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de

procesamiento paralelo de alto performance pueden analizar bases de datos masivas en

minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente

experimentar con maacutes modelos para entender datos complejos Alta velocidad hace que sea

praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a

su vez producen mejores predicciones

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar

cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables

que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de

modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar

toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a

los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de

poblacioacuten

6) iquestCoacutemo Trabaja el Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce

o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama

Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten

donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la

respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que

podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado

Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda

y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que

probablemente tomara el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma

un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros

hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que

en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de

esperanza si tiene un buen modelo probablemente encontraraacute el tesoro

Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace

mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de

Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que

la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca

de una variedad de situaciones donde una respuesta es conocida y luego el software de Data

Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas

de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado

en situaciones similares donde usted no conoce la respuesta

5

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo

puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle

que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data

Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos

del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden

ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo

funciona las observaciones deben mantenerse para los datos excluidos

7) Arquitectura para Data Mining

Para aplicar mejor estas teacutecnicas avanzadas eacutestas deben estar totalmente integradas con el

data warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de

negocios Varias herramientas de Data Mining actualmente operan fuera del warehouse

requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos

conceptos requieren implementacioacuten operacional la integracioacuten con el warehouse

simplifica la aplicacioacuten de los resultados desde Data Mining El Data warehouse analiacutetico

resultante puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en

aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de

nuevos productos etc

El punto de inicio ideal es un data warehouse que contenga una combinacioacuten de datos de

seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la

actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten

provee una excelente base para prospecting Este warehouse puede ser implementado en

una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los

datos flexible y raacutepido

Un server multidimensional OLAP permite que un modelo de negocios maacutes sofisticado

pueda ser aplicado cuando se navega por el data warehouse Las estructuras

multidimensionales permiten que el usuario analice los datos de acuerdo a como quiera

mirar el negocio - resumido por liacutenea de producto u otras perspectivas claves para su

negocio El server de Data Mining debe estar integrado con el data warehouse y el server

OLAP para insertar el anaacutelisis de negocios directamente en esta infraestructura Un

avanzado metadata centrado en procesos define los objetivos del Data Mining para

resultados especiacuteficos tales como manejos de campantildea prospecting y optimizacioacuten de

promociones La integracioacuten con el data warehouse permite que decisiones operacionales

sean implementadas directamente y monitoreadas A medida que el data warehouse crece

con nuevas decisiones y resultados la organizacioacuten puede minar las mejores praacutecticas y

aplicarlas en futuras decisiones

Este disentildeo representa una transferencia fundamental desde los sistemas de soporte de

decisioacuten convencionales Maacutes que simplemente proveer datos a los usuarios finales a traveacutes

de software de consultas y reportes el server de Anaacutelisis Avanzado aplica los modelos de

negocios del usuario directamente al warehouse y devuelve un anaacutelisis proactivo de la

informacioacuten maacutes relevante Estos resultados mejoran los metadatos en el server OLAP

proveyendo una estrato de metadatos que representa una vista fraccionada de los datos

6

Generadores de reportes visualizadores y otras herramientas de anaacutelisis pueden ser

aplicadas para planificar futuras acciones y confirmar el impacto de esos planes

8) Por queacute usar Data Mining

Sin duda alguna que el uso de Data Mining

o Contribuye a la toma de decisiones taacutecticas y estrateacutegicas proporcionando un

sentido automatizado para identificar informacioacuten clave desde voluacutemenes de datos

generados por procesos tradicionales y de e-Business

o Permite a los usuarios dar prioridad a decisiones y acciones mostrando factores que

tienen un mayor en un objetivo queacute segmentos de clientes son desechables y queacute

unidades de negocio son sobrepasados y por queacute

o Proporciona poderes de decisioacuten a los usuarios del negocio que mejor entienden el

problema y el entorno y es capaz de medir la acciones y los resultados de la mejor

forma

o Genera Modelos descriptivos En un contexto de objetivos definidos en los

negocios permite a empresas sin tener en cuenta la industria o el tamantildeo explorar

automaacuteticamente visualizar y comprender los datos e identificar patrones

relaciones y dependencias que impactan en los resultados finales de la cuenta de

resultados (tales como el aumento de los ingresos incremento de los beneficios

contencioacuten de costos y gestioacuten de riesgos)

o Genera Modelos predictivos permite que relaciones no descubiertas e identificadas

a traveacutes del proceso del Data Mining sean expresadas como reglas de negocio o

modelos predictivos Estos outputs pueden comunicarse en formatos tradicionales

(presentaciones informes informacioacuten electroacutenica compartida embebidos en

aplicaciones) para guiar la estrategia y planificacioacuten de la empresa

Mineriacutea de datos

La Mineriacutea de Datos es un conjunto de teacutecnicas para la induccioacuten de conocimiento

uacutetil a partir de masas ingentes de datos Tiene por lo tanto un solapamiento importante con

otras disciplinas como la estadiacutestica tradicional el reconocimiento de patrones la

inteligencia artificial etc Se la suele distinguir de ellas por el campo de aplicacioacuten se suele

aceptar que la mineriacutea de datos estudia informacioacuten acumulada en empresas y otras

organizaciones acerca de sus clientes usuarios etc y las interacciones de eacutestos con

aqueacutellas de manera que el conocimiento que pueda extraerse de ella sirva para mejorar la

rentabilidad el nivel de servicio redefinir estrategias de maacuterketing etc

Tradicionalmente las teacutecnicas de mineriacutea de datos se aplicaban sobre informacioacuten

contenida en almacenes de datos De hecho muchas grandes empresas e instituciones han

creado y alimentan bases de datos especialmente disentildeadas para proyectos de mineriacutea de

7

datos en las que centralizan informacioacuten potencialmente uacutetil de todas sus aacutereas de negocio

etc No obstante actualmente estaacute cobrando una importancia cada vez mayor la mineriacutea de

datos desestructurados como informacioacuten contenida en ficheros de texto en internet etc

Tabla de contenidos

1 Ejemplos de uso de la mineriacutea de datos

2 Mineriacutea de datos y otras disciplinas anaacutelogas

3 Protocolo de un proyecto de mineriacutea de datos

4 Tendencias

5 Enlaces externos

6 Veacutease tambieacuten

1- Ejemplos de uso de la mineriacutea de datos

El ejemplo claacutesico mdashaparte de algo rancio y posiblemente apoacutecrifomdash de

aplicacioacuten de la mineriacutea de datos tiene que ver con la deteccioacuten de haacutebitos de compra en

supermercados Un estudio muy citado detectoacute que los viernes habiacutea una cantidad

inusualmente elevada de clientes que adquiriacutean a la vez pantildeales y cerveza Se detectoacute que

se debiacutea a que dicho diacutea soliacutean acudir al supermercado padres joacutevenes cuya perspectiva

para el fin de semana consistiacutea en quedarse en casa cuidando de su hijo y viendo la

televisioacuten con una cerveza en la mano El supermercado pudo incrementar sus ventas de

cerveza colocaacutendolas proacuteximas a los pantildeales para fomentar las ventas compulsivas pero un

ejemplo maacutes habitual es el de la deteccioacuten de patrones de fuga En muchas industrias mdash

como la banca las telecomunicaciones etcmdash existe un comprensible intereacutes en detectar

cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para

posiblemente pasarse a la competencia A estos clientes mdashy en funcioacuten de su valormdash se

les podriacutean hacer ofertas personalizadas ofrecer promociones especiales etc con el

objetivo uacuteltimo de retenerlos La mineriacutea de datos ayuda a determinar queacute clientes son los

maacutes proclives a darse de baja estudiando sus patrones de comportamiento y comparaacutendolos

con muestras de clientes que efectivamente se dieron de baja en el pasado

Un caso anaacutelogo es el de la deteccioacuten de transacciones de blanqueo de dinero o de fraude

en el uso de tarjetas de creacutedito o de servicios de telefoniacutea moacutevil e incluso en la relacioacuten de

los contribuyentes con el fisco Generalmente estas operaciones fraudulentas o ilegales

suelen seguir patrones caracteriacutesticos que permiten con cierto grado de probabilidad

distinguirlas de las legiacutetimas y desarrollar asiacute mecanismos para tomar medidas raacutepidas

frente a ellas

Tambieacuten es un aacuterea en boga el del anaacutelisis del comportamiento de los visitantes mdashsobre

todo cuando son clientes potencialesmdash en una paacutegina de internet O la utilizacioacuten de la

informacioacuten mdashobtenida por medios maacutes o menos legiacutetimosmdash sobre ellos para ofrecerles

propaganda adaptada especiacuteficamente a su perfil O para una vez que adquieren un

determinado producto saber inmediatamente queacute otro ofrecerle teniendo en cuenta la

informacioacuten histoacuterica disponible acerca de los clientes que han comprado el primero

Mineriacutea de datos y otras disciplinas anaacutelogas

Suscita cierta poleacutemica el definir las fronteras existentes entre la mineriacutea de datos y

disciplinas anaacutelogas como pueden serlo la estadiacutestica la inteligencia artificial etc Hay

quienes sostienen que la mineriacutea de datos no es sino estadiacutestica envuelta en una jerga de

8

negocios que la conviertan en un producto vendible Otros en cambio encuentran en ella

una serie de problemas y meacutetodos especiacuteficos que la hacen distinta de otras disciplinas

El hecho es que la praacutectica totalidad de los modelos y algoritmos de uso general en mineriacutea

de datos mdashredes neuronales aacuterboles de regresioacuten y clasificacioacuten modelos logiacutesticos

anaacutelisis de componentes principales etcmdash gozan de una tradicioacuten relativamente larga en

otros campos

Fases de un proyecto de mineriacutea de datos

Un proyecto de mineriacutea de datos tiene varias fases necesarias que son esencialmente

Comprensioacuten del negocio y del problema que se quiere resolver

Determinacioacuten obtencioacuten y limpieza de los datos necesarios

Creacioacuten de modelos matemaacuteticos

Validacioacuten comunicacioacuten etc de los resultados obtenidos

Integracioacuten si procede de los resultados en un sistema transaccional o similar

La relacioacuten entre todas estas fases soacutelo es lineal sobre el papel En realidad es mucho maacutes

compleja y esconde toda una jerarquiacutea de subfases A traveacutes de la experiencia acumulada

en proyectos de mineriacutea de datos se han ido desarrollando metodologiacuteas que permiten

gestionar esta complejidad de una manera maacutes o menos uniforme Ejemplos de ellas son

CRISP-DM y SEMMA

Fases de un Proyecto de Mineriacutea de Datos

Los pasos a seguir para la realizacioacuten de un proyecto de mineriacutea de datos son siempre los

mismos independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento

utilizada

El proceso de mineriacutea de datos pasa por las siguientes fases

1- Filtrado de datos

2- Seleccioacuten de Variables

3- Extraccioacuten de Conocimiento

4- Interpretacioacuten y Evaluacioacuten

Si desea obtener una descripcioacuten maacutes detallada puede consultar la documentacioacuten de

CRISP-DM CRISP-DM (CRoss Industry Standard Process for Data Mining) es un

estaacutendar industrial utilizado por maacutes de 160 empresas e instituciones de todo el mundo que

surge en respuesta a la falta de estandarizacioacuten y propone un modelo de proceso general

para proyectos de mineriacutea de datos

Neutral respecto a industria y herramientas

Aplicable en cualquier sector de negocio

9

Fases de un proyecto de Mineriacutea de Datos

1- Filtrado de datos

El formato de los datos contenidos en la fuente de datos (base de datos Data Warehouse)

nunca es el idoacuteneo y la mayoriacutea de las veces no es posible ni siquiera utilizar ninguacuten

algoritmo de mineriacutea sobre los datos en bruto

Mediante el preprocesado se filtran los datos (de forma que se eliminan valores

incorrectos no vaacutelidos desconocidos seguacuten las necesidades y el algoritmo a usar) se

obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del

proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo clustering)

2- Seleccioacuten de variables

Auacuten despueacutes de haber sido preprocesados en la mayoriacutea de los casos se tiene una cantidad

ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las

variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de

conocimiento obtenido del proceso de mineriacutea

Los meacutetodos para la seleccioacuten de caracteriacutesticas son baacutesicamente dos

Aquellos basados en la eleccioacuten de los mejores atributos del problema

Y aquellos que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

3- Algoritmos de Extraccioacuten de Conocimiento

Mediante una teacutecnica de mineriacutea de datos se obtiene un modelo de conocimiento que

representa patrones de comportamiento observados en los valores de las variables del

problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias

teacutecnicas a la vez para generar distintos modelos aunque generalmente cada teacutecnica obliga a

un preprocesado diferente de los datos

4- Interpretacioacuten y evaluacioacuten

Una vez obtenido el modelo se debe proceder a su validacioacuten comprobando que las

conclusiones que arroja son vaacutelidas y suficientemente satisfactorias En el caso de haber

obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los

modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos

alcanza los resultados esperados debe alterarse alguno de los pasos anteriores para generar

nuevos modelos

Tendencias

La mineriacutea de datos ha sufrido transformaciones en los uacuteltimos antildeos de acuerdo con

cambios tecnoloacutegicos de estrategias de maacuterketing la extensioacuten de los modelos de compra

en liacutenea etc Los maacutes importantes de ellos son

La importancia que han cobrado los datos no estructurados (texto paacuteginas de internet etc)

La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales

portales de internet etc

La exigencia de que los procesos funcionen praacutecticamente en liacutenea (por ejemplo que frente

a un fraude con una tarjeta de creacutedito eacutesta pueda ser cancelada casi al instante)

10

Principios de Data Mining

1 Resumen

2 Introduccioacuten

3 Panorama general de data mining

4 La forma en que se trabaja con Data Mining

5 Aplicaciones de Data Mining

6 Extensiones de Data Mining

7 Conclusiones y perspectivas

8 Referencias

RESUMEN

En los uacuteltimos antildeos ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos debido baacutesicamente al gran poder de procesamiento de las maacutequinas como a su bajo costo de almacenamiento Sin embargo dentro de estas enormes masas de datos existe una gran cantidad de informacioacuten oculta de gran importancia estrateacutegica a la que no se puede acceder por las teacutecnicas claacutesicas de recuperacioacuten de la informacioacuten El descubrimiento de esta informacioacuten oculta es posible gracias a la Mineriacutea de Datos (Data Mining) que entre otras sofisticadas teacutecnicas aplica la inteligencia

artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creacioacuten de modelos es decir representaciones abstractas de la realidad pero es el descubrimiento del conocimiento (KDD por sus siglas en ingleacutes) que se encarga de la preparacioacuten de los datos y la interpretacioacuten de los resultados obtenidos los cuales dan un significado a estos patrones encontrados Asiacute el valor real de los datos reside en la informacioacuten que se puede extraer de ellos informacioacuten que ayude a tomar decisiones o mejorar nuestra comprensioacuten de los fenoacutemenos que nos rodean Hoy maacutes que nunca los meacutetodos analiacuteticos avanzados son el arma secreta de muchos negocios exitosos Empleando meacutetodos analiacuteticos avanzados para la explotacioacuten de datos los negocios incrementan sus ganancias maximizan la eficiencia operativa reducen costos y mejoran la satisfaccioacuten del cliente El presente trabajo enfatiza el uso del Data Mining para el descubrimiento del conocimiento y su uso predominante en nivel empresarial a fin de contribuir en la toma de decisiones taacutecticas y estrateacutegicas en una organizacioacuten proporcionando un sentido automatizado para la generacioacuten de conocimiento Vimos cual es la relacioacuten entre Data Mining y un Data Warehouse conocimos lo maacutes relevante sobre el proceso de Data Warehousing y como esta inmerso el Data Mining sobre su arquitectura Asiacute mismo presentamos algunas fases generales y otras un poco maacutes especiacuteficas sobre como implementar un proyecto Data Mining Tambieacuten conocimos cuales son las diferencias entre Data Mining y los procesos de estadiacutestica a pesar de que son ramas con notables diferencias ambas pueden complementarse en sus procesos de toma de decisiones y presentacioacuten de resultados

11

Se incluyeron aplicaciones de Data Mining en varias aacutereas ademaacutes de la empresarial y se da a conocer de forma muy general el alcance que tiene el utilizar un proceso de este tipo Ademaacutes hablamos de algunas herramientas de distribucioacuten libre y algunas comerciales que son empleadas para emprender proyectos de Data Mining Conocimos dos extensiones de Data Mining Web Mining y Text Mining finalmente dimos algunos puntos de vista comentarios y opiniones sobre lo que es Data Mining y lo que se espera de esta tecnologiacutea en los proacuteximos antildeos

INTRODUCCIOacuteN

Desde eacutepocas remotas la humanidad se ha preocupado por la creacioacuten de bienes con el miacutenimo de recursos Distintos pueblos y en distintos periacuteodos se practicaban la previsioacuten planeacioacuten y organizacioacuten de grupos para ejercitar diversas actividades (entre ellas la pesca agricultura el comercio la guerra etc) En antildeos maacutes recientes durante la revolucioacuten industrial se pusieron en praacutectica ideas que sirvieron para la creacioacuten de la administracioacuten ya que durante ese tiempo se pensoacute en la manera de producir maacutes con menos recursos A partir de ese momento precursores e idealistas fueron sentando las bases para la creacioacuten de la administracioacuten convirtieacutendola en una ciencia La humanidad ha utilizado varias formas para llevar a cabo transacciones de los bienes tal es el caso de los antiguos pueblos al utilizar monedas de metal con diferentes insignias descripciones y denominaciones para el intercambio de artiacuteculos o servicios Todo esto nos lleva a decir que es necesario conocer las herramientas y hacer buen uso de ellas para que una empresa pueda evaluar planes decisiones poliacuteticas procedimientos y en general todo lo concerniente a ella entre estas herramientas podemos hablar de herramientas contables financieras matemaacuteticas economiacutea y de informacioacuten El mundo experimenta cambios fundamentales Los continuos avances en tecnologiacutea de computadoras y comunicaciones tienen un fuerte impacto sobre la forma en que las personas trabajan La tecnologiacutea y las expectativas de las personas que la utilizan estaacuten modificando gradualmente las caracteriacutesticas de los sistemas de

informacioacuten Actualmente la economiacutea de muchas empresas y paiacuteses estaacute basada en la informacioacuten maacutes en la tecnologiacutea de sistemas de informacioacuten que sobre las maacutequinas y productos no relacionados con ella El desarrollo de los sistemas de informacioacuten juega en este tiempo un papel muy valioso dentro de las organizaciones En la era industrial lo maacutes importante era el uso del capital y recursos tangibles para generar nuevos productos Actualmente los recursos baacutesicos son las ideas y el uso de informacioacuten El empleo estrateacutegico de la informacioacuten continuaraacute creando en todas las empresas y organizaciones nuevas oportunidades[13] Para desarrollar un sistema de informacioacuten se necesita tecnologiacutea y gente desde los usuarios de la informacioacuten pasando por los operadores capturistas de datos y analistas de sistemas hasta llegar a los niveles directivos de toda la organizacioacuten Los primeros programadores de computadoras desarrollaban aplicaciones que satisfaciacutean vagamente los requerimientos de informacioacuten de los usuarios finales Ahora gracias a las herramientas de hardware y software con las que se cuenta es mucho maacutes faacutecil obtener la informacioacuten necesaria y a tiempo Una de estas herramientas son los Sistemas Administradores de Bases de Datos(DBMS por sus

12

siglas en ingleacutes) pero vayamos maacutes haya iquestqueacute sucederiacutea si adoptamos herramientas o teacutecnicas de bases de datos que nos digan queacute hacer seguacuten las informacioacuten que ellas presentan esto nos conduce a hablar de Data Mining o Mineriacutea de Datos Mientras que la innovacioacuten y la originalidad son habilidades fundamentales para la supervivencia de las empresas su eacutexito y prosperidad depende tambieacuten de decisiones eficientes y competitivas que deben ser tomadas en cortos intervalos de tiempo Para tomar decisiones es fundamental contar con informacioacuten de calidad Hoy en diacutea el nivel gerencial cuenta con una eficaz herramienta para lograr ese objetivo las teacutecnicas de Data Mining Con respecto a los nuevos usos de las bases de datos el Data Mining aparece como uno de los maacutes prometedores unido y fuertemente relacionado con los problemas asociados a los grandes almacenes de datos llamados Data Warehouses La relacioacuten entre el costo de los ordenadores y la atencioacuten humana ha cambiado sustancialmente El recurso maacutes precioso es el factor humano y los ordenadores deben potenciarlo Esto plantea una nueva filosofiacutea de acceso a la informacioacuten donde los ordenadores deben analizar los datos resumirlos organizarlos y resolver cuestiones mucho maacutes complejas que las actuales ofreciendo al usuario la informacioacuten que realmente le interesa Este proceso como se veraacute a lo largo de este trabajo esta muy ligado a cuestiones de Data Mining y Data Warehause Por el momento solo diremos que Data Mining es la integracioacuten de un conjunto de aacutereas que tienen como propoacutesito la identificacioacuten de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisiones en el transcurso de este trabajo detallaremos esto y seraacute de una forma maacutes comprensible Las teacutecnicas de Data Mining son el resultado de un largo proceso de investigacioacuten y desarrollo de productos Esta evolucioacuten comenzoacute cuando los datos de negocios fueron almacenados por primera vez en computadoras y continuoacute con mejoras en el acceso a los datos y maacutes recientemente con tecnologiacuteas generadas para permitir a los usuarios navegar a traveacutes de los datos en tiempo real Data Mining toma este proceso de evolucioacuten maacutes allaacute del acceso y navegacioacuten retrospectiva de los datos hacia la entrega de informacioacuten prospectiva y proactiva Data Mining estaacute listo para su aplicacioacuten en la comunidad de negocios porque estaacute soportado por tres tecnologiacuteas que ya estaacuten suficientemente maduras

Recoleccioacuten masiva de datos Potentes computadoras con multiprocesadores Algoritmos de Data Mining

Las bases de datos comerciales estaacuten creciendo a un ritmo sin precedentes Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontroacute que el 19 de los que contestaron estaacuten por encima del nivel de los 50 Gigabytes En algunas industrias tales como ventas al por menor (retail) estos nuacutemeros pueden ser auacuten mayores MCI Telecommunications Corp cuenta con una base de datos de 3 terabytes + 1 terabyte de iacutendices y overhead corriendo en MVS sobre IBM SP2 La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma maacutes costo-efectiva con tecnologiacutea de computadoras con multiprocesamiento paralelo Los algoritmos de Data Mining

13

utilizan teacutecnicas que han existido por lo menos desde hace 10 antildeos pero que soacutelo han sido implementadas recientemente como herramientas maduras confiables entendibles que consistentemente son maacutes performantes que meacutetodos estadiacutesticos claacutesicos En la evolucioacuten desde los datos de negocios a informacioacuten de negocios cada nuevo paso se basa en el previo Por ejemplo el acceso a datos dinaacutemicos es criacutetico para las aplicaciones de navegacioacuten de datos (drill through applications) y la habilidad para almacenar grandes bases de datos es criacutetica para Data Mining Los componentes esenciales de la tecnologiacutea de Data Mining han estado bajo desarrollo por deacutecadas en aacutereas de investigacioacuten como estadiacutesticas inteligencia artificial y aprendizaje de maacutequinas Hoy la madurez de estas teacutecnicas junto con los motores de bases de datos relacionales de alta performance hicieron que estas tecnologiacuteas fueran praacutecticas para los entornos de Data Warehouse actuales La idea de Data Mining no es nueva Desde los antildeos sesenta los estadiacutesticos manejaban teacuterminos como Data Fishing Data Mining o Data Archaeology con la idea de encontrar correlaciones sin una hipoacutetesis previa en bases de datos con ruido A principios de los antildeos ochenta Rakesh Agrawal Gio Wiederhold Robert Blum y Gregory Piatetsky-Shapiro entre otros empezaron a consolidar los teacuterminos de Data Mining y KDD (Knowledge Discovery in Databases Descubrimiento de Conocimiento en Bases de Datos) A finales de los antildeos ochenta soacutelo existiacutean un par de empresas dedicadas a esta tecnologiacutea en 2002 ya habiacutea maacutes de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones Las listas de discusioacuten sobre este tema las forman investigadores de maacutes de ochenta paiacuteses Esta tecnologiacutea ha sido un buen punto de encuentro entre personas pertenecientes al aacutembito acadeacutemico y al de los negocios[20] El presente trabajo tiene como finalidad dar a conocer una perspectiva general acerca de todo lo referente a la teoriacutea de Data Mining existen teacutecnicas de implantacioacuten de Data Mining algoritmos reglas etc de las cuales no daremos mayor detalle ya que no se encuentran como un objetivo de este documento solo se mencionaraacuten como la base teoacuterica de la Mineriacutea de Datos Lo que siacute perseguimos de manera especiacutefica es dejar en claro queacute es el concepto de Data Mining sus expectativas o finalidades dar a conocer sus cimientos y a queacute nos llevan todos ellos sus posibles aplicaciones y coacutemo se esta usando actualmente en algunas aacutereas principalmente en el nivel empresarial Aquiacute cabe mencionar que Data Mining es un proceso utilizado frecuentemente en macro empresas sin embargo tambieacuten es utilizado en las llamadas Pymes (Pequentildeas Y Medianas EmpresaS) y ademaacutes a nivel cientiacutefico aunque con menor frecuencia es por ello que nos hemos enfocado sobre todo a la utilizacioacuten de dicho proceso en las empresas grandes y coacutemo es que funciona en ellas auacuten asiacute creiacutemos conveniente introducir algunos ejemplos de su uso en otros entornos El primer capiacutetulo Panorama general de Data Mining comienza con un ejemplo introductorio para dar una idea general del por queacute es necesario utilizar Data Mining en ciertos casos esto nos lleva a dar un paso previo antes de conocer exactamente queacute es Data Mining Data Warehouse un paso antes de Data Mining nos menciona queacute relacioacuten hay entre Data Warehouse y Data Mining es importante entender este concepto ya que podriacuteamos decir que es una de las

14

principales bases de la Mineriacutea de Datos finalmente el capiacutetulo nos dice lo que en realidad es Data Mining sus objetivos y algunas formas generales de su utilizacioacuten

La forma en queacute trabaja Data Mining el capiacutetulo nuacutemero dos menciona de forma muy general como es que estaacute constituido Data Mining cuaacutel es su arquitectura la forma en que se implementa y las fases que se siguen para una buena implantacioacuten de un proyecto de Data Mining como bien lo hemos mencionado anteriormente este no es un trabajo para describir detalladamente las teacutecnicas de la Mineriacutea de Datos por ello cabe aclarar que este capiacutetulo tiene un enfoque teoacuterico baacutesico

Los dos primeros capiacutetulos nos sirven para entender baacutesicamente cuaacuteles podriacutean ser las aplicaciones de Data Mining el tercer capiacutetulo Aplicaciones de Data Mining nos da varios ejemplos de doacutende y coacutemo puede ser utilizado este proceso y cuaacuteles son sus ventajas en estas aacutereas de aplicacioacuten (principalmente en nivel empresarial)

El capiacutetulo nuacutemero cuatro Extensiones de Data Mining abordamos dos temas complementarios que tambieacuten se utilizan como procesos de Data Mining a saber el Web Mining y el Text Mining Estos temas tambieacuten los podriacuteamos ver como una aplicacioacuten de Data Mining sin embargo los hemos colocado en un capiacutetulo aparte ya que estaacuten considerados como un campo diferente esto es aplicaciones vistas como un meta Data Mining

Finalmente el uacuteltimo capiacutetulo Conclusiones y perspectivas damos nuestras conclusiones y algunos puntos de vista particulares mencionamos cuaacuteles son las oportunidades que existen para trabajar en proyectos de este tipo y queacute es lo que se espera de Data Mining en los proacuteximos antildeos

Hemos incluido tambieacuten un Resumen de todo lo abordado durante nuestro documento que contempla los aspectos maacutes importantes aquiacute tratados En la bibliografiacutea podraacute encontrar las direcciones http de donde se tomaron muchos de los aspectos mencionados en el transcurso de este trabajo cuando coloquemos un nuacutemero por ejemplo [2] al final de un paacuterrafo o cualquier sentencia estamos haciendo referencia al nuacutemero de artiacuteculo de internet mencionado en la bibliografiacutea de donde fue tomado dicho paacuterrafo o sentencia

CAPITULO I

PANORAMA GENERAL DE DATA MINING

En este capiacutetulo abordamos los conceptos fundamentales relacionados con Data Mining que nos ayudaraacuten a tener sobre todo una idea general de eacutel y ademaacutes nos auxiliaraacuten para entender los siguientes capiacutetulos Comenzamos con un ejemplo introductorio en la seccioacuten 11 Ejemplo de un problema asociado a Data Mining donde pretendemos dar a conocer una aplicacioacuten muy simple de Data Mining Continuamos con el apartado 12 Data Warehouse Un paso antes de Data Mining ya que creemos conveniente tener las nociones adecuadas de este tema que se relaciona fuertemente con Data Mining y del cuaacutel haremos mencioacuten en el resto de este trabajo Finalmente en la seccioacuten 13 iquestQueacute es Data Mining explicamos de la forma que creiacutemos uacutetil el concepto real de Data Mining sus objetivos y una forma breve de coacutemo y doacutende se trabaja con eacutel

15

11 Ejemplo de un problema asociado a Data Mining [18]

Para poder generar una idea general del significado y aplicacioacuten de Data Mining consideremos el siguiente problema

Suponga que usted es el gerente de mercadeo para una compantildeiacutea de telefoniacutea celular El problema considera lo siguiente La desercioacuten de clientes es muy alta La produccioacuten(despueacutes de que el contrato expira) es del 40 Los clientes reciben un teleacutefono de regalo con el contrato Usted paga una comisioacuten de ventas por contrato Se le da un teleacutefono nuevo a cada persona cuyo contrato ha expirado lo cual

es muy caro y por ende poco rentable para la compantildeiacutea Traer de regreso a un cliente despueacutes de que se va es difiacutecil y caro

111 Posible solucioacuten al problema de ejemplo

Se debe predecir queacute clientes abandonaraacuten la compantildeiacutea tres meses antes de que el contrato expire

Si queremos conservar a un cliente que creamos abandonaraacute la empresa se le deberiacutea ofrecer un nuevo teleacutefono

No hay que prestarle atencioacuten a los clientes que tienen altas posibilidades de quedarse en la empresa

Si hay clientes que no deseamos conservar simplemente no hacemos nada

Pues bien es muy faacutecil pretender hacer todo lo mencionado antes pero ahora la pregunta es iquestcoacutemo lo hacemos No podemos tomar decisiones a la ligera ni tomar medidas de las cuales estamos seguros que fallaraacuten por ejemplo suena absurdo en cuestiones como eacutestas recurrir a la lectura del Tarot La solucioacuten debe basarse en algo maacutes formal y coherente y una de esas alternativas es Data Mining

112 Solucioacuten del problema ejemplo a traveacutes de Data Mining

La solucioacuten que puede dar Data Mining al ejemplo del problema mencionado en esta seccioacuten considera lo siguiente

Interactuar dinaacutemicamente con el cliente Trabajar hacia delante y no hacia atraacutes Mejorar la calidad de la interaccioacuten iquestEl cliente quiere interactuar

o La liacutenea de ganancias se salva Optimizar el tiempo de interaccioacuten

o Aumentar el valor del cliente constantemente o Aumentar el valor de vida del cliente

En esta seccioacuten hemos visto solo un ejemplo introductoria en las secciones subsecuentes trataremos otros casos e iremos explicando como es que Data Mining ofrece soluciones a problemas de empresas

12 Data Warehouse Un paso antes de Data Mining

16

Antes de dar a conocer claramente lo que significa Data Mining es preciso dejar en claro lo que es un Data Warehouse que en principio lo podemos ver como un concepto que esta antes de Data Mining y es la base de este (aunque no siempre es asiacute) por ello el objetivo de esta seccioacuten es dar una idea general a este concepto no entraremos en muchos detalles pero daremos a conocer lo maacutes relevante para que en las secciones siguientes cuando hablemos de Data Warehouse o Data Warehousing no haya dudas sobre lo que nos estamos refiriendo

Las Bases de Datos (BD) de una empresa utilizan los ordenadores como medio para organizar sus datos de forma que sean comprensibles para las personas Este proceso es conocido como Data Warehousing La comprensioacuten de los datos almacenados es esencial para cualquier organizacioacuten ya que constituye un elemento baacutesico en la toma de decisiones

Un Data Warehouse es un almaceacuten o repositorio de datos categorizados que concentra un gran volumen de informacioacuten de intereacutes para toda una organizacioacuten la cual se distribuye por medio de diversas herramientas de consulta y de creacioacuten de informes orientadas a la toma de decisiones El objetivo del Data Warehouse (DW) es agrupar los datos con el propoacutesito de facilitar su posterior anaacutelisis de forma que sean faacuteciles de acceder y posteriormente analizar informacioacuten sobre la propia empresa A este tipo de datos se les conoce como informativos Los sistemas que manejan estos datos se denominan OLAP (Online Analytical Processing) Existe muchas definiciones formales de DW de distintos autores pero una de las mas famosas puede ser la dada por Inmon en 1992 Un Data Warehouse es una coleccioacuten de datos orientados a temas integrados no-volaacutetiles y variante en el tiempo organizados para soportar necesidades empresariales Los Data Warehouses a menudo almacenan gran cantidad de informacioacuten la cual estaacute a veces subdividida en pequentildeas unidades loacutegicas Perioacutedicamente se importan estos datos de otros sistemas de informacioacuten dentro del Data Warehouse para realizar sobre ellos un procesamiento posterior Un Data Warehouse se diferencia de una Base de Datos operacional de una empresa diremos que un Data Warehouse puede derivarse de la Base de Datos corporativa mediante la importacioacuten de informacioacuten pero el DW no es esa BD operacional[7]

Muchos de los datos de una empresa se utilizan como soporte a los negocios por eso a este tipo de datos se les denomina operacionales Los sistemas usados con el fin de recogerlos reciben el nombre de OLTP (Online Transaction Processing)[10]

Las principales caracteriacutesticas o propiedades de un DW son las siguientes

El DW estaacute orientado a la toma de decisiones Un buen disentildeo de la base de datos favorece el anaacutelisis y la recuperacioacuten de datos para obtener una ventaja estrateacutegica y para facilitar las decisiones de marketing

El DW almacena datos categorizaacutendolos o estructuraacutendolos de forma que favorezcan el anaacutelisis de los datos y puedan proporcionar anaacutelisis histoacutericos

El DW no estaacute orientado a procesos relacionados con la operativa de la empresa es decir que solo esta destinado a funcionar como un almaceacuten de datos

El DW estaacute preparado para ser explotado mediante herramientas especiacuteficas que permiten la extraccioacuten de informacioacuten significativa y patrones de

17

comportamiento que permanecen ocultos en un enorme repositorio de datos Esta explotacioacuten de los datos se suele realizar con herramientas de Data Mining

121 Software para un Data Warehouse[10]

La informacioacuten estrateacutegica se almacena en Gigabytes(tal vez maacutes) de datos de marketing En este caso se necesita software especializado que permita capturar los datos relevantes en forma raacutepida El software no deberiacutea limitarse uacutenicamente al acceso a los datos sino tambieacuten al anaacutelisis significativo de los datos esto es transformar los datos de la informacioacuten cruda o no procesada en informacioacuten uacutetil para la empresa

El software o herramientas de negocios inteligentes se colocan sobre la plataforma Data Warehousing y proveen este servicio Debido a que son el punto principal de contacto entre la aplicacioacuten del depoacutesito y la gente que lo usa estas herramientas pueden constituir la diferencia entre el eacutexito o fracaso de un depoacutesito Las herramientas de negocio inteligentes se han convertido en los sucesores de los sistemas de soporte de decisioacuten pero tienen un alcance maacutes amplio No solamente ayudan en las decisiones de soporte sino en muchos casos estas herramientas soportan muchas funciones operacionales y de misioacuten-criacutetica de la compantildeiacutea Sin embargo estos productos no son infalibles ya que soacutelo se consigue el maacuteximo provecho del Data Warehouse si eligen las herramientas adecuadas a las necesidades de cada usuario final Una de estas herramientas es Data Mining sin embargo hay otras que no mencionaremos ya que se encuentran fuera de los objetivos de este trabajo El proceso de Data Mining extrae los conocimientos guardados o informacioacuten predictiva desde el Data Warehouse sin requerir pedidos o preguntas especiacuteficas Data Mining usa algunas de las teacutecnicas de computacioacuten maacutes avanzadas para generar modelos y asociaciones como redes neurales deteccioacuten de desviacioacuten modelado predictivo y programacioacuten geneacutetica

122 Ventajas y Desventajas del Data Warehouse

La utilizacioacuten de Data Warehouse proporciona una serie de ventajas

Proporciona un gran poder de procesamiento de informacioacuten Permite una mayor flexibilidad y rapidez en el acceso a la informacioacuten Facilita la toma de decisiones en los negocios Las empresas obtienen un aumento de la productividad Proporciona una comunicacioacuten fiable entre todos los departamentos de la

empresa Mejora las relaciones con los proveedores y los clientes Permite conocer queacute estaacute pasando en el negocio es decir estar siempre

enterado de los buenos y malos resultados Transforma los datos en informacioacuten y la informacioacuten en conocimiento Permite hacer planes de forma maacutes efectiva Reduce los tiempos de respuesta y los costes de operacioacuten

Resumiendo el Data Warehouse proporciona una informacioacuten de gestioacuten accesible correcta uniforme y actualizada Proporciona un menor coste en la toma de

18

decisiones una mayor flexibilidad ante el entorno un mejor servicio al cliente y permite el redisentildeo de los procesos

Pero los Data Warehouse tambieacuten tienen algunas desventajas

Requieren una revisioacuten del modelo de datos objetos transacciones y ademaacutes del almacenamiento

Tienen un disentildeo complejo y multidisciplinar Requieren una reestructuracioacuten de los sistemas operacionales Tienen un alto coste Requieren sistemas aplicaciones y almacenamiento especiacutefico

Por uacuteltimo cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versioacuten maacutes reducida de un Data Warehouse a menudo conteniendo informacioacuten especiacutefica de alguacuten departamento como marketing finanzas o mantenimiento de la red Idealmente el Data Marts deberiacutea ser un subconjunto del Data Warehouse a fin de mantener consistencia en las praacutecticas de administracioacuten de datos corporativos y para mantener la seguridad y la integridad de la informacioacuten cruda que se estaacute usando Para las grandes compantildeiacuteas el Data Marts usualmente contiene una docena de gigabytes de datos Ahora podemos continuar y dar una explicacioacuten de lo que en realidad es Data Mining a pesar de que en este apartado hemos dado una definicioacuten de manera somera

13 iquestQueacute es Data Mining[14]

Cada diacutea generamos una gran cantidad de informacioacuten algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos Nos damos cuenta de que generamos informacioacuten cuando registramos nuestra entrada en el trabajo cuando entramos en un servidor para ver nuestro correo cuando pagamos con una tarjeta de creacutedito o cuando reservamos un boleto de avioacuten Otras veces no nos damos cuenta de que generamos informacioacuten como cuando conducimos por una viacutea donde estaacuten contabilizando el nuacutemero de automoacuteviles que pasan por minuto cuando se sigue nuestra navegacioacuten por Internet o cuando nos sacan una fotografiacutea del rostro al haber pasado cerca de una oficina gubernamental iquestCon queacute finalidad queremos generar informacioacuten Son muchos los motivos que nos llevan a generar informacioacuten ya que nos pueden ayudar a controlar optimizar administrar examinar investigar planificar predecir someter negociar o tomar decisiones de cualquier aacutembito seguacuten el dominio en que nos desarrollemos La informacioacuten por siacute misma estaacute considerada un bien patrimonial De esta forma si una empresa tiene una peacuterdida total o parcial de informacioacuten provoca bastantes perjuicios Es evidente que la informacioacuten debe ser protegida pero tambieacuten explotada

iquestQueacute nos ha permitido poder generar tanta informacioacuten En los uacuteltimos antildeos debido al desarrollo tecnoloacutegico a niveles exponenciales tanto en el aacuterea de coacutemputo como en la de transmisioacuten de datos ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacioacuten Sin duda existen cuatro factores importantes que nos han llevado a este suceso

19

1 El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente

2 El incremento de las velocidades de coacutemputo en los procesadores 3 Las mejoras en la confiabilidad y aumento de la velocidad en la transmisioacuten

de datos 4 El desarrollo de sistemas administradores de bases de datos maacutes poderosos

Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacioacuten en las bases de datos Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura ya que soacutelo se guarda (o escribe) en el disco duro pero nunca se hace uso de eacutel Generalmente todas las empresas usan un dato llamado dato-escritura-lectura que utilizan para hacer consultas dirigidas Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-anaacutelisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones Es necesario contar con tecnologiacuteas que nos ayuden a explotar el potencial de este tipo de datos La cantidad de informacioacuten que nos llega cada diacutea es tan inmensa que nos resulta difiacutecil asimilarla Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171769416 sitios donde nos pueden decir algo al respecto Suponiendo que nos tomemos un minuto para ver el contenido de cada paacutegina tardariacuteamos entonces 326 antildeos en visitarlas todas Esto es imposible y por lo tanto existe una clara necesidad de disponer de tecnologiacuteas que nos ayuden en nuestros procesos de buacutesqueda y auacuten maacutes de tecnologiacuteas que nos ayuden a comprender su contenido Como bien sabemos algunos sistemas producen una cantidad inmensa de datos estos datos con frecuencia contienen valiosa informacioacuten que puede resultar muy uacutetil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacioacuten Las dimensiones de las base de datos grandes (montantildeas) y sus velocidades de crecimiento hacen muy difiacutecil para un humano su anaacutelisis y la extraccioacuten de alguna informacioacuten importante (oro) Auacuten con el uso de herramientas estadiacutesticas claacutesicas esta tarea es casi imposible El Data Mining surge como una tecnologiacutea que intenta ayudar a comprender el contenido de una base de datos De forma general los datos son la materia prima bruta en el momento que el usuario les atribuye alguacuten significado especial pasan a convertirse en informacioacuten Cuando los especialistas elaboran o encuentran un modelo haciendo que la interpretacioacuten del confronto entre la informacioacuten y ese modelo represente un valor agregado entonces nos referimos al conocimiento En la figura 11 se ilustra la jerarquiacutea que existe en una base de datos entre dato informacioacuten y conocimiento Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquiacutea El aacuterea interna dentro del triaacutengulo representa los objetivos que se han propuesto La separacioacuten del triaacutengulo representa la estrecha unioacuten entre dato e informacioacuten no asiacute entre la informacioacuten y el conocimiento El Data Mining trabaja en el nivel superior buscando patrones comportamientos agrupaciones secuencias tendencias o asociaciones que puedan generar alguacuten modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisioacuten

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 3: Clase 6 Data Mining

3

4) Queacute son capaces de hacer las herramientas del Data Mining

Las herramientas de Data Mining predicen futuras tendencias y comportamientos

permitiendo en los negocios tomar decisiones proactivas y conducidas por un conocimiento

acabado de la informacioacuten (knowledge-driven) Los anaacutelisis prospectivos automatizados

ofrecidos por un producto asiacute van maacutes allaacute de los eventos pasados provistos por

herramientas retrospectivas tiacutepicas de sistemas de soporte de decisioacuten

Las herramientas de Data Mining pueden responder a preguntas de negocios que

tradicionalmente consumen demasiado tiempo para poder ser resueltas y a los cuales los

usuarios de esta informacioacuten casi no estaacuten dispuestos a aceptar ldquoEstas herramientas

exploran las bases de datos en busca de patrones ocultos encontrando informacioacuten

predecible que un experto no puede llegar a encontrar porque se encuentra fuera de sus

expectativasrdquo

Una vez que las herramientas de Data Mining fueron implementadas en

computadoras cliente servidor de alta performance o de procesamiento paralelo pueden

analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestCuaacuteles

clientes tienen maacutes probabilidad de responder al proacuteximo mailing promocional y por queacute

y presentar los resultados en formas de tablas con graacuteficos reportes texto hipertexto etc

Las teacutecnicas de Data Mining pueden ser implementadas raacutepidamente en plataformas ya

existentes de software y hardware para acrecentar el valor de las fuentes de informacioacuten

existentes y pueden ser integradas con nuevos productos y sistemas pues son traiacutedas en

liacutenea (on-line)

5) El Alcance del Data Mining

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede

generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos

Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases

de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora

pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de

problema predecible es el marketing apuntado a objetivos (targeted marketing) Data

Mining usa datos en mailing promocionales anteriores para identificar posibles objetivos

para maximizar los resultados de la inversioacuten en futuros mailing Otros problemas

predecibles incluyen pronoacutesticos de problemas financieros futuros y otras formas de

incumplimiento e identificar segmentos de poblacioacuten que probablemente respondan

similarmente a eventos dados

Descubrimiento automatizado de modelos previamente desconocidos

Las herramientas de Data Mining barren las bases de datos e identifican modelos

previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos

incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos

anormales que pueden representar errores de tipeado en la carga de datos

4

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las

plataformas de hardware y software existentes y puede ser implementadas en sistemas

nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean

desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de

procesamiento paralelo de alto performance pueden analizar bases de datos masivas en

minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente

experimentar con maacutes modelos para entender datos complejos Alta velocidad hace que sea

praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a

su vez producen mejores predicciones

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar

cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables

que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de

modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar

toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a

los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de

poblacioacuten

6) iquestCoacutemo Trabaja el Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce

o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama

Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten

donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la

respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que

podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado

Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda

y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que

probablemente tomara el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma

un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros

hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que

en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de

esperanza si tiene un buen modelo probablemente encontraraacute el tesoro

Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace

mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de

Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que

la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca

de una variedad de situaciones donde una respuesta es conocida y luego el software de Data

Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas

de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado

en situaciones similares donde usted no conoce la respuesta

5

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo

puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle

que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data

Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos

del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden

ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo

funciona las observaciones deben mantenerse para los datos excluidos

7) Arquitectura para Data Mining

Para aplicar mejor estas teacutecnicas avanzadas eacutestas deben estar totalmente integradas con el

data warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de

negocios Varias herramientas de Data Mining actualmente operan fuera del warehouse

requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos

conceptos requieren implementacioacuten operacional la integracioacuten con el warehouse

simplifica la aplicacioacuten de los resultados desde Data Mining El Data warehouse analiacutetico

resultante puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en

aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de

nuevos productos etc

El punto de inicio ideal es un data warehouse que contenga una combinacioacuten de datos de

seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la

actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten

provee una excelente base para prospecting Este warehouse puede ser implementado en

una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los

datos flexible y raacutepido

Un server multidimensional OLAP permite que un modelo de negocios maacutes sofisticado

pueda ser aplicado cuando se navega por el data warehouse Las estructuras

multidimensionales permiten que el usuario analice los datos de acuerdo a como quiera

mirar el negocio - resumido por liacutenea de producto u otras perspectivas claves para su

negocio El server de Data Mining debe estar integrado con el data warehouse y el server

OLAP para insertar el anaacutelisis de negocios directamente en esta infraestructura Un

avanzado metadata centrado en procesos define los objetivos del Data Mining para

resultados especiacuteficos tales como manejos de campantildea prospecting y optimizacioacuten de

promociones La integracioacuten con el data warehouse permite que decisiones operacionales

sean implementadas directamente y monitoreadas A medida que el data warehouse crece

con nuevas decisiones y resultados la organizacioacuten puede minar las mejores praacutecticas y

aplicarlas en futuras decisiones

Este disentildeo representa una transferencia fundamental desde los sistemas de soporte de

decisioacuten convencionales Maacutes que simplemente proveer datos a los usuarios finales a traveacutes

de software de consultas y reportes el server de Anaacutelisis Avanzado aplica los modelos de

negocios del usuario directamente al warehouse y devuelve un anaacutelisis proactivo de la

informacioacuten maacutes relevante Estos resultados mejoran los metadatos en el server OLAP

proveyendo una estrato de metadatos que representa una vista fraccionada de los datos

6

Generadores de reportes visualizadores y otras herramientas de anaacutelisis pueden ser

aplicadas para planificar futuras acciones y confirmar el impacto de esos planes

8) Por queacute usar Data Mining

Sin duda alguna que el uso de Data Mining

o Contribuye a la toma de decisiones taacutecticas y estrateacutegicas proporcionando un

sentido automatizado para identificar informacioacuten clave desde voluacutemenes de datos

generados por procesos tradicionales y de e-Business

o Permite a los usuarios dar prioridad a decisiones y acciones mostrando factores que

tienen un mayor en un objetivo queacute segmentos de clientes son desechables y queacute

unidades de negocio son sobrepasados y por queacute

o Proporciona poderes de decisioacuten a los usuarios del negocio que mejor entienden el

problema y el entorno y es capaz de medir la acciones y los resultados de la mejor

forma

o Genera Modelos descriptivos En un contexto de objetivos definidos en los

negocios permite a empresas sin tener en cuenta la industria o el tamantildeo explorar

automaacuteticamente visualizar y comprender los datos e identificar patrones

relaciones y dependencias que impactan en los resultados finales de la cuenta de

resultados (tales como el aumento de los ingresos incremento de los beneficios

contencioacuten de costos y gestioacuten de riesgos)

o Genera Modelos predictivos permite que relaciones no descubiertas e identificadas

a traveacutes del proceso del Data Mining sean expresadas como reglas de negocio o

modelos predictivos Estos outputs pueden comunicarse en formatos tradicionales

(presentaciones informes informacioacuten electroacutenica compartida embebidos en

aplicaciones) para guiar la estrategia y planificacioacuten de la empresa

Mineriacutea de datos

La Mineriacutea de Datos es un conjunto de teacutecnicas para la induccioacuten de conocimiento

uacutetil a partir de masas ingentes de datos Tiene por lo tanto un solapamiento importante con

otras disciplinas como la estadiacutestica tradicional el reconocimiento de patrones la

inteligencia artificial etc Se la suele distinguir de ellas por el campo de aplicacioacuten se suele

aceptar que la mineriacutea de datos estudia informacioacuten acumulada en empresas y otras

organizaciones acerca de sus clientes usuarios etc y las interacciones de eacutestos con

aqueacutellas de manera que el conocimiento que pueda extraerse de ella sirva para mejorar la

rentabilidad el nivel de servicio redefinir estrategias de maacuterketing etc

Tradicionalmente las teacutecnicas de mineriacutea de datos se aplicaban sobre informacioacuten

contenida en almacenes de datos De hecho muchas grandes empresas e instituciones han

creado y alimentan bases de datos especialmente disentildeadas para proyectos de mineriacutea de

7

datos en las que centralizan informacioacuten potencialmente uacutetil de todas sus aacutereas de negocio

etc No obstante actualmente estaacute cobrando una importancia cada vez mayor la mineriacutea de

datos desestructurados como informacioacuten contenida en ficheros de texto en internet etc

Tabla de contenidos

1 Ejemplos de uso de la mineriacutea de datos

2 Mineriacutea de datos y otras disciplinas anaacutelogas

3 Protocolo de un proyecto de mineriacutea de datos

4 Tendencias

5 Enlaces externos

6 Veacutease tambieacuten

1- Ejemplos de uso de la mineriacutea de datos

El ejemplo claacutesico mdashaparte de algo rancio y posiblemente apoacutecrifomdash de

aplicacioacuten de la mineriacutea de datos tiene que ver con la deteccioacuten de haacutebitos de compra en

supermercados Un estudio muy citado detectoacute que los viernes habiacutea una cantidad

inusualmente elevada de clientes que adquiriacutean a la vez pantildeales y cerveza Se detectoacute que

se debiacutea a que dicho diacutea soliacutean acudir al supermercado padres joacutevenes cuya perspectiva

para el fin de semana consistiacutea en quedarse en casa cuidando de su hijo y viendo la

televisioacuten con una cerveza en la mano El supermercado pudo incrementar sus ventas de

cerveza colocaacutendolas proacuteximas a los pantildeales para fomentar las ventas compulsivas pero un

ejemplo maacutes habitual es el de la deteccioacuten de patrones de fuga En muchas industrias mdash

como la banca las telecomunicaciones etcmdash existe un comprensible intereacutes en detectar

cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para

posiblemente pasarse a la competencia A estos clientes mdashy en funcioacuten de su valormdash se

les podriacutean hacer ofertas personalizadas ofrecer promociones especiales etc con el

objetivo uacuteltimo de retenerlos La mineriacutea de datos ayuda a determinar queacute clientes son los

maacutes proclives a darse de baja estudiando sus patrones de comportamiento y comparaacutendolos

con muestras de clientes que efectivamente se dieron de baja en el pasado

Un caso anaacutelogo es el de la deteccioacuten de transacciones de blanqueo de dinero o de fraude

en el uso de tarjetas de creacutedito o de servicios de telefoniacutea moacutevil e incluso en la relacioacuten de

los contribuyentes con el fisco Generalmente estas operaciones fraudulentas o ilegales

suelen seguir patrones caracteriacutesticos que permiten con cierto grado de probabilidad

distinguirlas de las legiacutetimas y desarrollar asiacute mecanismos para tomar medidas raacutepidas

frente a ellas

Tambieacuten es un aacuterea en boga el del anaacutelisis del comportamiento de los visitantes mdashsobre

todo cuando son clientes potencialesmdash en una paacutegina de internet O la utilizacioacuten de la

informacioacuten mdashobtenida por medios maacutes o menos legiacutetimosmdash sobre ellos para ofrecerles

propaganda adaptada especiacuteficamente a su perfil O para una vez que adquieren un

determinado producto saber inmediatamente queacute otro ofrecerle teniendo en cuenta la

informacioacuten histoacuterica disponible acerca de los clientes que han comprado el primero

Mineriacutea de datos y otras disciplinas anaacutelogas

Suscita cierta poleacutemica el definir las fronteras existentes entre la mineriacutea de datos y

disciplinas anaacutelogas como pueden serlo la estadiacutestica la inteligencia artificial etc Hay

quienes sostienen que la mineriacutea de datos no es sino estadiacutestica envuelta en una jerga de

8

negocios que la conviertan en un producto vendible Otros en cambio encuentran en ella

una serie de problemas y meacutetodos especiacuteficos que la hacen distinta de otras disciplinas

El hecho es que la praacutectica totalidad de los modelos y algoritmos de uso general en mineriacutea

de datos mdashredes neuronales aacuterboles de regresioacuten y clasificacioacuten modelos logiacutesticos

anaacutelisis de componentes principales etcmdash gozan de una tradicioacuten relativamente larga en

otros campos

Fases de un proyecto de mineriacutea de datos

Un proyecto de mineriacutea de datos tiene varias fases necesarias que son esencialmente

Comprensioacuten del negocio y del problema que se quiere resolver

Determinacioacuten obtencioacuten y limpieza de los datos necesarios

Creacioacuten de modelos matemaacuteticos

Validacioacuten comunicacioacuten etc de los resultados obtenidos

Integracioacuten si procede de los resultados en un sistema transaccional o similar

La relacioacuten entre todas estas fases soacutelo es lineal sobre el papel En realidad es mucho maacutes

compleja y esconde toda una jerarquiacutea de subfases A traveacutes de la experiencia acumulada

en proyectos de mineriacutea de datos se han ido desarrollando metodologiacuteas que permiten

gestionar esta complejidad de una manera maacutes o menos uniforme Ejemplos de ellas son

CRISP-DM y SEMMA

Fases de un Proyecto de Mineriacutea de Datos

Los pasos a seguir para la realizacioacuten de un proyecto de mineriacutea de datos son siempre los

mismos independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento

utilizada

El proceso de mineriacutea de datos pasa por las siguientes fases

1- Filtrado de datos

2- Seleccioacuten de Variables

3- Extraccioacuten de Conocimiento

4- Interpretacioacuten y Evaluacioacuten

Si desea obtener una descripcioacuten maacutes detallada puede consultar la documentacioacuten de

CRISP-DM CRISP-DM (CRoss Industry Standard Process for Data Mining) es un

estaacutendar industrial utilizado por maacutes de 160 empresas e instituciones de todo el mundo que

surge en respuesta a la falta de estandarizacioacuten y propone un modelo de proceso general

para proyectos de mineriacutea de datos

Neutral respecto a industria y herramientas

Aplicable en cualquier sector de negocio

9

Fases de un proyecto de Mineriacutea de Datos

1- Filtrado de datos

El formato de los datos contenidos en la fuente de datos (base de datos Data Warehouse)

nunca es el idoacuteneo y la mayoriacutea de las veces no es posible ni siquiera utilizar ninguacuten

algoritmo de mineriacutea sobre los datos en bruto

Mediante el preprocesado se filtran los datos (de forma que se eliminan valores

incorrectos no vaacutelidos desconocidos seguacuten las necesidades y el algoritmo a usar) se

obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del

proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo clustering)

2- Seleccioacuten de variables

Auacuten despueacutes de haber sido preprocesados en la mayoriacutea de los casos se tiene una cantidad

ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las

variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de

conocimiento obtenido del proceso de mineriacutea

Los meacutetodos para la seleccioacuten de caracteriacutesticas son baacutesicamente dos

Aquellos basados en la eleccioacuten de los mejores atributos del problema

Y aquellos que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

3- Algoritmos de Extraccioacuten de Conocimiento

Mediante una teacutecnica de mineriacutea de datos se obtiene un modelo de conocimiento que

representa patrones de comportamiento observados en los valores de las variables del

problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias

teacutecnicas a la vez para generar distintos modelos aunque generalmente cada teacutecnica obliga a

un preprocesado diferente de los datos

4- Interpretacioacuten y evaluacioacuten

Una vez obtenido el modelo se debe proceder a su validacioacuten comprobando que las

conclusiones que arroja son vaacutelidas y suficientemente satisfactorias En el caso de haber

obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los

modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos

alcanza los resultados esperados debe alterarse alguno de los pasos anteriores para generar

nuevos modelos

Tendencias

La mineriacutea de datos ha sufrido transformaciones en los uacuteltimos antildeos de acuerdo con

cambios tecnoloacutegicos de estrategias de maacuterketing la extensioacuten de los modelos de compra

en liacutenea etc Los maacutes importantes de ellos son

La importancia que han cobrado los datos no estructurados (texto paacuteginas de internet etc)

La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales

portales de internet etc

La exigencia de que los procesos funcionen praacutecticamente en liacutenea (por ejemplo que frente

a un fraude con una tarjeta de creacutedito eacutesta pueda ser cancelada casi al instante)

10

Principios de Data Mining

1 Resumen

2 Introduccioacuten

3 Panorama general de data mining

4 La forma en que se trabaja con Data Mining

5 Aplicaciones de Data Mining

6 Extensiones de Data Mining

7 Conclusiones y perspectivas

8 Referencias

RESUMEN

En los uacuteltimos antildeos ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos debido baacutesicamente al gran poder de procesamiento de las maacutequinas como a su bajo costo de almacenamiento Sin embargo dentro de estas enormes masas de datos existe una gran cantidad de informacioacuten oculta de gran importancia estrateacutegica a la que no se puede acceder por las teacutecnicas claacutesicas de recuperacioacuten de la informacioacuten El descubrimiento de esta informacioacuten oculta es posible gracias a la Mineriacutea de Datos (Data Mining) que entre otras sofisticadas teacutecnicas aplica la inteligencia

artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creacioacuten de modelos es decir representaciones abstractas de la realidad pero es el descubrimiento del conocimiento (KDD por sus siglas en ingleacutes) que se encarga de la preparacioacuten de los datos y la interpretacioacuten de los resultados obtenidos los cuales dan un significado a estos patrones encontrados Asiacute el valor real de los datos reside en la informacioacuten que se puede extraer de ellos informacioacuten que ayude a tomar decisiones o mejorar nuestra comprensioacuten de los fenoacutemenos que nos rodean Hoy maacutes que nunca los meacutetodos analiacuteticos avanzados son el arma secreta de muchos negocios exitosos Empleando meacutetodos analiacuteticos avanzados para la explotacioacuten de datos los negocios incrementan sus ganancias maximizan la eficiencia operativa reducen costos y mejoran la satisfaccioacuten del cliente El presente trabajo enfatiza el uso del Data Mining para el descubrimiento del conocimiento y su uso predominante en nivel empresarial a fin de contribuir en la toma de decisiones taacutecticas y estrateacutegicas en una organizacioacuten proporcionando un sentido automatizado para la generacioacuten de conocimiento Vimos cual es la relacioacuten entre Data Mining y un Data Warehouse conocimos lo maacutes relevante sobre el proceso de Data Warehousing y como esta inmerso el Data Mining sobre su arquitectura Asiacute mismo presentamos algunas fases generales y otras un poco maacutes especiacuteficas sobre como implementar un proyecto Data Mining Tambieacuten conocimos cuales son las diferencias entre Data Mining y los procesos de estadiacutestica a pesar de que son ramas con notables diferencias ambas pueden complementarse en sus procesos de toma de decisiones y presentacioacuten de resultados

11

Se incluyeron aplicaciones de Data Mining en varias aacutereas ademaacutes de la empresarial y se da a conocer de forma muy general el alcance que tiene el utilizar un proceso de este tipo Ademaacutes hablamos de algunas herramientas de distribucioacuten libre y algunas comerciales que son empleadas para emprender proyectos de Data Mining Conocimos dos extensiones de Data Mining Web Mining y Text Mining finalmente dimos algunos puntos de vista comentarios y opiniones sobre lo que es Data Mining y lo que se espera de esta tecnologiacutea en los proacuteximos antildeos

INTRODUCCIOacuteN

Desde eacutepocas remotas la humanidad se ha preocupado por la creacioacuten de bienes con el miacutenimo de recursos Distintos pueblos y en distintos periacuteodos se practicaban la previsioacuten planeacioacuten y organizacioacuten de grupos para ejercitar diversas actividades (entre ellas la pesca agricultura el comercio la guerra etc) En antildeos maacutes recientes durante la revolucioacuten industrial se pusieron en praacutectica ideas que sirvieron para la creacioacuten de la administracioacuten ya que durante ese tiempo se pensoacute en la manera de producir maacutes con menos recursos A partir de ese momento precursores e idealistas fueron sentando las bases para la creacioacuten de la administracioacuten convirtieacutendola en una ciencia La humanidad ha utilizado varias formas para llevar a cabo transacciones de los bienes tal es el caso de los antiguos pueblos al utilizar monedas de metal con diferentes insignias descripciones y denominaciones para el intercambio de artiacuteculos o servicios Todo esto nos lleva a decir que es necesario conocer las herramientas y hacer buen uso de ellas para que una empresa pueda evaluar planes decisiones poliacuteticas procedimientos y en general todo lo concerniente a ella entre estas herramientas podemos hablar de herramientas contables financieras matemaacuteticas economiacutea y de informacioacuten El mundo experimenta cambios fundamentales Los continuos avances en tecnologiacutea de computadoras y comunicaciones tienen un fuerte impacto sobre la forma en que las personas trabajan La tecnologiacutea y las expectativas de las personas que la utilizan estaacuten modificando gradualmente las caracteriacutesticas de los sistemas de

informacioacuten Actualmente la economiacutea de muchas empresas y paiacuteses estaacute basada en la informacioacuten maacutes en la tecnologiacutea de sistemas de informacioacuten que sobre las maacutequinas y productos no relacionados con ella El desarrollo de los sistemas de informacioacuten juega en este tiempo un papel muy valioso dentro de las organizaciones En la era industrial lo maacutes importante era el uso del capital y recursos tangibles para generar nuevos productos Actualmente los recursos baacutesicos son las ideas y el uso de informacioacuten El empleo estrateacutegico de la informacioacuten continuaraacute creando en todas las empresas y organizaciones nuevas oportunidades[13] Para desarrollar un sistema de informacioacuten se necesita tecnologiacutea y gente desde los usuarios de la informacioacuten pasando por los operadores capturistas de datos y analistas de sistemas hasta llegar a los niveles directivos de toda la organizacioacuten Los primeros programadores de computadoras desarrollaban aplicaciones que satisfaciacutean vagamente los requerimientos de informacioacuten de los usuarios finales Ahora gracias a las herramientas de hardware y software con las que se cuenta es mucho maacutes faacutecil obtener la informacioacuten necesaria y a tiempo Una de estas herramientas son los Sistemas Administradores de Bases de Datos(DBMS por sus

12

siglas en ingleacutes) pero vayamos maacutes haya iquestqueacute sucederiacutea si adoptamos herramientas o teacutecnicas de bases de datos que nos digan queacute hacer seguacuten las informacioacuten que ellas presentan esto nos conduce a hablar de Data Mining o Mineriacutea de Datos Mientras que la innovacioacuten y la originalidad son habilidades fundamentales para la supervivencia de las empresas su eacutexito y prosperidad depende tambieacuten de decisiones eficientes y competitivas que deben ser tomadas en cortos intervalos de tiempo Para tomar decisiones es fundamental contar con informacioacuten de calidad Hoy en diacutea el nivel gerencial cuenta con una eficaz herramienta para lograr ese objetivo las teacutecnicas de Data Mining Con respecto a los nuevos usos de las bases de datos el Data Mining aparece como uno de los maacutes prometedores unido y fuertemente relacionado con los problemas asociados a los grandes almacenes de datos llamados Data Warehouses La relacioacuten entre el costo de los ordenadores y la atencioacuten humana ha cambiado sustancialmente El recurso maacutes precioso es el factor humano y los ordenadores deben potenciarlo Esto plantea una nueva filosofiacutea de acceso a la informacioacuten donde los ordenadores deben analizar los datos resumirlos organizarlos y resolver cuestiones mucho maacutes complejas que las actuales ofreciendo al usuario la informacioacuten que realmente le interesa Este proceso como se veraacute a lo largo de este trabajo esta muy ligado a cuestiones de Data Mining y Data Warehause Por el momento solo diremos que Data Mining es la integracioacuten de un conjunto de aacutereas que tienen como propoacutesito la identificacioacuten de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisiones en el transcurso de este trabajo detallaremos esto y seraacute de una forma maacutes comprensible Las teacutecnicas de Data Mining son el resultado de un largo proceso de investigacioacuten y desarrollo de productos Esta evolucioacuten comenzoacute cuando los datos de negocios fueron almacenados por primera vez en computadoras y continuoacute con mejoras en el acceso a los datos y maacutes recientemente con tecnologiacuteas generadas para permitir a los usuarios navegar a traveacutes de los datos en tiempo real Data Mining toma este proceso de evolucioacuten maacutes allaacute del acceso y navegacioacuten retrospectiva de los datos hacia la entrega de informacioacuten prospectiva y proactiva Data Mining estaacute listo para su aplicacioacuten en la comunidad de negocios porque estaacute soportado por tres tecnologiacuteas que ya estaacuten suficientemente maduras

Recoleccioacuten masiva de datos Potentes computadoras con multiprocesadores Algoritmos de Data Mining

Las bases de datos comerciales estaacuten creciendo a un ritmo sin precedentes Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontroacute que el 19 de los que contestaron estaacuten por encima del nivel de los 50 Gigabytes En algunas industrias tales como ventas al por menor (retail) estos nuacutemeros pueden ser auacuten mayores MCI Telecommunications Corp cuenta con una base de datos de 3 terabytes + 1 terabyte de iacutendices y overhead corriendo en MVS sobre IBM SP2 La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma maacutes costo-efectiva con tecnologiacutea de computadoras con multiprocesamiento paralelo Los algoritmos de Data Mining

13

utilizan teacutecnicas que han existido por lo menos desde hace 10 antildeos pero que soacutelo han sido implementadas recientemente como herramientas maduras confiables entendibles que consistentemente son maacutes performantes que meacutetodos estadiacutesticos claacutesicos En la evolucioacuten desde los datos de negocios a informacioacuten de negocios cada nuevo paso se basa en el previo Por ejemplo el acceso a datos dinaacutemicos es criacutetico para las aplicaciones de navegacioacuten de datos (drill through applications) y la habilidad para almacenar grandes bases de datos es criacutetica para Data Mining Los componentes esenciales de la tecnologiacutea de Data Mining han estado bajo desarrollo por deacutecadas en aacutereas de investigacioacuten como estadiacutesticas inteligencia artificial y aprendizaje de maacutequinas Hoy la madurez de estas teacutecnicas junto con los motores de bases de datos relacionales de alta performance hicieron que estas tecnologiacuteas fueran praacutecticas para los entornos de Data Warehouse actuales La idea de Data Mining no es nueva Desde los antildeos sesenta los estadiacutesticos manejaban teacuterminos como Data Fishing Data Mining o Data Archaeology con la idea de encontrar correlaciones sin una hipoacutetesis previa en bases de datos con ruido A principios de los antildeos ochenta Rakesh Agrawal Gio Wiederhold Robert Blum y Gregory Piatetsky-Shapiro entre otros empezaron a consolidar los teacuterminos de Data Mining y KDD (Knowledge Discovery in Databases Descubrimiento de Conocimiento en Bases de Datos) A finales de los antildeos ochenta soacutelo existiacutean un par de empresas dedicadas a esta tecnologiacutea en 2002 ya habiacutea maacutes de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones Las listas de discusioacuten sobre este tema las forman investigadores de maacutes de ochenta paiacuteses Esta tecnologiacutea ha sido un buen punto de encuentro entre personas pertenecientes al aacutembito acadeacutemico y al de los negocios[20] El presente trabajo tiene como finalidad dar a conocer una perspectiva general acerca de todo lo referente a la teoriacutea de Data Mining existen teacutecnicas de implantacioacuten de Data Mining algoritmos reglas etc de las cuales no daremos mayor detalle ya que no se encuentran como un objetivo de este documento solo se mencionaraacuten como la base teoacuterica de la Mineriacutea de Datos Lo que siacute perseguimos de manera especiacutefica es dejar en claro queacute es el concepto de Data Mining sus expectativas o finalidades dar a conocer sus cimientos y a queacute nos llevan todos ellos sus posibles aplicaciones y coacutemo se esta usando actualmente en algunas aacutereas principalmente en el nivel empresarial Aquiacute cabe mencionar que Data Mining es un proceso utilizado frecuentemente en macro empresas sin embargo tambieacuten es utilizado en las llamadas Pymes (Pequentildeas Y Medianas EmpresaS) y ademaacutes a nivel cientiacutefico aunque con menor frecuencia es por ello que nos hemos enfocado sobre todo a la utilizacioacuten de dicho proceso en las empresas grandes y coacutemo es que funciona en ellas auacuten asiacute creiacutemos conveniente introducir algunos ejemplos de su uso en otros entornos El primer capiacutetulo Panorama general de Data Mining comienza con un ejemplo introductorio para dar una idea general del por queacute es necesario utilizar Data Mining en ciertos casos esto nos lleva a dar un paso previo antes de conocer exactamente queacute es Data Mining Data Warehouse un paso antes de Data Mining nos menciona queacute relacioacuten hay entre Data Warehouse y Data Mining es importante entender este concepto ya que podriacuteamos decir que es una de las

14

principales bases de la Mineriacutea de Datos finalmente el capiacutetulo nos dice lo que en realidad es Data Mining sus objetivos y algunas formas generales de su utilizacioacuten

La forma en queacute trabaja Data Mining el capiacutetulo nuacutemero dos menciona de forma muy general como es que estaacute constituido Data Mining cuaacutel es su arquitectura la forma en que se implementa y las fases que se siguen para una buena implantacioacuten de un proyecto de Data Mining como bien lo hemos mencionado anteriormente este no es un trabajo para describir detalladamente las teacutecnicas de la Mineriacutea de Datos por ello cabe aclarar que este capiacutetulo tiene un enfoque teoacuterico baacutesico

Los dos primeros capiacutetulos nos sirven para entender baacutesicamente cuaacuteles podriacutean ser las aplicaciones de Data Mining el tercer capiacutetulo Aplicaciones de Data Mining nos da varios ejemplos de doacutende y coacutemo puede ser utilizado este proceso y cuaacuteles son sus ventajas en estas aacutereas de aplicacioacuten (principalmente en nivel empresarial)

El capiacutetulo nuacutemero cuatro Extensiones de Data Mining abordamos dos temas complementarios que tambieacuten se utilizan como procesos de Data Mining a saber el Web Mining y el Text Mining Estos temas tambieacuten los podriacuteamos ver como una aplicacioacuten de Data Mining sin embargo los hemos colocado en un capiacutetulo aparte ya que estaacuten considerados como un campo diferente esto es aplicaciones vistas como un meta Data Mining

Finalmente el uacuteltimo capiacutetulo Conclusiones y perspectivas damos nuestras conclusiones y algunos puntos de vista particulares mencionamos cuaacuteles son las oportunidades que existen para trabajar en proyectos de este tipo y queacute es lo que se espera de Data Mining en los proacuteximos antildeos

Hemos incluido tambieacuten un Resumen de todo lo abordado durante nuestro documento que contempla los aspectos maacutes importantes aquiacute tratados En la bibliografiacutea podraacute encontrar las direcciones http de donde se tomaron muchos de los aspectos mencionados en el transcurso de este trabajo cuando coloquemos un nuacutemero por ejemplo [2] al final de un paacuterrafo o cualquier sentencia estamos haciendo referencia al nuacutemero de artiacuteculo de internet mencionado en la bibliografiacutea de donde fue tomado dicho paacuterrafo o sentencia

CAPITULO I

PANORAMA GENERAL DE DATA MINING

En este capiacutetulo abordamos los conceptos fundamentales relacionados con Data Mining que nos ayudaraacuten a tener sobre todo una idea general de eacutel y ademaacutes nos auxiliaraacuten para entender los siguientes capiacutetulos Comenzamos con un ejemplo introductorio en la seccioacuten 11 Ejemplo de un problema asociado a Data Mining donde pretendemos dar a conocer una aplicacioacuten muy simple de Data Mining Continuamos con el apartado 12 Data Warehouse Un paso antes de Data Mining ya que creemos conveniente tener las nociones adecuadas de este tema que se relaciona fuertemente con Data Mining y del cuaacutel haremos mencioacuten en el resto de este trabajo Finalmente en la seccioacuten 13 iquestQueacute es Data Mining explicamos de la forma que creiacutemos uacutetil el concepto real de Data Mining sus objetivos y una forma breve de coacutemo y doacutende se trabaja con eacutel

15

11 Ejemplo de un problema asociado a Data Mining [18]

Para poder generar una idea general del significado y aplicacioacuten de Data Mining consideremos el siguiente problema

Suponga que usted es el gerente de mercadeo para una compantildeiacutea de telefoniacutea celular El problema considera lo siguiente La desercioacuten de clientes es muy alta La produccioacuten(despueacutes de que el contrato expira) es del 40 Los clientes reciben un teleacutefono de regalo con el contrato Usted paga una comisioacuten de ventas por contrato Se le da un teleacutefono nuevo a cada persona cuyo contrato ha expirado lo cual

es muy caro y por ende poco rentable para la compantildeiacutea Traer de regreso a un cliente despueacutes de que se va es difiacutecil y caro

111 Posible solucioacuten al problema de ejemplo

Se debe predecir queacute clientes abandonaraacuten la compantildeiacutea tres meses antes de que el contrato expire

Si queremos conservar a un cliente que creamos abandonaraacute la empresa se le deberiacutea ofrecer un nuevo teleacutefono

No hay que prestarle atencioacuten a los clientes que tienen altas posibilidades de quedarse en la empresa

Si hay clientes que no deseamos conservar simplemente no hacemos nada

Pues bien es muy faacutecil pretender hacer todo lo mencionado antes pero ahora la pregunta es iquestcoacutemo lo hacemos No podemos tomar decisiones a la ligera ni tomar medidas de las cuales estamos seguros que fallaraacuten por ejemplo suena absurdo en cuestiones como eacutestas recurrir a la lectura del Tarot La solucioacuten debe basarse en algo maacutes formal y coherente y una de esas alternativas es Data Mining

112 Solucioacuten del problema ejemplo a traveacutes de Data Mining

La solucioacuten que puede dar Data Mining al ejemplo del problema mencionado en esta seccioacuten considera lo siguiente

Interactuar dinaacutemicamente con el cliente Trabajar hacia delante y no hacia atraacutes Mejorar la calidad de la interaccioacuten iquestEl cliente quiere interactuar

o La liacutenea de ganancias se salva Optimizar el tiempo de interaccioacuten

o Aumentar el valor del cliente constantemente o Aumentar el valor de vida del cliente

En esta seccioacuten hemos visto solo un ejemplo introductoria en las secciones subsecuentes trataremos otros casos e iremos explicando como es que Data Mining ofrece soluciones a problemas de empresas

12 Data Warehouse Un paso antes de Data Mining

16

Antes de dar a conocer claramente lo que significa Data Mining es preciso dejar en claro lo que es un Data Warehouse que en principio lo podemos ver como un concepto que esta antes de Data Mining y es la base de este (aunque no siempre es asiacute) por ello el objetivo de esta seccioacuten es dar una idea general a este concepto no entraremos en muchos detalles pero daremos a conocer lo maacutes relevante para que en las secciones siguientes cuando hablemos de Data Warehouse o Data Warehousing no haya dudas sobre lo que nos estamos refiriendo

Las Bases de Datos (BD) de una empresa utilizan los ordenadores como medio para organizar sus datos de forma que sean comprensibles para las personas Este proceso es conocido como Data Warehousing La comprensioacuten de los datos almacenados es esencial para cualquier organizacioacuten ya que constituye un elemento baacutesico en la toma de decisiones

Un Data Warehouse es un almaceacuten o repositorio de datos categorizados que concentra un gran volumen de informacioacuten de intereacutes para toda una organizacioacuten la cual se distribuye por medio de diversas herramientas de consulta y de creacioacuten de informes orientadas a la toma de decisiones El objetivo del Data Warehouse (DW) es agrupar los datos con el propoacutesito de facilitar su posterior anaacutelisis de forma que sean faacuteciles de acceder y posteriormente analizar informacioacuten sobre la propia empresa A este tipo de datos se les conoce como informativos Los sistemas que manejan estos datos se denominan OLAP (Online Analytical Processing) Existe muchas definiciones formales de DW de distintos autores pero una de las mas famosas puede ser la dada por Inmon en 1992 Un Data Warehouse es una coleccioacuten de datos orientados a temas integrados no-volaacutetiles y variante en el tiempo organizados para soportar necesidades empresariales Los Data Warehouses a menudo almacenan gran cantidad de informacioacuten la cual estaacute a veces subdividida en pequentildeas unidades loacutegicas Perioacutedicamente se importan estos datos de otros sistemas de informacioacuten dentro del Data Warehouse para realizar sobre ellos un procesamiento posterior Un Data Warehouse se diferencia de una Base de Datos operacional de una empresa diremos que un Data Warehouse puede derivarse de la Base de Datos corporativa mediante la importacioacuten de informacioacuten pero el DW no es esa BD operacional[7]

Muchos de los datos de una empresa se utilizan como soporte a los negocios por eso a este tipo de datos se les denomina operacionales Los sistemas usados con el fin de recogerlos reciben el nombre de OLTP (Online Transaction Processing)[10]

Las principales caracteriacutesticas o propiedades de un DW son las siguientes

El DW estaacute orientado a la toma de decisiones Un buen disentildeo de la base de datos favorece el anaacutelisis y la recuperacioacuten de datos para obtener una ventaja estrateacutegica y para facilitar las decisiones de marketing

El DW almacena datos categorizaacutendolos o estructuraacutendolos de forma que favorezcan el anaacutelisis de los datos y puedan proporcionar anaacutelisis histoacutericos

El DW no estaacute orientado a procesos relacionados con la operativa de la empresa es decir que solo esta destinado a funcionar como un almaceacuten de datos

El DW estaacute preparado para ser explotado mediante herramientas especiacuteficas que permiten la extraccioacuten de informacioacuten significativa y patrones de

17

comportamiento que permanecen ocultos en un enorme repositorio de datos Esta explotacioacuten de los datos se suele realizar con herramientas de Data Mining

121 Software para un Data Warehouse[10]

La informacioacuten estrateacutegica se almacena en Gigabytes(tal vez maacutes) de datos de marketing En este caso se necesita software especializado que permita capturar los datos relevantes en forma raacutepida El software no deberiacutea limitarse uacutenicamente al acceso a los datos sino tambieacuten al anaacutelisis significativo de los datos esto es transformar los datos de la informacioacuten cruda o no procesada en informacioacuten uacutetil para la empresa

El software o herramientas de negocios inteligentes se colocan sobre la plataforma Data Warehousing y proveen este servicio Debido a que son el punto principal de contacto entre la aplicacioacuten del depoacutesito y la gente que lo usa estas herramientas pueden constituir la diferencia entre el eacutexito o fracaso de un depoacutesito Las herramientas de negocio inteligentes se han convertido en los sucesores de los sistemas de soporte de decisioacuten pero tienen un alcance maacutes amplio No solamente ayudan en las decisiones de soporte sino en muchos casos estas herramientas soportan muchas funciones operacionales y de misioacuten-criacutetica de la compantildeiacutea Sin embargo estos productos no son infalibles ya que soacutelo se consigue el maacuteximo provecho del Data Warehouse si eligen las herramientas adecuadas a las necesidades de cada usuario final Una de estas herramientas es Data Mining sin embargo hay otras que no mencionaremos ya que se encuentran fuera de los objetivos de este trabajo El proceso de Data Mining extrae los conocimientos guardados o informacioacuten predictiva desde el Data Warehouse sin requerir pedidos o preguntas especiacuteficas Data Mining usa algunas de las teacutecnicas de computacioacuten maacutes avanzadas para generar modelos y asociaciones como redes neurales deteccioacuten de desviacioacuten modelado predictivo y programacioacuten geneacutetica

122 Ventajas y Desventajas del Data Warehouse

La utilizacioacuten de Data Warehouse proporciona una serie de ventajas

Proporciona un gran poder de procesamiento de informacioacuten Permite una mayor flexibilidad y rapidez en el acceso a la informacioacuten Facilita la toma de decisiones en los negocios Las empresas obtienen un aumento de la productividad Proporciona una comunicacioacuten fiable entre todos los departamentos de la

empresa Mejora las relaciones con los proveedores y los clientes Permite conocer queacute estaacute pasando en el negocio es decir estar siempre

enterado de los buenos y malos resultados Transforma los datos en informacioacuten y la informacioacuten en conocimiento Permite hacer planes de forma maacutes efectiva Reduce los tiempos de respuesta y los costes de operacioacuten

Resumiendo el Data Warehouse proporciona una informacioacuten de gestioacuten accesible correcta uniforme y actualizada Proporciona un menor coste en la toma de

18

decisiones una mayor flexibilidad ante el entorno un mejor servicio al cliente y permite el redisentildeo de los procesos

Pero los Data Warehouse tambieacuten tienen algunas desventajas

Requieren una revisioacuten del modelo de datos objetos transacciones y ademaacutes del almacenamiento

Tienen un disentildeo complejo y multidisciplinar Requieren una reestructuracioacuten de los sistemas operacionales Tienen un alto coste Requieren sistemas aplicaciones y almacenamiento especiacutefico

Por uacuteltimo cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versioacuten maacutes reducida de un Data Warehouse a menudo conteniendo informacioacuten especiacutefica de alguacuten departamento como marketing finanzas o mantenimiento de la red Idealmente el Data Marts deberiacutea ser un subconjunto del Data Warehouse a fin de mantener consistencia en las praacutecticas de administracioacuten de datos corporativos y para mantener la seguridad y la integridad de la informacioacuten cruda que se estaacute usando Para las grandes compantildeiacuteas el Data Marts usualmente contiene una docena de gigabytes de datos Ahora podemos continuar y dar una explicacioacuten de lo que en realidad es Data Mining a pesar de que en este apartado hemos dado una definicioacuten de manera somera

13 iquestQueacute es Data Mining[14]

Cada diacutea generamos una gran cantidad de informacioacuten algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos Nos damos cuenta de que generamos informacioacuten cuando registramos nuestra entrada en el trabajo cuando entramos en un servidor para ver nuestro correo cuando pagamos con una tarjeta de creacutedito o cuando reservamos un boleto de avioacuten Otras veces no nos damos cuenta de que generamos informacioacuten como cuando conducimos por una viacutea donde estaacuten contabilizando el nuacutemero de automoacuteviles que pasan por minuto cuando se sigue nuestra navegacioacuten por Internet o cuando nos sacan una fotografiacutea del rostro al haber pasado cerca de una oficina gubernamental iquestCon queacute finalidad queremos generar informacioacuten Son muchos los motivos que nos llevan a generar informacioacuten ya que nos pueden ayudar a controlar optimizar administrar examinar investigar planificar predecir someter negociar o tomar decisiones de cualquier aacutembito seguacuten el dominio en que nos desarrollemos La informacioacuten por siacute misma estaacute considerada un bien patrimonial De esta forma si una empresa tiene una peacuterdida total o parcial de informacioacuten provoca bastantes perjuicios Es evidente que la informacioacuten debe ser protegida pero tambieacuten explotada

iquestQueacute nos ha permitido poder generar tanta informacioacuten En los uacuteltimos antildeos debido al desarrollo tecnoloacutegico a niveles exponenciales tanto en el aacuterea de coacutemputo como en la de transmisioacuten de datos ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacioacuten Sin duda existen cuatro factores importantes que nos han llevado a este suceso

19

1 El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente

2 El incremento de las velocidades de coacutemputo en los procesadores 3 Las mejoras en la confiabilidad y aumento de la velocidad en la transmisioacuten

de datos 4 El desarrollo de sistemas administradores de bases de datos maacutes poderosos

Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacioacuten en las bases de datos Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura ya que soacutelo se guarda (o escribe) en el disco duro pero nunca se hace uso de eacutel Generalmente todas las empresas usan un dato llamado dato-escritura-lectura que utilizan para hacer consultas dirigidas Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-anaacutelisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones Es necesario contar con tecnologiacuteas que nos ayuden a explotar el potencial de este tipo de datos La cantidad de informacioacuten que nos llega cada diacutea es tan inmensa que nos resulta difiacutecil asimilarla Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171769416 sitios donde nos pueden decir algo al respecto Suponiendo que nos tomemos un minuto para ver el contenido de cada paacutegina tardariacuteamos entonces 326 antildeos en visitarlas todas Esto es imposible y por lo tanto existe una clara necesidad de disponer de tecnologiacuteas que nos ayuden en nuestros procesos de buacutesqueda y auacuten maacutes de tecnologiacuteas que nos ayuden a comprender su contenido Como bien sabemos algunos sistemas producen una cantidad inmensa de datos estos datos con frecuencia contienen valiosa informacioacuten que puede resultar muy uacutetil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacioacuten Las dimensiones de las base de datos grandes (montantildeas) y sus velocidades de crecimiento hacen muy difiacutecil para un humano su anaacutelisis y la extraccioacuten de alguna informacioacuten importante (oro) Auacuten con el uso de herramientas estadiacutesticas claacutesicas esta tarea es casi imposible El Data Mining surge como una tecnologiacutea que intenta ayudar a comprender el contenido de una base de datos De forma general los datos son la materia prima bruta en el momento que el usuario les atribuye alguacuten significado especial pasan a convertirse en informacioacuten Cuando los especialistas elaboran o encuentran un modelo haciendo que la interpretacioacuten del confronto entre la informacioacuten y ese modelo represente un valor agregado entonces nos referimos al conocimiento En la figura 11 se ilustra la jerarquiacutea que existe en una base de datos entre dato informacioacuten y conocimiento Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquiacutea El aacuterea interna dentro del triaacutengulo representa los objetivos que se han propuesto La separacioacuten del triaacutengulo representa la estrecha unioacuten entre dato e informacioacuten no asiacute entre la informacioacuten y el conocimiento El Data Mining trabaja en el nivel superior buscando patrones comportamientos agrupaciones secuencias tendencias o asociaciones que puedan generar alguacuten modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisioacuten

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 4: Clase 6 Data Mining

4

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las

plataformas de hardware y software existentes y puede ser implementadas en sistemas

nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean

desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de

procesamiento paralelo de alto performance pueden analizar bases de datos masivas en

minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente

experimentar con maacutes modelos para entender datos complejos Alta velocidad hace que sea

praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a

su vez producen mejores predicciones

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar

cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables

que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de

modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar

toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a

los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de

poblacioacuten

6) iquestCoacutemo Trabaja el Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce

o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama

Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten

donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la

respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que

podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado

Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda

y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que

probablemente tomara el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma

un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros

hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que

en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de

esperanza si tiene un buen modelo probablemente encontraraacute el tesoro

Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace

mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de

Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que

la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca

de una variedad de situaciones donde una respuesta es conocida y luego el software de Data

Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas

de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado

en situaciones similares donde usted no conoce la respuesta

5

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo

puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle

que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data

Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos

del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden

ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo

funciona las observaciones deben mantenerse para los datos excluidos

7) Arquitectura para Data Mining

Para aplicar mejor estas teacutecnicas avanzadas eacutestas deben estar totalmente integradas con el

data warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de

negocios Varias herramientas de Data Mining actualmente operan fuera del warehouse

requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos

conceptos requieren implementacioacuten operacional la integracioacuten con el warehouse

simplifica la aplicacioacuten de los resultados desde Data Mining El Data warehouse analiacutetico

resultante puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en

aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de

nuevos productos etc

El punto de inicio ideal es un data warehouse que contenga una combinacioacuten de datos de

seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la

actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten

provee una excelente base para prospecting Este warehouse puede ser implementado en

una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los

datos flexible y raacutepido

Un server multidimensional OLAP permite que un modelo de negocios maacutes sofisticado

pueda ser aplicado cuando se navega por el data warehouse Las estructuras

multidimensionales permiten que el usuario analice los datos de acuerdo a como quiera

mirar el negocio - resumido por liacutenea de producto u otras perspectivas claves para su

negocio El server de Data Mining debe estar integrado con el data warehouse y el server

OLAP para insertar el anaacutelisis de negocios directamente en esta infraestructura Un

avanzado metadata centrado en procesos define los objetivos del Data Mining para

resultados especiacuteficos tales como manejos de campantildea prospecting y optimizacioacuten de

promociones La integracioacuten con el data warehouse permite que decisiones operacionales

sean implementadas directamente y monitoreadas A medida que el data warehouse crece

con nuevas decisiones y resultados la organizacioacuten puede minar las mejores praacutecticas y

aplicarlas en futuras decisiones

Este disentildeo representa una transferencia fundamental desde los sistemas de soporte de

decisioacuten convencionales Maacutes que simplemente proveer datos a los usuarios finales a traveacutes

de software de consultas y reportes el server de Anaacutelisis Avanzado aplica los modelos de

negocios del usuario directamente al warehouse y devuelve un anaacutelisis proactivo de la

informacioacuten maacutes relevante Estos resultados mejoran los metadatos en el server OLAP

proveyendo una estrato de metadatos que representa una vista fraccionada de los datos

6

Generadores de reportes visualizadores y otras herramientas de anaacutelisis pueden ser

aplicadas para planificar futuras acciones y confirmar el impacto de esos planes

8) Por queacute usar Data Mining

Sin duda alguna que el uso de Data Mining

o Contribuye a la toma de decisiones taacutecticas y estrateacutegicas proporcionando un

sentido automatizado para identificar informacioacuten clave desde voluacutemenes de datos

generados por procesos tradicionales y de e-Business

o Permite a los usuarios dar prioridad a decisiones y acciones mostrando factores que

tienen un mayor en un objetivo queacute segmentos de clientes son desechables y queacute

unidades de negocio son sobrepasados y por queacute

o Proporciona poderes de decisioacuten a los usuarios del negocio que mejor entienden el

problema y el entorno y es capaz de medir la acciones y los resultados de la mejor

forma

o Genera Modelos descriptivos En un contexto de objetivos definidos en los

negocios permite a empresas sin tener en cuenta la industria o el tamantildeo explorar

automaacuteticamente visualizar y comprender los datos e identificar patrones

relaciones y dependencias que impactan en los resultados finales de la cuenta de

resultados (tales como el aumento de los ingresos incremento de los beneficios

contencioacuten de costos y gestioacuten de riesgos)

o Genera Modelos predictivos permite que relaciones no descubiertas e identificadas

a traveacutes del proceso del Data Mining sean expresadas como reglas de negocio o

modelos predictivos Estos outputs pueden comunicarse en formatos tradicionales

(presentaciones informes informacioacuten electroacutenica compartida embebidos en

aplicaciones) para guiar la estrategia y planificacioacuten de la empresa

Mineriacutea de datos

La Mineriacutea de Datos es un conjunto de teacutecnicas para la induccioacuten de conocimiento

uacutetil a partir de masas ingentes de datos Tiene por lo tanto un solapamiento importante con

otras disciplinas como la estadiacutestica tradicional el reconocimiento de patrones la

inteligencia artificial etc Se la suele distinguir de ellas por el campo de aplicacioacuten se suele

aceptar que la mineriacutea de datos estudia informacioacuten acumulada en empresas y otras

organizaciones acerca de sus clientes usuarios etc y las interacciones de eacutestos con

aqueacutellas de manera que el conocimiento que pueda extraerse de ella sirva para mejorar la

rentabilidad el nivel de servicio redefinir estrategias de maacuterketing etc

Tradicionalmente las teacutecnicas de mineriacutea de datos se aplicaban sobre informacioacuten

contenida en almacenes de datos De hecho muchas grandes empresas e instituciones han

creado y alimentan bases de datos especialmente disentildeadas para proyectos de mineriacutea de

7

datos en las que centralizan informacioacuten potencialmente uacutetil de todas sus aacutereas de negocio

etc No obstante actualmente estaacute cobrando una importancia cada vez mayor la mineriacutea de

datos desestructurados como informacioacuten contenida en ficheros de texto en internet etc

Tabla de contenidos

1 Ejemplos de uso de la mineriacutea de datos

2 Mineriacutea de datos y otras disciplinas anaacutelogas

3 Protocolo de un proyecto de mineriacutea de datos

4 Tendencias

5 Enlaces externos

6 Veacutease tambieacuten

1- Ejemplos de uso de la mineriacutea de datos

El ejemplo claacutesico mdashaparte de algo rancio y posiblemente apoacutecrifomdash de

aplicacioacuten de la mineriacutea de datos tiene que ver con la deteccioacuten de haacutebitos de compra en

supermercados Un estudio muy citado detectoacute que los viernes habiacutea una cantidad

inusualmente elevada de clientes que adquiriacutean a la vez pantildeales y cerveza Se detectoacute que

se debiacutea a que dicho diacutea soliacutean acudir al supermercado padres joacutevenes cuya perspectiva

para el fin de semana consistiacutea en quedarse en casa cuidando de su hijo y viendo la

televisioacuten con una cerveza en la mano El supermercado pudo incrementar sus ventas de

cerveza colocaacutendolas proacuteximas a los pantildeales para fomentar las ventas compulsivas pero un

ejemplo maacutes habitual es el de la deteccioacuten de patrones de fuga En muchas industrias mdash

como la banca las telecomunicaciones etcmdash existe un comprensible intereacutes en detectar

cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para

posiblemente pasarse a la competencia A estos clientes mdashy en funcioacuten de su valormdash se

les podriacutean hacer ofertas personalizadas ofrecer promociones especiales etc con el

objetivo uacuteltimo de retenerlos La mineriacutea de datos ayuda a determinar queacute clientes son los

maacutes proclives a darse de baja estudiando sus patrones de comportamiento y comparaacutendolos

con muestras de clientes que efectivamente se dieron de baja en el pasado

Un caso anaacutelogo es el de la deteccioacuten de transacciones de blanqueo de dinero o de fraude

en el uso de tarjetas de creacutedito o de servicios de telefoniacutea moacutevil e incluso en la relacioacuten de

los contribuyentes con el fisco Generalmente estas operaciones fraudulentas o ilegales

suelen seguir patrones caracteriacutesticos que permiten con cierto grado de probabilidad

distinguirlas de las legiacutetimas y desarrollar asiacute mecanismos para tomar medidas raacutepidas

frente a ellas

Tambieacuten es un aacuterea en boga el del anaacutelisis del comportamiento de los visitantes mdashsobre

todo cuando son clientes potencialesmdash en una paacutegina de internet O la utilizacioacuten de la

informacioacuten mdashobtenida por medios maacutes o menos legiacutetimosmdash sobre ellos para ofrecerles

propaganda adaptada especiacuteficamente a su perfil O para una vez que adquieren un

determinado producto saber inmediatamente queacute otro ofrecerle teniendo en cuenta la

informacioacuten histoacuterica disponible acerca de los clientes que han comprado el primero

Mineriacutea de datos y otras disciplinas anaacutelogas

Suscita cierta poleacutemica el definir las fronteras existentes entre la mineriacutea de datos y

disciplinas anaacutelogas como pueden serlo la estadiacutestica la inteligencia artificial etc Hay

quienes sostienen que la mineriacutea de datos no es sino estadiacutestica envuelta en una jerga de

8

negocios que la conviertan en un producto vendible Otros en cambio encuentran en ella

una serie de problemas y meacutetodos especiacuteficos que la hacen distinta de otras disciplinas

El hecho es que la praacutectica totalidad de los modelos y algoritmos de uso general en mineriacutea

de datos mdashredes neuronales aacuterboles de regresioacuten y clasificacioacuten modelos logiacutesticos

anaacutelisis de componentes principales etcmdash gozan de una tradicioacuten relativamente larga en

otros campos

Fases de un proyecto de mineriacutea de datos

Un proyecto de mineriacutea de datos tiene varias fases necesarias que son esencialmente

Comprensioacuten del negocio y del problema que se quiere resolver

Determinacioacuten obtencioacuten y limpieza de los datos necesarios

Creacioacuten de modelos matemaacuteticos

Validacioacuten comunicacioacuten etc de los resultados obtenidos

Integracioacuten si procede de los resultados en un sistema transaccional o similar

La relacioacuten entre todas estas fases soacutelo es lineal sobre el papel En realidad es mucho maacutes

compleja y esconde toda una jerarquiacutea de subfases A traveacutes de la experiencia acumulada

en proyectos de mineriacutea de datos se han ido desarrollando metodologiacuteas que permiten

gestionar esta complejidad de una manera maacutes o menos uniforme Ejemplos de ellas son

CRISP-DM y SEMMA

Fases de un Proyecto de Mineriacutea de Datos

Los pasos a seguir para la realizacioacuten de un proyecto de mineriacutea de datos son siempre los

mismos independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento

utilizada

El proceso de mineriacutea de datos pasa por las siguientes fases

1- Filtrado de datos

2- Seleccioacuten de Variables

3- Extraccioacuten de Conocimiento

4- Interpretacioacuten y Evaluacioacuten

Si desea obtener una descripcioacuten maacutes detallada puede consultar la documentacioacuten de

CRISP-DM CRISP-DM (CRoss Industry Standard Process for Data Mining) es un

estaacutendar industrial utilizado por maacutes de 160 empresas e instituciones de todo el mundo que

surge en respuesta a la falta de estandarizacioacuten y propone un modelo de proceso general

para proyectos de mineriacutea de datos

Neutral respecto a industria y herramientas

Aplicable en cualquier sector de negocio

9

Fases de un proyecto de Mineriacutea de Datos

1- Filtrado de datos

El formato de los datos contenidos en la fuente de datos (base de datos Data Warehouse)

nunca es el idoacuteneo y la mayoriacutea de las veces no es posible ni siquiera utilizar ninguacuten

algoritmo de mineriacutea sobre los datos en bruto

Mediante el preprocesado se filtran los datos (de forma que se eliminan valores

incorrectos no vaacutelidos desconocidos seguacuten las necesidades y el algoritmo a usar) se

obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del

proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo clustering)

2- Seleccioacuten de variables

Auacuten despueacutes de haber sido preprocesados en la mayoriacutea de los casos se tiene una cantidad

ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las

variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de

conocimiento obtenido del proceso de mineriacutea

Los meacutetodos para la seleccioacuten de caracteriacutesticas son baacutesicamente dos

Aquellos basados en la eleccioacuten de los mejores atributos del problema

Y aquellos que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

3- Algoritmos de Extraccioacuten de Conocimiento

Mediante una teacutecnica de mineriacutea de datos se obtiene un modelo de conocimiento que

representa patrones de comportamiento observados en los valores de las variables del

problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias

teacutecnicas a la vez para generar distintos modelos aunque generalmente cada teacutecnica obliga a

un preprocesado diferente de los datos

4- Interpretacioacuten y evaluacioacuten

Una vez obtenido el modelo se debe proceder a su validacioacuten comprobando que las

conclusiones que arroja son vaacutelidas y suficientemente satisfactorias En el caso de haber

obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los

modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos

alcanza los resultados esperados debe alterarse alguno de los pasos anteriores para generar

nuevos modelos

Tendencias

La mineriacutea de datos ha sufrido transformaciones en los uacuteltimos antildeos de acuerdo con

cambios tecnoloacutegicos de estrategias de maacuterketing la extensioacuten de los modelos de compra

en liacutenea etc Los maacutes importantes de ellos son

La importancia que han cobrado los datos no estructurados (texto paacuteginas de internet etc)

La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales

portales de internet etc

La exigencia de que los procesos funcionen praacutecticamente en liacutenea (por ejemplo que frente

a un fraude con una tarjeta de creacutedito eacutesta pueda ser cancelada casi al instante)

10

Principios de Data Mining

1 Resumen

2 Introduccioacuten

3 Panorama general de data mining

4 La forma en que se trabaja con Data Mining

5 Aplicaciones de Data Mining

6 Extensiones de Data Mining

7 Conclusiones y perspectivas

8 Referencias

RESUMEN

En los uacuteltimos antildeos ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos debido baacutesicamente al gran poder de procesamiento de las maacutequinas como a su bajo costo de almacenamiento Sin embargo dentro de estas enormes masas de datos existe una gran cantidad de informacioacuten oculta de gran importancia estrateacutegica a la que no se puede acceder por las teacutecnicas claacutesicas de recuperacioacuten de la informacioacuten El descubrimiento de esta informacioacuten oculta es posible gracias a la Mineriacutea de Datos (Data Mining) que entre otras sofisticadas teacutecnicas aplica la inteligencia

artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creacioacuten de modelos es decir representaciones abstractas de la realidad pero es el descubrimiento del conocimiento (KDD por sus siglas en ingleacutes) que se encarga de la preparacioacuten de los datos y la interpretacioacuten de los resultados obtenidos los cuales dan un significado a estos patrones encontrados Asiacute el valor real de los datos reside en la informacioacuten que se puede extraer de ellos informacioacuten que ayude a tomar decisiones o mejorar nuestra comprensioacuten de los fenoacutemenos que nos rodean Hoy maacutes que nunca los meacutetodos analiacuteticos avanzados son el arma secreta de muchos negocios exitosos Empleando meacutetodos analiacuteticos avanzados para la explotacioacuten de datos los negocios incrementan sus ganancias maximizan la eficiencia operativa reducen costos y mejoran la satisfaccioacuten del cliente El presente trabajo enfatiza el uso del Data Mining para el descubrimiento del conocimiento y su uso predominante en nivel empresarial a fin de contribuir en la toma de decisiones taacutecticas y estrateacutegicas en una organizacioacuten proporcionando un sentido automatizado para la generacioacuten de conocimiento Vimos cual es la relacioacuten entre Data Mining y un Data Warehouse conocimos lo maacutes relevante sobre el proceso de Data Warehousing y como esta inmerso el Data Mining sobre su arquitectura Asiacute mismo presentamos algunas fases generales y otras un poco maacutes especiacuteficas sobre como implementar un proyecto Data Mining Tambieacuten conocimos cuales son las diferencias entre Data Mining y los procesos de estadiacutestica a pesar de que son ramas con notables diferencias ambas pueden complementarse en sus procesos de toma de decisiones y presentacioacuten de resultados

11

Se incluyeron aplicaciones de Data Mining en varias aacutereas ademaacutes de la empresarial y se da a conocer de forma muy general el alcance que tiene el utilizar un proceso de este tipo Ademaacutes hablamos de algunas herramientas de distribucioacuten libre y algunas comerciales que son empleadas para emprender proyectos de Data Mining Conocimos dos extensiones de Data Mining Web Mining y Text Mining finalmente dimos algunos puntos de vista comentarios y opiniones sobre lo que es Data Mining y lo que se espera de esta tecnologiacutea en los proacuteximos antildeos

INTRODUCCIOacuteN

Desde eacutepocas remotas la humanidad se ha preocupado por la creacioacuten de bienes con el miacutenimo de recursos Distintos pueblos y en distintos periacuteodos se practicaban la previsioacuten planeacioacuten y organizacioacuten de grupos para ejercitar diversas actividades (entre ellas la pesca agricultura el comercio la guerra etc) En antildeos maacutes recientes durante la revolucioacuten industrial se pusieron en praacutectica ideas que sirvieron para la creacioacuten de la administracioacuten ya que durante ese tiempo se pensoacute en la manera de producir maacutes con menos recursos A partir de ese momento precursores e idealistas fueron sentando las bases para la creacioacuten de la administracioacuten convirtieacutendola en una ciencia La humanidad ha utilizado varias formas para llevar a cabo transacciones de los bienes tal es el caso de los antiguos pueblos al utilizar monedas de metal con diferentes insignias descripciones y denominaciones para el intercambio de artiacuteculos o servicios Todo esto nos lleva a decir que es necesario conocer las herramientas y hacer buen uso de ellas para que una empresa pueda evaluar planes decisiones poliacuteticas procedimientos y en general todo lo concerniente a ella entre estas herramientas podemos hablar de herramientas contables financieras matemaacuteticas economiacutea y de informacioacuten El mundo experimenta cambios fundamentales Los continuos avances en tecnologiacutea de computadoras y comunicaciones tienen un fuerte impacto sobre la forma en que las personas trabajan La tecnologiacutea y las expectativas de las personas que la utilizan estaacuten modificando gradualmente las caracteriacutesticas de los sistemas de

informacioacuten Actualmente la economiacutea de muchas empresas y paiacuteses estaacute basada en la informacioacuten maacutes en la tecnologiacutea de sistemas de informacioacuten que sobre las maacutequinas y productos no relacionados con ella El desarrollo de los sistemas de informacioacuten juega en este tiempo un papel muy valioso dentro de las organizaciones En la era industrial lo maacutes importante era el uso del capital y recursos tangibles para generar nuevos productos Actualmente los recursos baacutesicos son las ideas y el uso de informacioacuten El empleo estrateacutegico de la informacioacuten continuaraacute creando en todas las empresas y organizaciones nuevas oportunidades[13] Para desarrollar un sistema de informacioacuten se necesita tecnologiacutea y gente desde los usuarios de la informacioacuten pasando por los operadores capturistas de datos y analistas de sistemas hasta llegar a los niveles directivos de toda la organizacioacuten Los primeros programadores de computadoras desarrollaban aplicaciones que satisfaciacutean vagamente los requerimientos de informacioacuten de los usuarios finales Ahora gracias a las herramientas de hardware y software con las que se cuenta es mucho maacutes faacutecil obtener la informacioacuten necesaria y a tiempo Una de estas herramientas son los Sistemas Administradores de Bases de Datos(DBMS por sus

12

siglas en ingleacutes) pero vayamos maacutes haya iquestqueacute sucederiacutea si adoptamos herramientas o teacutecnicas de bases de datos que nos digan queacute hacer seguacuten las informacioacuten que ellas presentan esto nos conduce a hablar de Data Mining o Mineriacutea de Datos Mientras que la innovacioacuten y la originalidad son habilidades fundamentales para la supervivencia de las empresas su eacutexito y prosperidad depende tambieacuten de decisiones eficientes y competitivas que deben ser tomadas en cortos intervalos de tiempo Para tomar decisiones es fundamental contar con informacioacuten de calidad Hoy en diacutea el nivel gerencial cuenta con una eficaz herramienta para lograr ese objetivo las teacutecnicas de Data Mining Con respecto a los nuevos usos de las bases de datos el Data Mining aparece como uno de los maacutes prometedores unido y fuertemente relacionado con los problemas asociados a los grandes almacenes de datos llamados Data Warehouses La relacioacuten entre el costo de los ordenadores y la atencioacuten humana ha cambiado sustancialmente El recurso maacutes precioso es el factor humano y los ordenadores deben potenciarlo Esto plantea una nueva filosofiacutea de acceso a la informacioacuten donde los ordenadores deben analizar los datos resumirlos organizarlos y resolver cuestiones mucho maacutes complejas que las actuales ofreciendo al usuario la informacioacuten que realmente le interesa Este proceso como se veraacute a lo largo de este trabajo esta muy ligado a cuestiones de Data Mining y Data Warehause Por el momento solo diremos que Data Mining es la integracioacuten de un conjunto de aacutereas que tienen como propoacutesito la identificacioacuten de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisiones en el transcurso de este trabajo detallaremos esto y seraacute de una forma maacutes comprensible Las teacutecnicas de Data Mining son el resultado de un largo proceso de investigacioacuten y desarrollo de productos Esta evolucioacuten comenzoacute cuando los datos de negocios fueron almacenados por primera vez en computadoras y continuoacute con mejoras en el acceso a los datos y maacutes recientemente con tecnologiacuteas generadas para permitir a los usuarios navegar a traveacutes de los datos en tiempo real Data Mining toma este proceso de evolucioacuten maacutes allaacute del acceso y navegacioacuten retrospectiva de los datos hacia la entrega de informacioacuten prospectiva y proactiva Data Mining estaacute listo para su aplicacioacuten en la comunidad de negocios porque estaacute soportado por tres tecnologiacuteas que ya estaacuten suficientemente maduras

Recoleccioacuten masiva de datos Potentes computadoras con multiprocesadores Algoritmos de Data Mining

Las bases de datos comerciales estaacuten creciendo a un ritmo sin precedentes Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontroacute que el 19 de los que contestaron estaacuten por encima del nivel de los 50 Gigabytes En algunas industrias tales como ventas al por menor (retail) estos nuacutemeros pueden ser auacuten mayores MCI Telecommunications Corp cuenta con una base de datos de 3 terabytes + 1 terabyte de iacutendices y overhead corriendo en MVS sobre IBM SP2 La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma maacutes costo-efectiva con tecnologiacutea de computadoras con multiprocesamiento paralelo Los algoritmos de Data Mining

13

utilizan teacutecnicas que han existido por lo menos desde hace 10 antildeos pero que soacutelo han sido implementadas recientemente como herramientas maduras confiables entendibles que consistentemente son maacutes performantes que meacutetodos estadiacutesticos claacutesicos En la evolucioacuten desde los datos de negocios a informacioacuten de negocios cada nuevo paso se basa en el previo Por ejemplo el acceso a datos dinaacutemicos es criacutetico para las aplicaciones de navegacioacuten de datos (drill through applications) y la habilidad para almacenar grandes bases de datos es criacutetica para Data Mining Los componentes esenciales de la tecnologiacutea de Data Mining han estado bajo desarrollo por deacutecadas en aacutereas de investigacioacuten como estadiacutesticas inteligencia artificial y aprendizaje de maacutequinas Hoy la madurez de estas teacutecnicas junto con los motores de bases de datos relacionales de alta performance hicieron que estas tecnologiacuteas fueran praacutecticas para los entornos de Data Warehouse actuales La idea de Data Mining no es nueva Desde los antildeos sesenta los estadiacutesticos manejaban teacuterminos como Data Fishing Data Mining o Data Archaeology con la idea de encontrar correlaciones sin una hipoacutetesis previa en bases de datos con ruido A principios de los antildeos ochenta Rakesh Agrawal Gio Wiederhold Robert Blum y Gregory Piatetsky-Shapiro entre otros empezaron a consolidar los teacuterminos de Data Mining y KDD (Knowledge Discovery in Databases Descubrimiento de Conocimiento en Bases de Datos) A finales de los antildeos ochenta soacutelo existiacutean un par de empresas dedicadas a esta tecnologiacutea en 2002 ya habiacutea maacutes de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones Las listas de discusioacuten sobre este tema las forman investigadores de maacutes de ochenta paiacuteses Esta tecnologiacutea ha sido un buen punto de encuentro entre personas pertenecientes al aacutembito acadeacutemico y al de los negocios[20] El presente trabajo tiene como finalidad dar a conocer una perspectiva general acerca de todo lo referente a la teoriacutea de Data Mining existen teacutecnicas de implantacioacuten de Data Mining algoritmos reglas etc de las cuales no daremos mayor detalle ya que no se encuentran como un objetivo de este documento solo se mencionaraacuten como la base teoacuterica de la Mineriacutea de Datos Lo que siacute perseguimos de manera especiacutefica es dejar en claro queacute es el concepto de Data Mining sus expectativas o finalidades dar a conocer sus cimientos y a queacute nos llevan todos ellos sus posibles aplicaciones y coacutemo se esta usando actualmente en algunas aacutereas principalmente en el nivel empresarial Aquiacute cabe mencionar que Data Mining es un proceso utilizado frecuentemente en macro empresas sin embargo tambieacuten es utilizado en las llamadas Pymes (Pequentildeas Y Medianas EmpresaS) y ademaacutes a nivel cientiacutefico aunque con menor frecuencia es por ello que nos hemos enfocado sobre todo a la utilizacioacuten de dicho proceso en las empresas grandes y coacutemo es que funciona en ellas auacuten asiacute creiacutemos conveniente introducir algunos ejemplos de su uso en otros entornos El primer capiacutetulo Panorama general de Data Mining comienza con un ejemplo introductorio para dar una idea general del por queacute es necesario utilizar Data Mining en ciertos casos esto nos lleva a dar un paso previo antes de conocer exactamente queacute es Data Mining Data Warehouse un paso antes de Data Mining nos menciona queacute relacioacuten hay entre Data Warehouse y Data Mining es importante entender este concepto ya que podriacuteamos decir que es una de las

14

principales bases de la Mineriacutea de Datos finalmente el capiacutetulo nos dice lo que en realidad es Data Mining sus objetivos y algunas formas generales de su utilizacioacuten

La forma en queacute trabaja Data Mining el capiacutetulo nuacutemero dos menciona de forma muy general como es que estaacute constituido Data Mining cuaacutel es su arquitectura la forma en que se implementa y las fases que se siguen para una buena implantacioacuten de un proyecto de Data Mining como bien lo hemos mencionado anteriormente este no es un trabajo para describir detalladamente las teacutecnicas de la Mineriacutea de Datos por ello cabe aclarar que este capiacutetulo tiene un enfoque teoacuterico baacutesico

Los dos primeros capiacutetulos nos sirven para entender baacutesicamente cuaacuteles podriacutean ser las aplicaciones de Data Mining el tercer capiacutetulo Aplicaciones de Data Mining nos da varios ejemplos de doacutende y coacutemo puede ser utilizado este proceso y cuaacuteles son sus ventajas en estas aacutereas de aplicacioacuten (principalmente en nivel empresarial)

El capiacutetulo nuacutemero cuatro Extensiones de Data Mining abordamos dos temas complementarios que tambieacuten se utilizan como procesos de Data Mining a saber el Web Mining y el Text Mining Estos temas tambieacuten los podriacuteamos ver como una aplicacioacuten de Data Mining sin embargo los hemos colocado en un capiacutetulo aparte ya que estaacuten considerados como un campo diferente esto es aplicaciones vistas como un meta Data Mining

Finalmente el uacuteltimo capiacutetulo Conclusiones y perspectivas damos nuestras conclusiones y algunos puntos de vista particulares mencionamos cuaacuteles son las oportunidades que existen para trabajar en proyectos de este tipo y queacute es lo que se espera de Data Mining en los proacuteximos antildeos

Hemos incluido tambieacuten un Resumen de todo lo abordado durante nuestro documento que contempla los aspectos maacutes importantes aquiacute tratados En la bibliografiacutea podraacute encontrar las direcciones http de donde se tomaron muchos de los aspectos mencionados en el transcurso de este trabajo cuando coloquemos un nuacutemero por ejemplo [2] al final de un paacuterrafo o cualquier sentencia estamos haciendo referencia al nuacutemero de artiacuteculo de internet mencionado en la bibliografiacutea de donde fue tomado dicho paacuterrafo o sentencia

CAPITULO I

PANORAMA GENERAL DE DATA MINING

En este capiacutetulo abordamos los conceptos fundamentales relacionados con Data Mining que nos ayudaraacuten a tener sobre todo una idea general de eacutel y ademaacutes nos auxiliaraacuten para entender los siguientes capiacutetulos Comenzamos con un ejemplo introductorio en la seccioacuten 11 Ejemplo de un problema asociado a Data Mining donde pretendemos dar a conocer una aplicacioacuten muy simple de Data Mining Continuamos con el apartado 12 Data Warehouse Un paso antes de Data Mining ya que creemos conveniente tener las nociones adecuadas de este tema que se relaciona fuertemente con Data Mining y del cuaacutel haremos mencioacuten en el resto de este trabajo Finalmente en la seccioacuten 13 iquestQueacute es Data Mining explicamos de la forma que creiacutemos uacutetil el concepto real de Data Mining sus objetivos y una forma breve de coacutemo y doacutende se trabaja con eacutel

15

11 Ejemplo de un problema asociado a Data Mining [18]

Para poder generar una idea general del significado y aplicacioacuten de Data Mining consideremos el siguiente problema

Suponga que usted es el gerente de mercadeo para una compantildeiacutea de telefoniacutea celular El problema considera lo siguiente La desercioacuten de clientes es muy alta La produccioacuten(despueacutes de que el contrato expira) es del 40 Los clientes reciben un teleacutefono de regalo con el contrato Usted paga una comisioacuten de ventas por contrato Se le da un teleacutefono nuevo a cada persona cuyo contrato ha expirado lo cual

es muy caro y por ende poco rentable para la compantildeiacutea Traer de regreso a un cliente despueacutes de que se va es difiacutecil y caro

111 Posible solucioacuten al problema de ejemplo

Se debe predecir queacute clientes abandonaraacuten la compantildeiacutea tres meses antes de que el contrato expire

Si queremos conservar a un cliente que creamos abandonaraacute la empresa se le deberiacutea ofrecer un nuevo teleacutefono

No hay que prestarle atencioacuten a los clientes que tienen altas posibilidades de quedarse en la empresa

Si hay clientes que no deseamos conservar simplemente no hacemos nada

Pues bien es muy faacutecil pretender hacer todo lo mencionado antes pero ahora la pregunta es iquestcoacutemo lo hacemos No podemos tomar decisiones a la ligera ni tomar medidas de las cuales estamos seguros que fallaraacuten por ejemplo suena absurdo en cuestiones como eacutestas recurrir a la lectura del Tarot La solucioacuten debe basarse en algo maacutes formal y coherente y una de esas alternativas es Data Mining

112 Solucioacuten del problema ejemplo a traveacutes de Data Mining

La solucioacuten que puede dar Data Mining al ejemplo del problema mencionado en esta seccioacuten considera lo siguiente

Interactuar dinaacutemicamente con el cliente Trabajar hacia delante y no hacia atraacutes Mejorar la calidad de la interaccioacuten iquestEl cliente quiere interactuar

o La liacutenea de ganancias se salva Optimizar el tiempo de interaccioacuten

o Aumentar el valor del cliente constantemente o Aumentar el valor de vida del cliente

En esta seccioacuten hemos visto solo un ejemplo introductoria en las secciones subsecuentes trataremos otros casos e iremos explicando como es que Data Mining ofrece soluciones a problemas de empresas

12 Data Warehouse Un paso antes de Data Mining

16

Antes de dar a conocer claramente lo que significa Data Mining es preciso dejar en claro lo que es un Data Warehouse que en principio lo podemos ver como un concepto que esta antes de Data Mining y es la base de este (aunque no siempre es asiacute) por ello el objetivo de esta seccioacuten es dar una idea general a este concepto no entraremos en muchos detalles pero daremos a conocer lo maacutes relevante para que en las secciones siguientes cuando hablemos de Data Warehouse o Data Warehousing no haya dudas sobre lo que nos estamos refiriendo

Las Bases de Datos (BD) de una empresa utilizan los ordenadores como medio para organizar sus datos de forma que sean comprensibles para las personas Este proceso es conocido como Data Warehousing La comprensioacuten de los datos almacenados es esencial para cualquier organizacioacuten ya que constituye un elemento baacutesico en la toma de decisiones

Un Data Warehouse es un almaceacuten o repositorio de datos categorizados que concentra un gran volumen de informacioacuten de intereacutes para toda una organizacioacuten la cual se distribuye por medio de diversas herramientas de consulta y de creacioacuten de informes orientadas a la toma de decisiones El objetivo del Data Warehouse (DW) es agrupar los datos con el propoacutesito de facilitar su posterior anaacutelisis de forma que sean faacuteciles de acceder y posteriormente analizar informacioacuten sobre la propia empresa A este tipo de datos se les conoce como informativos Los sistemas que manejan estos datos se denominan OLAP (Online Analytical Processing) Existe muchas definiciones formales de DW de distintos autores pero una de las mas famosas puede ser la dada por Inmon en 1992 Un Data Warehouse es una coleccioacuten de datos orientados a temas integrados no-volaacutetiles y variante en el tiempo organizados para soportar necesidades empresariales Los Data Warehouses a menudo almacenan gran cantidad de informacioacuten la cual estaacute a veces subdividida en pequentildeas unidades loacutegicas Perioacutedicamente se importan estos datos de otros sistemas de informacioacuten dentro del Data Warehouse para realizar sobre ellos un procesamiento posterior Un Data Warehouse se diferencia de una Base de Datos operacional de una empresa diremos que un Data Warehouse puede derivarse de la Base de Datos corporativa mediante la importacioacuten de informacioacuten pero el DW no es esa BD operacional[7]

Muchos de los datos de una empresa se utilizan como soporte a los negocios por eso a este tipo de datos se les denomina operacionales Los sistemas usados con el fin de recogerlos reciben el nombre de OLTP (Online Transaction Processing)[10]

Las principales caracteriacutesticas o propiedades de un DW son las siguientes

El DW estaacute orientado a la toma de decisiones Un buen disentildeo de la base de datos favorece el anaacutelisis y la recuperacioacuten de datos para obtener una ventaja estrateacutegica y para facilitar las decisiones de marketing

El DW almacena datos categorizaacutendolos o estructuraacutendolos de forma que favorezcan el anaacutelisis de los datos y puedan proporcionar anaacutelisis histoacutericos

El DW no estaacute orientado a procesos relacionados con la operativa de la empresa es decir que solo esta destinado a funcionar como un almaceacuten de datos

El DW estaacute preparado para ser explotado mediante herramientas especiacuteficas que permiten la extraccioacuten de informacioacuten significativa y patrones de

17

comportamiento que permanecen ocultos en un enorme repositorio de datos Esta explotacioacuten de los datos se suele realizar con herramientas de Data Mining

121 Software para un Data Warehouse[10]

La informacioacuten estrateacutegica se almacena en Gigabytes(tal vez maacutes) de datos de marketing En este caso se necesita software especializado que permita capturar los datos relevantes en forma raacutepida El software no deberiacutea limitarse uacutenicamente al acceso a los datos sino tambieacuten al anaacutelisis significativo de los datos esto es transformar los datos de la informacioacuten cruda o no procesada en informacioacuten uacutetil para la empresa

El software o herramientas de negocios inteligentes se colocan sobre la plataforma Data Warehousing y proveen este servicio Debido a que son el punto principal de contacto entre la aplicacioacuten del depoacutesito y la gente que lo usa estas herramientas pueden constituir la diferencia entre el eacutexito o fracaso de un depoacutesito Las herramientas de negocio inteligentes se han convertido en los sucesores de los sistemas de soporte de decisioacuten pero tienen un alcance maacutes amplio No solamente ayudan en las decisiones de soporte sino en muchos casos estas herramientas soportan muchas funciones operacionales y de misioacuten-criacutetica de la compantildeiacutea Sin embargo estos productos no son infalibles ya que soacutelo se consigue el maacuteximo provecho del Data Warehouse si eligen las herramientas adecuadas a las necesidades de cada usuario final Una de estas herramientas es Data Mining sin embargo hay otras que no mencionaremos ya que se encuentran fuera de los objetivos de este trabajo El proceso de Data Mining extrae los conocimientos guardados o informacioacuten predictiva desde el Data Warehouse sin requerir pedidos o preguntas especiacuteficas Data Mining usa algunas de las teacutecnicas de computacioacuten maacutes avanzadas para generar modelos y asociaciones como redes neurales deteccioacuten de desviacioacuten modelado predictivo y programacioacuten geneacutetica

122 Ventajas y Desventajas del Data Warehouse

La utilizacioacuten de Data Warehouse proporciona una serie de ventajas

Proporciona un gran poder de procesamiento de informacioacuten Permite una mayor flexibilidad y rapidez en el acceso a la informacioacuten Facilita la toma de decisiones en los negocios Las empresas obtienen un aumento de la productividad Proporciona una comunicacioacuten fiable entre todos los departamentos de la

empresa Mejora las relaciones con los proveedores y los clientes Permite conocer queacute estaacute pasando en el negocio es decir estar siempre

enterado de los buenos y malos resultados Transforma los datos en informacioacuten y la informacioacuten en conocimiento Permite hacer planes de forma maacutes efectiva Reduce los tiempos de respuesta y los costes de operacioacuten

Resumiendo el Data Warehouse proporciona una informacioacuten de gestioacuten accesible correcta uniforme y actualizada Proporciona un menor coste en la toma de

18

decisiones una mayor flexibilidad ante el entorno un mejor servicio al cliente y permite el redisentildeo de los procesos

Pero los Data Warehouse tambieacuten tienen algunas desventajas

Requieren una revisioacuten del modelo de datos objetos transacciones y ademaacutes del almacenamiento

Tienen un disentildeo complejo y multidisciplinar Requieren una reestructuracioacuten de los sistemas operacionales Tienen un alto coste Requieren sistemas aplicaciones y almacenamiento especiacutefico

Por uacuteltimo cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versioacuten maacutes reducida de un Data Warehouse a menudo conteniendo informacioacuten especiacutefica de alguacuten departamento como marketing finanzas o mantenimiento de la red Idealmente el Data Marts deberiacutea ser un subconjunto del Data Warehouse a fin de mantener consistencia en las praacutecticas de administracioacuten de datos corporativos y para mantener la seguridad y la integridad de la informacioacuten cruda que se estaacute usando Para las grandes compantildeiacuteas el Data Marts usualmente contiene una docena de gigabytes de datos Ahora podemos continuar y dar una explicacioacuten de lo que en realidad es Data Mining a pesar de que en este apartado hemos dado una definicioacuten de manera somera

13 iquestQueacute es Data Mining[14]

Cada diacutea generamos una gran cantidad de informacioacuten algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos Nos damos cuenta de que generamos informacioacuten cuando registramos nuestra entrada en el trabajo cuando entramos en un servidor para ver nuestro correo cuando pagamos con una tarjeta de creacutedito o cuando reservamos un boleto de avioacuten Otras veces no nos damos cuenta de que generamos informacioacuten como cuando conducimos por una viacutea donde estaacuten contabilizando el nuacutemero de automoacuteviles que pasan por minuto cuando se sigue nuestra navegacioacuten por Internet o cuando nos sacan una fotografiacutea del rostro al haber pasado cerca de una oficina gubernamental iquestCon queacute finalidad queremos generar informacioacuten Son muchos los motivos que nos llevan a generar informacioacuten ya que nos pueden ayudar a controlar optimizar administrar examinar investigar planificar predecir someter negociar o tomar decisiones de cualquier aacutembito seguacuten el dominio en que nos desarrollemos La informacioacuten por siacute misma estaacute considerada un bien patrimonial De esta forma si una empresa tiene una peacuterdida total o parcial de informacioacuten provoca bastantes perjuicios Es evidente que la informacioacuten debe ser protegida pero tambieacuten explotada

iquestQueacute nos ha permitido poder generar tanta informacioacuten En los uacuteltimos antildeos debido al desarrollo tecnoloacutegico a niveles exponenciales tanto en el aacuterea de coacutemputo como en la de transmisioacuten de datos ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacioacuten Sin duda existen cuatro factores importantes que nos han llevado a este suceso

19

1 El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente

2 El incremento de las velocidades de coacutemputo en los procesadores 3 Las mejoras en la confiabilidad y aumento de la velocidad en la transmisioacuten

de datos 4 El desarrollo de sistemas administradores de bases de datos maacutes poderosos

Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacioacuten en las bases de datos Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura ya que soacutelo se guarda (o escribe) en el disco duro pero nunca se hace uso de eacutel Generalmente todas las empresas usan un dato llamado dato-escritura-lectura que utilizan para hacer consultas dirigidas Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-anaacutelisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones Es necesario contar con tecnologiacuteas que nos ayuden a explotar el potencial de este tipo de datos La cantidad de informacioacuten que nos llega cada diacutea es tan inmensa que nos resulta difiacutecil asimilarla Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171769416 sitios donde nos pueden decir algo al respecto Suponiendo que nos tomemos un minuto para ver el contenido de cada paacutegina tardariacuteamos entonces 326 antildeos en visitarlas todas Esto es imposible y por lo tanto existe una clara necesidad de disponer de tecnologiacuteas que nos ayuden en nuestros procesos de buacutesqueda y auacuten maacutes de tecnologiacuteas que nos ayuden a comprender su contenido Como bien sabemos algunos sistemas producen una cantidad inmensa de datos estos datos con frecuencia contienen valiosa informacioacuten que puede resultar muy uacutetil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacioacuten Las dimensiones de las base de datos grandes (montantildeas) y sus velocidades de crecimiento hacen muy difiacutecil para un humano su anaacutelisis y la extraccioacuten de alguna informacioacuten importante (oro) Auacuten con el uso de herramientas estadiacutesticas claacutesicas esta tarea es casi imposible El Data Mining surge como una tecnologiacutea que intenta ayudar a comprender el contenido de una base de datos De forma general los datos son la materia prima bruta en el momento que el usuario les atribuye alguacuten significado especial pasan a convertirse en informacioacuten Cuando los especialistas elaboran o encuentran un modelo haciendo que la interpretacioacuten del confronto entre la informacioacuten y ese modelo represente un valor agregado entonces nos referimos al conocimiento En la figura 11 se ilustra la jerarquiacutea que existe en una base de datos entre dato informacioacuten y conocimiento Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquiacutea El aacuterea interna dentro del triaacutengulo representa los objetivos que se han propuesto La separacioacuten del triaacutengulo representa la estrecha unioacuten entre dato e informacioacuten no asiacute entre la informacioacuten y el conocimiento El Data Mining trabaja en el nivel superior buscando patrones comportamientos agrupaciones secuencias tendencias o asociaciones que puedan generar alguacuten modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisioacuten

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 5: Clase 6 Data Mining

5

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo

puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle

que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data

Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos

del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden

ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo

funciona las observaciones deben mantenerse para los datos excluidos

7) Arquitectura para Data Mining

Para aplicar mejor estas teacutecnicas avanzadas eacutestas deben estar totalmente integradas con el

data warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de

negocios Varias herramientas de Data Mining actualmente operan fuera del warehouse

requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos

conceptos requieren implementacioacuten operacional la integracioacuten con el warehouse

simplifica la aplicacioacuten de los resultados desde Data Mining El Data warehouse analiacutetico

resultante puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en

aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de

nuevos productos etc

El punto de inicio ideal es un data warehouse que contenga una combinacioacuten de datos de

seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la

actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten

provee una excelente base para prospecting Este warehouse puede ser implementado en

una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los

datos flexible y raacutepido

Un server multidimensional OLAP permite que un modelo de negocios maacutes sofisticado

pueda ser aplicado cuando se navega por el data warehouse Las estructuras

multidimensionales permiten que el usuario analice los datos de acuerdo a como quiera

mirar el negocio - resumido por liacutenea de producto u otras perspectivas claves para su

negocio El server de Data Mining debe estar integrado con el data warehouse y el server

OLAP para insertar el anaacutelisis de negocios directamente en esta infraestructura Un

avanzado metadata centrado en procesos define los objetivos del Data Mining para

resultados especiacuteficos tales como manejos de campantildea prospecting y optimizacioacuten de

promociones La integracioacuten con el data warehouse permite que decisiones operacionales

sean implementadas directamente y monitoreadas A medida que el data warehouse crece

con nuevas decisiones y resultados la organizacioacuten puede minar las mejores praacutecticas y

aplicarlas en futuras decisiones

Este disentildeo representa una transferencia fundamental desde los sistemas de soporte de

decisioacuten convencionales Maacutes que simplemente proveer datos a los usuarios finales a traveacutes

de software de consultas y reportes el server de Anaacutelisis Avanzado aplica los modelos de

negocios del usuario directamente al warehouse y devuelve un anaacutelisis proactivo de la

informacioacuten maacutes relevante Estos resultados mejoran los metadatos en el server OLAP

proveyendo una estrato de metadatos que representa una vista fraccionada de los datos

6

Generadores de reportes visualizadores y otras herramientas de anaacutelisis pueden ser

aplicadas para planificar futuras acciones y confirmar el impacto de esos planes

8) Por queacute usar Data Mining

Sin duda alguna que el uso de Data Mining

o Contribuye a la toma de decisiones taacutecticas y estrateacutegicas proporcionando un

sentido automatizado para identificar informacioacuten clave desde voluacutemenes de datos

generados por procesos tradicionales y de e-Business

o Permite a los usuarios dar prioridad a decisiones y acciones mostrando factores que

tienen un mayor en un objetivo queacute segmentos de clientes son desechables y queacute

unidades de negocio son sobrepasados y por queacute

o Proporciona poderes de decisioacuten a los usuarios del negocio que mejor entienden el

problema y el entorno y es capaz de medir la acciones y los resultados de la mejor

forma

o Genera Modelos descriptivos En un contexto de objetivos definidos en los

negocios permite a empresas sin tener en cuenta la industria o el tamantildeo explorar

automaacuteticamente visualizar y comprender los datos e identificar patrones

relaciones y dependencias que impactan en los resultados finales de la cuenta de

resultados (tales como el aumento de los ingresos incremento de los beneficios

contencioacuten de costos y gestioacuten de riesgos)

o Genera Modelos predictivos permite que relaciones no descubiertas e identificadas

a traveacutes del proceso del Data Mining sean expresadas como reglas de negocio o

modelos predictivos Estos outputs pueden comunicarse en formatos tradicionales

(presentaciones informes informacioacuten electroacutenica compartida embebidos en

aplicaciones) para guiar la estrategia y planificacioacuten de la empresa

Mineriacutea de datos

La Mineriacutea de Datos es un conjunto de teacutecnicas para la induccioacuten de conocimiento

uacutetil a partir de masas ingentes de datos Tiene por lo tanto un solapamiento importante con

otras disciplinas como la estadiacutestica tradicional el reconocimiento de patrones la

inteligencia artificial etc Se la suele distinguir de ellas por el campo de aplicacioacuten se suele

aceptar que la mineriacutea de datos estudia informacioacuten acumulada en empresas y otras

organizaciones acerca de sus clientes usuarios etc y las interacciones de eacutestos con

aqueacutellas de manera que el conocimiento que pueda extraerse de ella sirva para mejorar la

rentabilidad el nivel de servicio redefinir estrategias de maacuterketing etc

Tradicionalmente las teacutecnicas de mineriacutea de datos se aplicaban sobre informacioacuten

contenida en almacenes de datos De hecho muchas grandes empresas e instituciones han

creado y alimentan bases de datos especialmente disentildeadas para proyectos de mineriacutea de

7

datos en las que centralizan informacioacuten potencialmente uacutetil de todas sus aacutereas de negocio

etc No obstante actualmente estaacute cobrando una importancia cada vez mayor la mineriacutea de

datos desestructurados como informacioacuten contenida en ficheros de texto en internet etc

Tabla de contenidos

1 Ejemplos de uso de la mineriacutea de datos

2 Mineriacutea de datos y otras disciplinas anaacutelogas

3 Protocolo de un proyecto de mineriacutea de datos

4 Tendencias

5 Enlaces externos

6 Veacutease tambieacuten

1- Ejemplos de uso de la mineriacutea de datos

El ejemplo claacutesico mdashaparte de algo rancio y posiblemente apoacutecrifomdash de

aplicacioacuten de la mineriacutea de datos tiene que ver con la deteccioacuten de haacutebitos de compra en

supermercados Un estudio muy citado detectoacute que los viernes habiacutea una cantidad

inusualmente elevada de clientes que adquiriacutean a la vez pantildeales y cerveza Se detectoacute que

se debiacutea a que dicho diacutea soliacutean acudir al supermercado padres joacutevenes cuya perspectiva

para el fin de semana consistiacutea en quedarse en casa cuidando de su hijo y viendo la

televisioacuten con una cerveza en la mano El supermercado pudo incrementar sus ventas de

cerveza colocaacutendolas proacuteximas a los pantildeales para fomentar las ventas compulsivas pero un

ejemplo maacutes habitual es el de la deteccioacuten de patrones de fuga En muchas industrias mdash

como la banca las telecomunicaciones etcmdash existe un comprensible intereacutes en detectar

cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para

posiblemente pasarse a la competencia A estos clientes mdashy en funcioacuten de su valormdash se

les podriacutean hacer ofertas personalizadas ofrecer promociones especiales etc con el

objetivo uacuteltimo de retenerlos La mineriacutea de datos ayuda a determinar queacute clientes son los

maacutes proclives a darse de baja estudiando sus patrones de comportamiento y comparaacutendolos

con muestras de clientes que efectivamente se dieron de baja en el pasado

Un caso anaacutelogo es el de la deteccioacuten de transacciones de blanqueo de dinero o de fraude

en el uso de tarjetas de creacutedito o de servicios de telefoniacutea moacutevil e incluso en la relacioacuten de

los contribuyentes con el fisco Generalmente estas operaciones fraudulentas o ilegales

suelen seguir patrones caracteriacutesticos que permiten con cierto grado de probabilidad

distinguirlas de las legiacutetimas y desarrollar asiacute mecanismos para tomar medidas raacutepidas

frente a ellas

Tambieacuten es un aacuterea en boga el del anaacutelisis del comportamiento de los visitantes mdashsobre

todo cuando son clientes potencialesmdash en una paacutegina de internet O la utilizacioacuten de la

informacioacuten mdashobtenida por medios maacutes o menos legiacutetimosmdash sobre ellos para ofrecerles

propaganda adaptada especiacuteficamente a su perfil O para una vez que adquieren un

determinado producto saber inmediatamente queacute otro ofrecerle teniendo en cuenta la

informacioacuten histoacuterica disponible acerca de los clientes que han comprado el primero

Mineriacutea de datos y otras disciplinas anaacutelogas

Suscita cierta poleacutemica el definir las fronteras existentes entre la mineriacutea de datos y

disciplinas anaacutelogas como pueden serlo la estadiacutestica la inteligencia artificial etc Hay

quienes sostienen que la mineriacutea de datos no es sino estadiacutestica envuelta en una jerga de

8

negocios que la conviertan en un producto vendible Otros en cambio encuentran en ella

una serie de problemas y meacutetodos especiacuteficos que la hacen distinta de otras disciplinas

El hecho es que la praacutectica totalidad de los modelos y algoritmos de uso general en mineriacutea

de datos mdashredes neuronales aacuterboles de regresioacuten y clasificacioacuten modelos logiacutesticos

anaacutelisis de componentes principales etcmdash gozan de una tradicioacuten relativamente larga en

otros campos

Fases de un proyecto de mineriacutea de datos

Un proyecto de mineriacutea de datos tiene varias fases necesarias que son esencialmente

Comprensioacuten del negocio y del problema que se quiere resolver

Determinacioacuten obtencioacuten y limpieza de los datos necesarios

Creacioacuten de modelos matemaacuteticos

Validacioacuten comunicacioacuten etc de los resultados obtenidos

Integracioacuten si procede de los resultados en un sistema transaccional o similar

La relacioacuten entre todas estas fases soacutelo es lineal sobre el papel En realidad es mucho maacutes

compleja y esconde toda una jerarquiacutea de subfases A traveacutes de la experiencia acumulada

en proyectos de mineriacutea de datos se han ido desarrollando metodologiacuteas que permiten

gestionar esta complejidad de una manera maacutes o menos uniforme Ejemplos de ellas son

CRISP-DM y SEMMA

Fases de un Proyecto de Mineriacutea de Datos

Los pasos a seguir para la realizacioacuten de un proyecto de mineriacutea de datos son siempre los

mismos independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento

utilizada

El proceso de mineriacutea de datos pasa por las siguientes fases

1- Filtrado de datos

2- Seleccioacuten de Variables

3- Extraccioacuten de Conocimiento

4- Interpretacioacuten y Evaluacioacuten

Si desea obtener una descripcioacuten maacutes detallada puede consultar la documentacioacuten de

CRISP-DM CRISP-DM (CRoss Industry Standard Process for Data Mining) es un

estaacutendar industrial utilizado por maacutes de 160 empresas e instituciones de todo el mundo que

surge en respuesta a la falta de estandarizacioacuten y propone un modelo de proceso general

para proyectos de mineriacutea de datos

Neutral respecto a industria y herramientas

Aplicable en cualquier sector de negocio

9

Fases de un proyecto de Mineriacutea de Datos

1- Filtrado de datos

El formato de los datos contenidos en la fuente de datos (base de datos Data Warehouse)

nunca es el idoacuteneo y la mayoriacutea de las veces no es posible ni siquiera utilizar ninguacuten

algoritmo de mineriacutea sobre los datos en bruto

Mediante el preprocesado se filtran los datos (de forma que se eliminan valores

incorrectos no vaacutelidos desconocidos seguacuten las necesidades y el algoritmo a usar) se

obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del

proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo clustering)

2- Seleccioacuten de variables

Auacuten despueacutes de haber sido preprocesados en la mayoriacutea de los casos se tiene una cantidad

ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las

variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de

conocimiento obtenido del proceso de mineriacutea

Los meacutetodos para la seleccioacuten de caracteriacutesticas son baacutesicamente dos

Aquellos basados en la eleccioacuten de los mejores atributos del problema

Y aquellos que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

3- Algoritmos de Extraccioacuten de Conocimiento

Mediante una teacutecnica de mineriacutea de datos se obtiene un modelo de conocimiento que

representa patrones de comportamiento observados en los valores de las variables del

problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias

teacutecnicas a la vez para generar distintos modelos aunque generalmente cada teacutecnica obliga a

un preprocesado diferente de los datos

4- Interpretacioacuten y evaluacioacuten

Una vez obtenido el modelo se debe proceder a su validacioacuten comprobando que las

conclusiones que arroja son vaacutelidas y suficientemente satisfactorias En el caso de haber

obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los

modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos

alcanza los resultados esperados debe alterarse alguno de los pasos anteriores para generar

nuevos modelos

Tendencias

La mineriacutea de datos ha sufrido transformaciones en los uacuteltimos antildeos de acuerdo con

cambios tecnoloacutegicos de estrategias de maacuterketing la extensioacuten de los modelos de compra

en liacutenea etc Los maacutes importantes de ellos son

La importancia que han cobrado los datos no estructurados (texto paacuteginas de internet etc)

La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales

portales de internet etc

La exigencia de que los procesos funcionen praacutecticamente en liacutenea (por ejemplo que frente

a un fraude con una tarjeta de creacutedito eacutesta pueda ser cancelada casi al instante)

10

Principios de Data Mining

1 Resumen

2 Introduccioacuten

3 Panorama general de data mining

4 La forma en que se trabaja con Data Mining

5 Aplicaciones de Data Mining

6 Extensiones de Data Mining

7 Conclusiones y perspectivas

8 Referencias

RESUMEN

En los uacuteltimos antildeos ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos debido baacutesicamente al gran poder de procesamiento de las maacutequinas como a su bajo costo de almacenamiento Sin embargo dentro de estas enormes masas de datos existe una gran cantidad de informacioacuten oculta de gran importancia estrateacutegica a la que no se puede acceder por las teacutecnicas claacutesicas de recuperacioacuten de la informacioacuten El descubrimiento de esta informacioacuten oculta es posible gracias a la Mineriacutea de Datos (Data Mining) que entre otras sofisticadas teacutecnicas aplica la inteligencia

artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creacioacuten de modelos es decir representaciones abstractas de la realidad pero es el descubrimiento del conocimiento (KDD por sus siglas en ingleacutes) que se encarga de la preparacioacuten de los datos y la interpretacioacuten de los resultados obtenidos los cuales dan un significado a estos patrones encontrados Asiacute el valor real de los datos reside en la informacioacuten que se puede extraer de ellos informacioacuten que ayude a tomar decisiones o mejorar nuestra comprensioacuten de los fenoacutemenos que nos rodean Hoy maacutes que nunca los meacutetodos analiacuteticos avanzados son el arma secreta de muchos negocios exitosos Empleando meacutetodos analiacuteticos avanzados para la explotacioacuten de datos los negocios incrementan sus ganancias maximizan la eficiencia operativa reducen costos y mejoran la satisfaccioacuten del cliente El presente trabajo enfatiza el uso del Data Mining para el descubrimiento del conocimiento y su uso predominante en nivel empresarial a fin de contribuir en la toma de decisiones taacutecticas y estrateacutegicas en una organizacioacuten proporcionando un sentido automatizado para la generacioacuten de conocimiento Vimos cual es la relacioacuten entre Data Mining y un Data Warehouse conocimos lo maacutes relevante sobre el proceso de Data Warehousing y como esta inmerso el Data Mining sobre su arquitectura Asiacute mismo presentamos algunas fases generales y otras un poco maacutes especiacuteficas sobre como implementar un proyecto Data Mining Tambieacuten conocimos cuales son las diferencias entre Data Mining y los procesos de estadiacutestica a pesar de que son ramas con notables diferencias ambas pueden complementarse en sus procesos de toma de decisiones y presentacioacuten de resultados

11

Se incluyeron aplicaciones de Data Mining en varias aacutereas ademaacutes de la empresarial y se da a conocer de forma muy general el alcance que tiene el utilizar un proceso de este tipo Ademaacutes hablamos de algunas herramientas de distribucioacuten libre y algunas comerciales que son empleadas para emprender proyectos de Data Mining Conocimos dos extensiones de Data Mining Web Mining y Text Mining finalmente dimos algunos puntos de vista comentarios y opiniones sobre lo que es Data Mining y lo que se espera de esta tecnologiacutea en los proacuteximos antildeos

INTRODUCCIOacuteN

Desde eacutepocas remotas la humanidad se ha preocupado por la creacioacuten de bienes con el miacutenimo de recursos Distintos pueblos y en distintos periacuteodos se practicaban la previsioacuten planeacioacuten y organizacioacuten de grupos para ejercitar diversas actividades (entre ellas la pesca agricultura el comercio la guerra etc) En antildeos maacutes recientes durante la revolucioacuten industrial se pusieron en praacutectica ideas que sirvieron para la creacioacuten de la administracioacuten ya que durante ese tiempo se pensoacute en la manera de producir maacutes con menos recursos A partir de ese momento precursores e idealistas fueron sentando las bases para la creacioacuten de la administracioacuten convirtieacutendola en una ciencia La humanidad ha utilizado varias formas para llevar a cabo transacciones de los bienes tal es el caso de los antiguos pueblos al utilizar monedas de metal con diferentes insignias descripciones y denominaciones para el intercambio de artiacuteculos o servicios Todo esto nos lleva a decir que es necesario conocer las herramientas y hacer buen uso de ellas para que una empresa pueda evaluar planes decisiones poliacuteticas procedimientos y en general todo lo concerniente a ella entre estas herramientas podemos hablar de herramientas contables financieras matemaacuteticas economiacutea y de informacioacuten El mundo experimenta cambios fundamentales Los continuos avances en tecnologiacutea de computadoras y comunicaciones tienen un fuerte impacto sobre la forma en que las personas trabajan La tecnologiacutea y las expectativas de las personas que la utilizan estaacuten modificando gradualmente las caracteriacutesticas de los sistemas de

informacioacuten Actualmente la economiacutea de muchas empresas y paiacuteses estaacute basada en la informacioacuten maacutes en la tecnologiacutea de sistemas de informacioacuten que sobre las maacutequinas y productos no relacionados con ella El desarrollo de los sistemas de informacioacuten juega en este tiempo un papel muy valioso dentro de las organizaciones En la era industrial lo maacutes importante era el uso del capital y recursos tangibles para generar nuevos productos Actualmente los recursos baacutesicos son las ideas y el uso de informacioacuten El empleo estrateacutegico de la informacioacuten continuaraacute creando en todas las empresas y organizaciones nuevas oportunidades[13] Para desarrollar un sistema de informacioacuten se necesita tecnologiacutea y gente desde los usuarios de la informacioacuten pasando por los operadores capturistas de datos y analistas de sistemas hasta llegar a los niveles directivos de toda la organizacioacuten Los primeros programadores de computadoras desarrollaban aplicaciones que satisfaciacutean vagamente los requerimientos de informacioacuten de los usuarios finales Ahora gracias a las herramientas de hardware y software con las que se cuenta es mucho maacutes faacutecil obtener la informacioacuten necesaria y a tiempo Una de estas herramientas son los Sistemas Administradores de Bases de Datos(DBMS por sus

12

siglas en ingleacutes) pero vayamos maacutes haya iquestqueacute sucederiacutea si adoptamos herramientas o teacutecnicas de bases de datos que nos digan queacute hacer seguacuten las informacioacuten que ellas presentan esto nos conduce a hablar de Data Mining o Mineriacutea de Datos Mientras que la innovacioacuten y la originalidad son habilidades fundamentales para la supervivencia de las empresas su eacutexito y prosperidad depende tambieacuten de decisiones eficientes y competitivas que deben ser tomadas en cortos intervalos de tiempo Para tomar decisiones es fundamental contar con informacioacuten de calidad Hoy en diacutea el nivel gerencial cuenta con una eficaz herramienta para lograr ese objetivo las teacutecnicas de Data Mining Con respecto a los nuevos usos de las bases de datos el Data Mining aparece como uno de los maacutes prometedores unido y fuertemente relacionado con los problemas asociados a los grandes almacenes de datos llamados Data Warehouses La relacioacuten entre el costo de los ordenadores y la atencioacuten humana ha cambiado sustancialmente El recurso maacutes precioso es el factor humano y los ordenadores deben potenciarlo Esto plantea una nueva filosofiacutea de acceso a la informacioacuten donde los ordenadores deben analizar los datos resumirlos organizarlos y resolver cuestiones mucho maacutes complejas que las actuales ofreciendo al usuario la informacioacuten que realmente le interesa Este proceso como se veraacute a lo largo de este trabajo esta muy ligado a cuestiones de Data Mining y Data Warehause Por el momento solo diremos que Data Mining es la integracioacuten de un conjunto de aacutereas que tienen como propoacutesito la identificacioacuten de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisiones en el transcurso de este trabajo detallaremos esto y seraacute de una forma maacutes comprensible Las teacutecnicas de Data Mining son el resultado de un largo proceso de investigacioacuten y desarrollo de productos Esta evolucioacuten comenzoacute cuando los datos de negocios fueron almacenados por primera vez en computadoras y continuoacute con mejoras en el acceso a los datos y maacutes recientemente con tecnologiacuteas generadas para permitir a los usuarios navegar a traveacutes de los datos en tiempo real Data Mining toma este proceso de evolucioacuten maacutes allaacute del acceso y navegacioacuten retrospectiva de los datos hacia la entrega de informacioacuten prospectiva y proactiva Data Mining estaacute listo para su aplicacioacuten en la comunidad de negocios porque estaacute soportado por tres tecnologiacuteas que ya estaacuten suficientemente maduras

Recoleccioacuten masiva de datos Potentes computadoras con multiprocesadores Algoritmos de Data Mining

Las bases de datos comerciales estaacuten creciendo a un ritmo sin precedentes Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontroacute que el 19 de los que contestaron estaacuten por encima del nivel de los 50 Gigabytes En algunas industrias tales como ventas al por menor (retail) estos nuacutemeros pueden ser auacuten mayores MCI Telecommunications Corp cuenta con una base de datos de 3 terabytes + 1 terabyte de iacutendices y overhead corriendo en MVS sobre IBM SP2 La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma maacutes costo-efectiva con tecnologiacutea de computadoras con multiprocesamiento paralelo Los algoritmos de Data Mining

13

utilizan teacutecnicas que han existido por lo menos desde hace 10 antildeos pero que soacutelo han sido implementadas recientemente como herramientas maduras confiables entendibles que consistentemente son maacutes performantes que meacutetodos estadiacutesticos claacutesicos En la evolucioacuten desde los datos de negocios a informacioacuten de negocios cada nuevo paso se basa en el previo Por ejemplo el acceso a datos dinaacutemicos es criacutetico para las aplicaciones de navegacioacuten de datos (drill through applications) y la habilidad para almacenar grandes bases de datos es criacutetica para Data Mining Los componentes esenciales de la tecnologiacutea de Data Mining han estado bajo desarrollo por deacutecadas en aacutereas de investigacioacuten como estadiacutesticas inteligencia artificial y aprendizaje de maacutequinas Hoy la madurez de estas teacutecnicas junto con los motores de bases de datos relacionales de alta performance hicieron que estas tecnologiacuteas fueran praacutecticas para los entornos de Data Warehouse actuales La idea de Data Mining no es nueva Desde los antildeos sesenta los estadiacutesticos manejaban teacuterminos como Data Fishing Data Mining o Data Archaeology con la idea de encontrar correlaciones sin una hipoacutetesis previa en bases de datos con ruido A principios de los antildeos ochenta Rakesh Agrawal Gio Wiederhold Robert Blum y Gregory Piatetsky-Shapiro entre otros empezaron a consolidar los teacuterminos de Data Mining y KDD (Knowledge Discovery in Databases Descubrimiento de Conocimiento en Bases de Datos) A finales de los antildeos ochenta soacutelo existiacutean un par de empresas dedicadas a esta tecnologiacutea en 2002 ya habiacutea maacutes de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones Las listas de discusioacuten sobre este tema las forman investigadores de maacutes de ochenta paiacuteses Esta tecnologiacutea ha sido un buen punto de encuentro entre personas pertenecientes al aacutembito acadeacutemico y al de los negocios[20] El presente trabajo tiene como finalidad dar a conocer una perspectiva general acerca de todo lo referente a la teoriacutea de Data Mining existen teacutecnicas de implantacioacuten de Data Mining algoritmos reglas etc de las cuales no daremos mayor detalle ya que no se encuentran como un objetivo de este documento solo se mencionaraacuten como la base teoacuterica de la Mineriacutea de Datos Lo que siacute perseguimos de manera especiacutefica es dejar en claro queacute es el concepto de Data Mining sus expectativas o finalidades dar a conocer sus cimientos y a queacute nos llevan todos ellos sus posibles aplicaciones y coacutemo se esta usando actualmente en algunas aacutereas principalmente en el nivel empresarial Aquiacute cabe mencionar que Data Mining es un proceso utilizado frecuentemente en macro empresas sin embargo tambieacuten es utilizado en las llamadas Pymes (Pequentildeas Y Medianas EmpresaS) y ademaacutes a nivel cientiacutefico aunque con menor frecuencia es por ello que nos hemos enfocado sobre todo a la utilizacioacuten de dicho proceso en las empresas grandes y coacutemo es que funciona en ellas auacuten asiacute creiacutemos conveniente introducir algunos ejemplos de su uso en otros entornos El primer capiacutetulo Panorama general de Data Mining comienza con un ejemplo introductorio para dar una idea general del por queacute es necesario utilizar Data Mining en ciertos casos esto nos lleva a dar un paso previo antes de conocer exactamente queacute es Data Mining Data Warehouse un paso antes de Data Mining nos menciona queacute relacioacuten hay entre Data Warehouse y Data Mining es importante entender este concepto ya que podriacuteamos decir que es una de las

14

principales bases de la Mineriacutea de Datos finalmente el capiacutetulo nos dice lo que en realidad es Data Mining sus objetivos y algunas formas generales de su utilizacioacuten

La forma en queacute trabaja Data Mining el capiacutetulo nuacutemero dos menciona de forma muy general como es que estaacute constituido Data Mining cuaacutel es su arquitectura la forma en que se implementa y las fases que se siguen para una buena implantacioacuten de un proyecto de Data Mining como bien lo hemos mencionado anteriormente este no es un trabajo para describir detalladamente las teacutecnicas de la Mineriacutea de Datos por ello cabe aclarar que este capiacutetulo tiene un enfoque teoacuterico baacutesico

Los dos primeros capiacutetulos nos sirven para entender baacutesicamente cuaacuteles podriacutean ser las aplicaciones de Data Mining el tercer capiacutetulo Aplicaciones de Data Mining nos da varios ejemplos de doacutende y coacutemo puede ser utilizado este proceso y cuaacuteles son sus ventajas en estas aacutereas de aplicacioacuten (principalmente en nivel empresarial)

El capiacutetulo nuacutemero cuatro Extensiones de Data Mining abordamos dos temas complementarios que tambieacuten se utilizan como procesos de Data Mining a saber el Web Mining y el Text Mining Estos temas tambieacuten los podriacuteamos ver como una aplicacioacuten de Data Mining sin embargo los hemos colocado en un capiacutetulo aparte ya que estaacuten considerados como un campo diferente esto es aplicaciones vistas como un meta Data Mining

Finalmente el uacuteltimo capiacutetulo Conclusiones y perspectivas damos nuestras conclusiones y algunos puntos de vista particulares mencionamos cuaacuteles son las oportunidades que existen para trabajar en proyectos de este tipo y queacute es lo que se espera de Data Mining en los proacuteximos antildeos

Hemos incluido tambieacuten un Resumen de todo lo abordado durante nuestro documento que contempla los aspectos maacutes importantes aquiacute tratados En la bibliografiacutea podraacute encontrar las direcciones http de donde se tomaron muchos de los aspectos mencionados en el transcurso de este trabajo cuando coloquemos un nuacutemero por ejemplo [2] al final de un paacuterrafo o cualquier sentencia estamos haciendo referencia al nuacutemero de artiacuteculo de internet mencionado en la bibliografiacutea de donde fue tomado dicho paacuterrafo o sentencia

CAPITULO I

PANORAMA GENERAL DE DATA MINING

En este capiacutetulo abordamos los conceptos fundamentales relacionados con Data Mining que nos ayudaraacuten a tener sobre todo una idea general de eacutel y ademaacutes nos auxiliaraacuten para entender los siguientes capiacutetulos Comenzamos con un ejemplo introductorio en la seccioacuten 11 Ejemplo de un problema asociado a Data Mining donde pretendemos dar a conocer una aplicacioacuten muy simple de Data Mining Continuamos con el apartado 12 Data Warehouse Un paso antes de Data Mining ya que creemos conveniente tener las nociones adecuadas de este tema que se relaciona fuertemente con Data Mining y del cuaacutel haremos mencioacuten en el resto de este trabajo Finalmente en la seccioacuten 13 iquestQueacute es Data Mining explicamos de la forma que creiacutemos uacutetil el concepto real de Data Mining sus objetivos y una forma breve de coacutemo y doacutende se trabaja con eacutel

15

11 Ejemplo de un problema asociado a Data Mining [18]

Para poder generar una idea general del significado y aplicacioacuten de Data Mining consideremos el siguiente problema

Suponga que usted es el gerente de mercadeo para una compantildeiacutea de telefoniacutea celular El problema considera lo siguiente La desercioacuten de clientes es muy alta La produccioacuten(despueacutes de que el contrato expira) es del 40 Los clientes reciben un teleacutefono de regalo con el contrato Usted paga una comisioacuten de ventas por contrato Se le da un teleacutefono nuevo a cada persona cuyo contrato ha expirado lo cual

es muy caro y por ende poco rentable para la compantildeiacutea Traer de regreso a un cliente despueacutes de que se va es difiacutecil y caro

111 Posible solucioacuten al problema de ejemplo

Se debe predecir queacute clientes abandonaraacuten la compantildeiacutea tres meses antes de que el contrato expire

Si queremos conservar a un cliente que creamos abandonaraacute la empresa se le deberiacutea ofrecer un nuevo teleacutefono

No hay que prestarle atencioacuten a los clientes que tienen altas posibilidades de quedarse en la empresa

Si hay clientes que no deseamos conservar simplemente no hacemos nada

Pues bien es muy faacutecil pretender hacer todo lo mencionado antes pero ahora la pregunta es iquestcoacutemo lo hacemos No podemos tomar decisiones a la ligera ni tomar medidas de las cuales estamos seguros que fallaraacuten por ejemplo suena absurdo en cuestiones como eacutestas recurrir a la lectura del Tarot La solucioacuten debe basarse en algo maacutes formal y coherente y una de esas alternativas es Data Mining

112 Solucioacuten del problema ejemplo a traveacutes de Data Mining

La solucioacuten que puede dar Data Mining al ejemplo del problema mencionado en esta seccioacuten considera lo siguiente

Interactuar dinaacutemicamente con el cliente Trabajar hacia delante y no hacia atraacutes Mejorar la calidad de la interaccioacuten iquestEl cliente quiere interactuar

o La liacutenea de ganancias se salva Optimizar el tiempo de interaccioacuten

o Aumentar el valor del cliente constantemente o Aumentar el valor de vida del cliente

En esta seccioacuten hemos visto solo un ejemplo introductoria en las secciones subsecuentes trataremos otros casos e iremos explicando como es que Data Mining ofrece soluciones a problemas de empresas

12 Data Warehouse Un paso antes de Data Mining

16

Antes de dar a conocer claramente lo que significa Data Mining es preciso dejar en claro lo que es un Data Warehouse que en principio lo podemos ver como un concepto que esta antes de Data Mining y es la base de este (aunque no siempre es asiacute) por ello el objetivo de esta seccioacuten es dar una idea general a este concepto no entraremos en muchos detalles pero daremos a conocer lo maacutes relevante para que en las secciones siguientes cuando hablemos de Data Warehouse o Data Warehousing no haya dudas sobre lo que nos estamos refiriendo

Las Bases de Datos (BD) de una empresa utilizan los ordenadores como medio para organizar sus datos de forma que sean comprensibles para las personas Este proceso es conocido como Data Warehousing La comprensioacuten de los datos almacenados es esencial para cualquier organizacioacuten ya que constituye un elemento baacutesico en la toma de decisiones

Un Data Warehouse es un almaceacuten o repositorio de datos categorizados que concentra un gran volumen de informacioacuten de intereacutes para toda una organizacioacuten la cual se distribuye por medio de diversas herramientas de consulta y de creacioacuten de informes orientadas a la toma de decisiones El objetivo del Data Warehouse (DW) es agrupar los datos con el propoacutesito de facilitar su posterior anaacutelisis de forma que sean faacuteciles de acceder y posteriormente analizar informacioacuten sobre la propia empresa A este tipo de datos se les conoce como informativos Los sistemas que manejan estos datos se denominan OLAP (Online Analytical Processing) Existe muchas definiciones formales de DW de distintos autores pero una de las mas famosas puede ser la dada por Inmon en 1992 Un Data Warehouse es una coleccioacuten de datos orientados a temas integrados no-volaacutetiles y variante en el tiempo organizados para soportar necesidades empresariales Los Data Warehouses a menudo almacenan gran cantidad de informacioacuten la cual estaacute a veces subdividida en pequentildeas unidades loacutegicas Perioacutedicamente se importan estos datos de otros sistemas de informacioacuten dentro del Data Warehouse para realizar sobre ellos un procesamiento posterior Un Data Warehouse se diferencia de una Base de Datos operacional de una empresa diremos que un Data Warehouse puede derivarse de la Base de Datos corporativa mediante la importacioacuten de informacioacuten pero el DW no es esa BD operacional[7]

Muchos de los datos de una empresa se utilizan como soporte a los negocios por eso a este tipo de datos se les denomina operacionales Los sistemas usados con el fin de recogerlos reciben el nombre de OLTP (Online Transaction Processing)[10]

Las principales caracteriacutesticas o propiedades de un DW son las siguientes

El DW estaacute orientado a la toma de decisiones Un buen disentildeo de la base de datos favorece el anaacutelisis y la recuperacioacuten de datos para obtener una ventaja estrateacutegica y para facilitar las decisiones de marketing

El DW almacena datos categorizaacutendolos o estructuraacutendolos de forma que favorezcan el anaacutelisis de los datos y puedan proporcionar anaacutelisis histoacutericos

El DW no estaacute orientado a procesos relacionados con la operativa de la empresa es decir que solo esta destinado a funcionar como un almaceacuten de datos

El DW estaacute preparado para ser explotado mediante herramientas especiacuteficas que permiten la extraccioacuten de informacioacuten significativa y patrones de

17

comportamiento que permanecen ocultos en un enorme repositorio de datos Esta explotacioacuten de los datos se suele realizar con herramientas de Data Mining

121 Software para un Data Warehouse[10]

La informacioacuten estrateacutegica se almacena en Gigabytes(tal vez maacutes) de datos de marketing En este caso se necesita software especializado que permita capturar los datos relevantes en forma raacutepida El software no deberiacutea limitarse uacutenicamente al acceso a los datos sino tambieacuten al anaacutelisis significativo de los datos esto es transformar los datos de la informacioacuten cruda o no procesada en informacioacuten uacutetil para la empresa

El software o herramientas de negocios inteligentes se colocan sobre la plataforma Data Warehousing y proveen este servicio Debido a que son el punto principal de contacto entre la aplicacioacuten del depoacutesito y la gente que lo usa estas herramientas pueden constituir la diferencia entre el eacutexito o fracaso de un depoacutesito Las herramientas de negocio inteligentes se han convertido en los sucesores de los sistemas de soporte de decisioacuten pero tienen un alcance maacutes amplio No solamente ayudan en las decisiones de soporte sino en muchos casos estas herramientas soportan muchas funciones operacionales y de misioacuten-criacutetica de la compantildeiacutea Sin embargo estos productos no son infalibles ya que soacutelo se consigue el maacuteximo provecho del Data Warehouse si eligen las herramientas adecuadas a las necesidades de cada usuario final Una de estas herramientas es Data Mining sin embargo hay otras que no mencionaremos ya que se encuentran fuera de los objetivos de este trabajo El proceso de Data Mining extrae los conocimientos guardados o informacioacuten predictiva desde el Data Warehouse sin requerir pedidos o preguntas especiacuteficas Data Mining usa algunas de las teacutecnicas de computacioacuten maacutes avanzadas para generar modelos y asociaciones como redes neurales deteccioacuten de desviacioacuten modelado predictivo y programacioacuten geneacutetica

122 Ventajas y Desventajas del Data Warehouse

La utilizacioacuten de Data Warehouse proporciona una serie de ventajas

Proporciona un gran poder de procesamiento de informacioacuten Permite una mayor flexibilidad y rapidez en el acceso a la informacioacuten Facilita la toma de decisiones en los negocios Las empresas obtienen un aumento de la productividad Proporciona una comunicacioacuten fiable entre todos los departamentos de la

empresa Mejora las relaciones con los proveedores y los clientes Permite conocer queacute estaacute pasando en el negocio es decir estar siempre

enterado de los buenos y malos resultados Transforma los datos en informacioacuten y la informacioacuten en conocimiento Permite hacer planes de forma maacutes efectiva Reduce los tiempos de respuesta y los costes de operacioacuten

Resumiendo el Data Warehouse proporciona una informacioacuten de gestioacuten accesible correcta uniforme y actualizada Proporciona un menor coste en la toma de

18

decisiones una mayor flexibilidad ante el entorno un mejor servicio al cliente y permite el redisentildeo de los procesos

Pero los Data Warehouse tambieacuten tienen algunas desventajas

Requieren una revisioacuten del modelo de datos objetos transacciones y ademaacutes del almacenamiento

Tienen un disentildeo complejo y multidisciplinar Requieren una reestructuracioacuten de los sistemas operacionales Tienen un alto coste Requieren sistemas aplicaciones y almacenamiento especiacutefico

Por uacuteltimo cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versioacuten maacutes reducida de un Data Warehouse a menudo conteniendo informacioacuten especiacutefica de alguacuten departamento como marketing finanzas o mantenimiento de la red Idealmente el Data Marts deberiacutea ser un subconjunto del Data Warehouse a fin de mantener consistencia en las praacutecticas de administracioacuten de datos corporativos y para mantener la seguridad y la integridad de la informacioacuten cruda que se estaacute usando Para las grandes compantildeiacuteas el Data Marts usualmente contiene una docena de gigabytes de datos Ahora podemos continuar y dar una explicacioacuten de lo que en realidad es Data Mining a pesar de que en este apartado hemos dado una definicioacuten de manera somera

13 iquestQueacute es Data Mining[14]

Cada diacutea generamos una gran cantidad de informacioacuten algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos Nos damos cuenta de que generamos informacioacuten cuando registramos nuestra entrada en el trabajo cuando entramos en un servidor para ver nuestro correo cuando pagamos con una tarjeta de creacutedito o cuando reservamos un boleto de avioacuten Otras veces no nos damos cuenta de que generamos informacioacuten como cuando conducimos por una viacutea donde estaacuten contabilizando el nuacutemero de automoacuteviles que pasan por minuto cuando se sigue nuestra navegacioacuten por Internet o cuando nos sacan una fotografiacutea del rostro al haber pasado cerca de una oficina gubernamental iquestCon queacute finalidad queremos generar informacioacuten Son muchos los motivos que nos llevan a generar informacioacuten ya que nos pueden ayudar a controlar optimizar administrar examinar investigar planificar predecir someter negociar o tomar decisiones de cualquier aacutembito seguacuten el dominio en que nos desarrollemos La informacioacuten por siacute misma estaacute considerada un bien patrimonial De esta forma si una empresa tiene una peacuterdida total o parcial de informacioacuten provoca bastantes perjuicios Es evidente que la informacioacuten debe ser protegida pero tambieacuten explotada

iquestQueacute nos ha permitido poder generar tanta informacioacuten En los uacuteltimos antildeos debido al desarrollo tecnoloacutegico a niveles exponenciales tanto en el aacuterea de coacutemputo como en la de transmisioacuten de datos ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacioacuten Sin duda existen cuatro factores importantes que nos han llevado a este suceso

19

1 El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente

2 El incremento de las velocidades de coacutemputo en los procesadores 3 Las mejoras en la confiabilidad y aumento de la velocidad en la transmisioacuten

de datos 4 El desarrollo de sistemas administradores de bases de datos maacutes poderosos

Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacioacuten en las bases de datos Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura ya que soacutelo se guarda (o escribe) en el disco duro pero nunca se hace uso de eacutel Generalmente todas las empresas usan un dato llamado dato-escritura-lectura que utilizan para hacer consultas dirigidas Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-anaacutelisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones Es necesario contar con tecnologiacuteas que nos ayuden a explotar el potencial de este tipo de datos La cantidad de informacioacuten que nos llega cada diacutea es tan inmensa que nos resulta difiacutecil asimilarla Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171769416 sitios donde nos pueden decir algo al respecto Suponiendo que nos tomemos un minuto para ver el contenido de cada paacutegina tardariacuteamos entonces 326 antildeos en visitarlas todas Esto es imposible y por lo tanto existe una clara necesidad de disponer de tecnologiacuteas que nos ayuden en nuestros procesos de buacutesqueda y auacuten maacutes de tecnologiacuteas que nos ayuden a comprender su contenido Como bien sabemos algunos sistemas producen una cantidad inmensa de datos estos datos con frecuencia contienen valiosa informacioacuten que puede resultar muy uacutetil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacioacuten Las dimensiones de las base de datos grandes (montantildeas) y sus velocidades de crecimiento hacen muy difiacutecil para un humano su anaacutelisis y la extraccioacuten de alguna informacioacuten importante (oro) Auacuten con el uso de herramientas estadiacutesticas claacutesicas esta tarea es casi imposible El Data Mining surge como una tecnologiacutea que intenta ayudar a comprender el contenido de una base de datos De forma general los datos son la materia prima bruta en el momento que el usuario les atribuye alguacuten significado especial pasan a convertirse en informacioacuten Cuando los especialistas elaboran o encuentran un modelo haciendo que la interpretacioacuten del confronto entre la informacioacuten y ese modelo represente un valor agregado entonces nos referimos al conocimiento En la figura 11 se ilustra la jerarquiacutea que existe en una base de datos entre dato informacioacuten y conocimiento Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquiacutea El aacuterea interna dentro del triaacutengulo representa los objetivos que se han propuesto La separacioacuten del triaacutengulo representa la estrecha unioacuten entre dato e informacioacuten no asiacute entre la informacioacuten y el conocimiento El Data Mining trabaja en el nivel superior buscando patrones comportamientos agrupaciones secuencias tendencias o asociaciones que puedan generar alguacuten modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisioacuten

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 6: Clase 6 Data Mining

6

Generadores de reportes visualizadores y otras herramientas de anaacutelisis pueden ser

aplicadas para planificar futuras acciones y confirmar el impacto de esos planes

8) Por queacute usar Data Mining

Sin duda alguna que el uso de Data Mining

o Contribuye a la toma de decisiones taacutecticas y estrateacutegicas proporcionando un

sentido automatizado para identificar informacioacuten clave desde voluacutemenes de datos

generados por procesos tradicionales y de e-Business

o Permite a los usuarios dar prioridad a decisiones y acciones mostrando factores que

tienen un mayor en un objetivo queacute segmentos de clientes son desechables y queacute

unidades de negocio son sobrepasados y por queacute

o Proporciona poderes de decisioacuten a los usuarios del negocio que mejor entienden el

problema y el entorno y es capaz de medir la acciones y los resultados de la mejor

forma

o Genera Modelos descriptivos En un contexto de objetivos definidos en los

negocios permite a empresas sin tener en cuenta la industria o el tamantildeo explorar

automaacuteticamente visualizar y comprender los datos e identificar patrones

relaciones y dependencias que impactan en los resultados finales de la cuenta de

resultados (tales como el aumento de los ingresos incremento de los beneficios

contencioacuten de costos y gestioacuten de riesgos)

o Genera Modelos predictivos permite que relaciones no descubiertas e identificadas

a traveacutes del proceso del Data Mining sean expresadas como reglas de negocio o

modelos predictivos Estos outputs pueden comunicarse en formatos tradicionales

(presentaciones informes informacioacuten electroacutenica compartida embebidos en

aplicaciones) para guiar la estrategia y planificacioacuten de la empresa

Mineriacutea de datos

La Mineriacutea de Datos es un conjunto de teacutecnicas para la induccioacuten de conocimiento

uacutetil a partir de masas ingentes de datos Tiene por lo tanto un solapamiento importante con

otras disciplinas como la estadiacutestica tradicional el reconocimiento de patrones la

inteligencia artificial etc Se la suele distinguir de ellas por el campo de aplicacioacuten se suele

aceptar que la mineriacutea de datos estudia informacioacuten acumulada en empresas y otras

organizaciones acerca de sus clientes usuarios etc y las interacciones de eacutestos con

aqueacutellas de manera que el conocimiento que pueda extraerse de ella sirva para mejorar la

rentabilidad el nivel de servicio redefinir estrategias de maacuterketing etc

Tradicionalmente las teacutecnicas de mineriacutea de datos se aplicaban sobre informacioacuten

contenida en almacenes de datos De hecho muchas grandes empresas e instituciones han

creado y alimentan bases de datos especialmente disentildeadas para proyectos de mineriacutea de

7

datos en las que centralizan informacioacuten potencialmente uacutetil de todas sus aacutereas de negocio

etc No obstante actualmente estaacute cobrando una importancia cada vez mayor la mineriacutea de

datos desestructurados como informacioacuten contenida en ficheros de texto en internet etc

Tabla de contenidos

1 Ejemplos de uso de la mineriacutea de datos

2 Mineriacutea de datos y otras disciplinas anaacutelogas

3 Protocolo de un proyecto de mineriacutea de datos

4 Tendencias

5 Enlaces externos

6 Veacutease tambieacuten

1- Ejemplos de uso de la mineriacutea de datos

El ejemplo claacutesico mdashaparte de algo rancio y posiblemente apoacutecrifomdash de

aplicacioacuten de la mineriacutea de datos tiene que ver con la deteccioacuten de haacutebitos de compra en

supermercados Un estudio muy citado detectoacute que los viernes habiacutea una cantidad

inusualmente elevada de clientes que adquiriacutean a la vez pantildeales y cerveza Se detectoacute que

se debiacutea a que dicho diacutea soliacutean acudir al supermercado padres joacutevenes cuya perspectiva

para el fin de semana consistiacutea en quedarse en casa cuidando de su hijo y viendo la

televisioacuten con una cerveza en la mano El supermercado pudo incrementar sus ventas de

cerveza colocaacutendolas proacuteximas a los pantildeales para fomentar las ventas compulsivas pero un

ejemplo maacutes habitual es el de la deteccioacuten de patrones de fuga En muchas industrias mdash

como la banca las telecomunicaciones etcmdash existe un comprensible intereacutes en detectar

cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para

posiblemente pasarse a la competencia A estos clientes mdashy en funcioacuten de su valormdash se

les podriacutean hacer ofertas personalizadas ofrecer promociones especiales etc con el

objetivo uacuteltimo de retenerlos La mineriacutea de datos ayuda a determinar queacute clientes son los

maacutes proclives a darse de baja estudiando sus patrones de comportamiento y comparaacutendolos

con muestras de clientes que efectivamente se dieron de baja en el pasado

Un caso anaacutelogo es el de la deteccioacuten de transacciones de blanqueo de dinero o de fraude

en el uso de tarjetas de creacutedito o de servicios de telefoniacutea moacutevil e incluso en la relacioacuten de

los contribuyentes con el fisco Generalmente estas operaciones fraudulentas o ilegales

suelen seguir patrones caracteriacutesticos que permiten con cierto grado de probabilidad

distinguirlas de las legiacutetimas y desarrollar asiacute mecanismos para tomar medidas raacutepidas

frente a ellas

Tambieacuten es un aacuterea en boga el del anaacutelisis del comportamiento de los visitantes mdashsobre

todo cuando son clientes potencialesmdash en una paacutegina de internet O la utilizacioacuten de la

informacioacuten mdashobtenida por medios maacutes o menos legiacutetimosmdash sobre ellos para ofrecerles

propaganda adaptada especiacuteficamente a su perfil O para una vez que adquieren un

determinado producto saber inmediatamente queacute otro ofrecerle teniendo en cuenta la

informacioacuten histoacuterica disponible acerca de los clientes que han comprado el primero

Mineriacutea de datos y otras disciplinas anaacutelogas

Suscita cierta poleacutemica el definir las fronteras existentes entre la mineriacutea de datos y

disciplinas anaacutelogas como pueden serlo la estadiacutestica la inteligencia artificial etc Hay

quienes sostienen que la mineriacutea de datos no es sino estadiacutestica envuelta en una jerga de

8

negocios que la conviertan en un producto vendible Otros en cambio encuentran en ella

una serie de problemas y meacutetodos especiacuteficos que la hacen distinta de otras disciplinas

El hecho es que la praacutectica totalidad de los modelos y algoritmos de uso general en mineriacutea

de datos mdashredes neuronales aacuterboles de regresioacuten y clasificacioacuten modelos logiacutesticos

anaacutelisis de componentes principales etcmdash gozan de una tradicioacuten relativamente larga en

otros campos

Fases de un proyecto de mineriacutea de datos

Un proyecto de mineriacutea de datos tiene varias fases necesarias que son esencialmente

Comprensioacuten del negocio y del problema que se quiere resolver

Determinacioacuten obtencioacuten y limpieza de los datos necesarios

Creacioacuten de modelos matemaacuteticos

Validacioacuten comunicacioacuten etc de los resultados obtenidos

Integracioacuten si procede de los resultados en un sistema transaccional o similar

La relacioacuten entre todas estas fases soacutelo es lineal sobre el papel En realidad es mucho maacutes

compleja y esconde toda una jerarquiacutea de subfases A traveacutes de la experiencia acumulada

en proyectos de mineriacutea de datos se han ido desarrollando metodologiacuteas que permiten

gestionar esta complejidad de una manera maacutes o menos uniforme Ejemplos de ellas son

CRISP-DM y SEMMA

Fases de un Proyecto de Mineriacutea de Datos

Los pasos a seguir para la realizacioacuten de un proyecto de mineriacutea de datos son siempre los

mismos independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento

utilizada

El proceso de mineriacutea de datos pasa por las siguientes fases

1- Filtrado de datos

2- Seleccioacuten de Variables

3- Extraccioacuten de Conocimiento

4- Interpretacioacuten y Evaluacioacuten

Si desea obtener una descripcioacuten maacutes detallada puede consultar la documentacioacuten de

CRISP-DM CRISP-DM (CRoss Industry Standard Process for Data Mining) es un

estaacutendar industrial utilizado por maacutes de 160 empresas e instituciones de todo el mundo que

surge en respuesta a la falta de estandarizacioacuten y propone un modelo de proceso general

para proyectos de mineriacutea de datos

Neutral respecto a industria y herramientas

Aplicable en cualquier sector de negocio

9

Fases de un proyecto de Mineriacutea de Datos

1- Filtrado de datos

El formato de los datos contenidos en la fuente de datos (base de datos Data Warehouse)

nunca es el idoacuteneo y la mayoriacutea de las veces no es posible ni siquiera utilizar ninguacuten

algoritmo de mineriacutea sobre los datos en bruto

Mediante el preprocesado se filtran los datos (de forma que se eliminan valores

incorrectos no vaacutelidos desconocidos seguacuten las necesidades y el algoritmo a usar) se

obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del

proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo clustering)

2- Seleccioacuten de variables

Auacuten despueacutes de haber sido preprocesados en la mayoriacutea de los casos se tiene una cantidad

ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las

variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de

conocimiento obtenido del proceso de mineriacutea

Los meacutetodos para la seleccioacuten de caracteriacutesticas son baacutesicamente dos

Aquellos basados en la eleccioacuten de los mejores atributos del problema

Y aquellos que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

3- Algoritmos de Extraccioacuten de Conocimiento

Mediante una teacutecnica de mineriacutea de datos se obtiene un modelo de conocimiento que

representa patrones de comportamiento observados en los valores de las variables del

problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias

teacutecnicas a la vez para generar distintos modelos aunque generalmente cada teacutecnica obliga a

un preprocesado diferente de los datos

4- Interpretacioacuten y evaluacioacuten

Una vez obtenido el modelo se debe proceder a su validacioacuten comprobando que las

conclusiones que arroja son vaacutelidas y suficientemente satisfactorias En el caso de haber

obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los

modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos

alcanza los resultados esperados debe alterarse alguno de los pasos anteriores para generar

nuevos modelos

Tendencias

La mineriacutea de datos ha sufrido transformaciones en los uacuteltimos antildeos de acuerdo con

cambios tecnoloacutegicos de estrategias de maacuterketing la extensioacuten de los modelos de compra

en liacutenea etc Los maacutes importantes de ellos son

La importancia que han cobrado los datos no estructurados (texto paacuteginas de internet etc)

La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales

portales de internet etc

La exigencia de que los procesos funcionen praacutecticamente en liacutenea (por ejemplo que frente

a un fraude con una tarjeta de creacutedito eacutesta pueda ser cancelada casi al instante)

10

Principios de Data Mining

1 Resumen

2 Introduccioacuten

3 Panorama general de data mining

4 La forma en que se trabaja con Data Mining

5 Aplicaciones de Data Mining

6 Extensiones de Data Mining

7 Conclusiones y perspectivas

8 Referencias

RESUMEN

En los uacuteltimos antildeos ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos debido baacutesicamente al gran poder de procesamiento de las maacutequinas como a su bajo costo de almacenamiento Sin embargo dentro de estas enormes masas de datos existe una gran cantidad de informacioacuten oculta de gran importancia estrateacutegica a la que no se puede acceder por las teacutecnicas claacutesicas de recuperacioacuten de la informacioacuten El descubrimiento de esta informacioacuten oculta es posible gracias a la Mineriacutea de Datos (Data Mining) que entre otras sofisticadas teacutecnicas aplica la inteligencia

artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creacioacuten de modelos es decir representaciones abstractas de la realidad pero es el descubrimiento del conocimiento (KDD por sus siglas en ingleacutes) que se encarga de la preparacioacuten de los datos y la interpretacioacuten de los resultados obtenidos los cuales dan un significado a estos patrones encontrados Asiacute el valor real de los datos reside en la informacioacuten que se puede extraer de ellos informacioacuten que ayude a tomar decisiones o mejorar nuestra comprensioacuten de los fenoacutemenos que nos rodean Hoy maacutes que nunca los meacutetodos analiacuteticos avanzados son el arma secreta de muchos negocios exitosos Empleando meacutetodos analiacuteticos avanzados para la explotacioacuten de datos los negocios incrementan sus ganancias maximizan la eficiencia operativa reducen costos y mejoran la satisfaccioacuten del cliente El presente trabajo enfatiza el uso del Data Mining para el descubrimiento del conocimiento y su uso predominante en nivel empresarial a fin de contribuir en la toma de decisiones taacutecticas y estrateacutegicas en una organizacioacuten proporcionando un sentido automatizado para la generacioacuten de conocimiento Vimos cual es la relacioacuten entre Data Mining y un Data Warehouse conocimos lo maacutes relevante sobre el proceso de Data Warehousing y como esta inmerso el Data Mining sobre su arquitectura Asiacute mismo presentamos algunas fases generales y otras un poco maacutes especiacuteficas sobre como implementar un proyecto Data Mining Tambieacuten conocimos cuales son las diferencias entre Data Mining y los procesos de estadiacutestica a pesar de que son ramas con notables diferencias ambas pueden complementarse en sus procesos de toma de decisiones y presentacioacuten de resultados

11

Se incluyeron aplicaciones de Data Mining en varias aacutereas ademaacutes de la empresarial y se da a conocer de forma muy general el alcance que tiene el utilizar un proceso de este tipo Ademaacutes hablamos de algunas herramientas de distribucioacuten libre y algunas comerciales que son empleadas para emprender proyectos de Data Mining Conocimos dos extensiones de Data Mining Web Mining y Text Mining finalmente dimos algunos puntos de vista comentarios y opiniones sobre lo que es Data Mining y lo que se espera de esta tecnologiacutea en los proacuteximos antildeos

INTRODUCCIOacuteN

Desde eacutepocas remotas la humanidad se ha preocupado por la creacioacuten de bienes con el miacutenimo de recursos Distintos pueblos y en distintos periacuteodos se practicaban la previsioacuten planeacioacuten y organizacioacuten de grupos para ejercitar diversas actividades (entre ellas la pesca agricultura el comercio la guerra etc) En antildeos maacutes recientes durante la revolucioacuten industrial se pusieron en praacutectica ideas que sirvieron para la creacioacuten de la administracioacuten ya que durante ese tiempo se pensoacute en la manera de producir maacutes con menos recursos A partir de ese momento precursores e idealistas fueron sentando las bases para la creacioacuten de la administracioacuten convirtieacutendola en una ciencia La humanidad ha utilizado varias formas para llevar a cabo transacciones de los bienes tal es el caso de los antiguos pueblos al utilizar monedas de metal con diferentes insignias descripciones y denominaciones para el intercambio de artiacuteculos o servicios Todo esto nos lleva a decir que es necesario conocer las herramientas y hacer buen uso de ellas para que una empresa pueda evaluar planes decisiones poliacuteticas procedimientos y en general todo lo concerniente a ella entre estas herramientas podemos hablar de herramientas contables financieras matemaacuteticas economiacutea y de informacioacuten El mundo experimenta cambios fundamentales Los continuos avances en tecnologiacutea de computadoras y comunicaciones tienen un fuerte impacto sobre la forma en que las personas trabajan La tecnologiacutea y las expectativas de las personas que la utilizan estaacuten modificando gradualmente las caracteriacutesticas de los sistemas de

informacioacuten Actualmente la economiacutea de muchas empresas y paiacuteses estaacute basada en la informacioacuten maacutes en la tecnologiacutea de sistemas de informacioacuten que sobre las maacutequinas y productos no relacionados con ella El desarrollo de los sistemas de informacioacuten juega en este tiempo un papel muy valioso dentro de las organizaciones En la era industrial lo maacutes importante era el uso del capital y recursos tangibles para generar nuevos productos Actualmente los recursos baacutesicos son las ideas y el uso de informacioacuten El empleo estrateacutegico de la informacioacuten continuaraacute creando en todas las empresas y organizaciones nuevas oportunidades[13] Para desarrollar un sistema de informacioacuten se necesita tecnologiacutea y gente desde los usuarios de la informacioacuten pasando por los operadores capturistas de datos y analistas de sistemas hasta llegar a los niveles directivos de toda la organizacioacuten Los primeros programadores de computadoras desarrollaban aplicaciones que satisfaciacutean vagamente los requerimientos de informacioacuten de los usuarios finales Ahora gracias a las herramientas de hardware y software con las que se cuenta es mucho maacutes faacutecil obtener la informacioacuten necesaria y a tiempo Una de estas herramientas son los Sistemas Administradores de Bases de Datos(DBMS por sus

12

siglas en ingleacutes) pero vayamos maacutes haya iquestqueacute sucederiacutea si adoptamos herramientas o teacutecnicas de bases de datos que nos digan queacute hacer seguacuten las informacioacuten que ellas presentan esto nos conduce a hablar de Data Mining o Mineriacutea de Datos Mientras que la innovacioacuten y la originalidad son habilidades fundamentales para la supervivencia de las empresas su eacutexito y prosperidad depende tambieacuten de decisiones eficientes y competitivas que deben ser tomadas en cortos intervalos de tiempo Para tomar decisiones es fundamental contar con informacioacuten de calidad Hoy en diacutea el nivel gerencial cuenta con una eficaz herramienta para lograr ese objetivo las teacutecnicas de Data Mining Con respecto a los nuevos usos de las bases de datos el Data Mining aparece como uno de los maacutes prometedores unido y fuertemente relacionado con los problemas asociados a los grandes almacenes de datos llamados Data Warehouses La relacioacuten entre el costo de los ordenadores y la atencioacuten humana ha cambiado sustancialmente El recurso maacutes precioso es el factor humano y los ordenadores deben potenciarlo Esto plantea una nueva filosofiacutea de acceso a la informacioacuten donde los ordenadores deben analizar los datos resumirlos organizarlos y resolver cuestiones mucho maacutes complejas que las actuales ofreciendo al usuario la informacioacuten que realmente le interesa Este proceso como se veraacute a lo largo de este trabajo esta muy ligado a cuestiones de Data Mining y Data Warehause Por el momento solo diremos que Data Mining es la integracioacuten de un conjunto de aacutereas que tienen como propoacutesito la identificacioacuten de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisiones en el transcurso de este trabajo detallaremos esto y seraacute de una forma maacutes comprensible Las teacutecnicas de Data Mining son el resultado de un largo proceso de investigacioacuten y desarrollo de productos Esta evolucioacuten comenzoacute cuando los datos de negocios fueron almacenados por primera vez en computadoras y continuoacute con mejoras en el acceso a los datos y maacutes recientemente con tecnologiacuteas generadas para permitir a los usuarios navegar a traveacutes de los datos en tiempo real Data Mining toma este proceso de evolucioacuten maacutes allaacute del acceso y navegacioacuten retrospectiva de los datos hacia la entrega de informacioacuten prospectiva y proactiva Data Mining estaacute listo para su aplicacioacuten en la comunidad de negocios porque estaacute soportado por tres tecnologiacuteas que ya estaacuten suficientemente maduras

Recoleccioacuten masiva de datos Potentes computadoras con multiprocesadores Algoritmos de Data Mining

Las bases de datos comerciales estaacuten creciendo a un ritmo sin precedentes Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontroacute que el 19 de los que contestaron estaacuten por encima del nivel de los 50 Gigabytes En algunas industrias tales como ventas al por menor (retail) estos nuacutemeros pueden ser auacuten mayores MCI Telecommunications Corp cuenta con una base de datos de 3 terabytes + 1 terabyte de iacutendices y overhead corriendo en MVS sobre IBM SP2 La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma maacutes costo-efectiva con tecnologiacutea de computadoras con multiprocesamiento paralelo Los algoritmos de Data Mining

13

utilizan teacutecnicas que han existido por lo menos desde hace 10 antildeos pero que soacutelo han sido implementadas recientemente como herramientas maduras confiables entendibles que consistentemente son maacutes performantes que meacutetodos estadiacutesticos claacutesicos En la evolucioacuten desde los datos de negocios a informacioacuten de negocios cada nuevo paso se basa en el previo Por ejemplo el acceso a datos dinaacutemicos es criacutetico para las aplicaciones de navegacioacuten de datos (drill through applications) y la habilidad para almacenar grandes bases de datos es criacutetica para Data Mining Los componentes esenciales de la tecnologiacutea de Data Mining han estado bajo desarrollo por deacutecadas en aacutereas de investigacioacuten como estadiacutesticas inteligencia artificial y aprendizaje de maacutequinas Hoy la madurez de estas teacutecnicas junto con los motores de bases de datos relacionales de alta performance hicieron que estas tecnologiacuteas fueran praacutecticas para los entornos de Data Warehouse actuales La idea de Data Mining no es nueva Desde los antildeos sesenta los estadiacutesticos manejaban teacuterminos como Data Fishing Data Mining o Data Archaeology con la idea de encontrar correlaciones sin una hipoacutetesis previa en bases de datos con ruido A principios de los antildeos ochenta Rakesh Agrawal Gio Wiederhold Robert Blum y Gregory Piatetsky-Shapiro entre otros empezaron a consolidar los teacuterminos de Data Mining y KDD (Knowledge Discovery in Databases Descubrimiento de Conocimiento en Bases de Datos) A finales de los antildeos ochenta soacutelo existiacutean un par de empresas dedicadas a esta tecnologiacutea en 2002 ya habiacutea maacutes de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones Las listas de discusioacuten sobre este tema las forman investigadores de maacutes de ochenta paiacuteses Esta tecnologiacutea ha sido un buen punto de encuentro entre personas pertenecientes al aacutembito acadeacutemico y al de los negocios[20] El presente trabajo tiene como finalidad dar a conocer una perspectiva general acerca de todo lo referente a la teoriacutea de Data Mining existen teacutecnicas de implantacioacuten de Data Mining algoritmos reglas etc de las cuales no daremos mayor detalle ya que no se encuentran como un objetivo de este documento solo se mencionaraacuten como la base teoacuterica de la Mineriacutea de Datos Lo que siacute perseguimos de manera especiacutefica es dejar en claro queacute es el concepto de Data Mining sus expectativas o finalidades dar a conocer sus cimientos y a queacute nos llevan todos ellos sus posibles aplicaciones y coacutemo se esta usando actualmente en algunas aacutereas principalmente en el nivel empresarial Aquiacute cabe mencionar que Data Mining es un proceso utilizado frecuentemente en macro empresas sin embargo tambieacuten es utilizado en las llamadas Pymes (Pequentildeas Y Medianas EmpresaS) y ademaacutes a nivel cientiacutefico aunque con menor frecuencia es por ello que nos hemos enfocado sobre todo a la utilizacioacuten de dicho proceso en las empresas grandes y coacutemo es que funciona en ellas auacuten asiacute creiacutemos conveniente introducir algunos ejemplos de su uso en otros entornos El primer capiacutetulo Panorama general de Data Mining comienza con un ejemplo introductorio para dar una idea general del por queacute es necesario utilizar Data Mining en ciertos casos esto nos lleva a dar un paso previo antes de conocer exactamente queacute es Data Mining Data Warehouse un paso antes de Data Mining nos menciona queacute relacioacuten hay entre Data Warehouse y Data Mining es importante entender este concepto ya que podriacuteamos decir que es una de las

14

principales bases de la Mineriacutea de Datos finalmente el capiacutetulo nos dice lo que en realidad es Data Mining sus objetivos y algunas formas generales de su utilizacioacuten

La forma en queacute trabaja Data Mining el capiacutetulo nuacutemero dos menciona de forma muy general como es que estaacute constituido Data Mining cuaacutel es su arquitectura la forma en que se implementa y las fases que se siguen para una buena implantacioacuten de un proyecto de Data Mining como bien lo hemos mencionado anteriormente este no es un trabajo para describir detalladamente las teacutecnicas de la Mineriacutea de Datos por ello cabe aclarar que este capiacutetulo tiene un enfoque teoacuterico baacutesico

Los dos primeros capiacutetulos nos sirven para entender baacutesicamente cuaacuteles podriacutean ser las aplicaciones de Data Mining el tercer capiacutetulo Aplicaciones de Data Mining nos da varios ejemplos de doacutende y coacutemo puede ser utilizado este proceso y cuaacuteles son sus ventajas en estas aacutereas de aplicacioacuten (principalmente en nivel empresarial)

El capiacutetulo nuacutemero cuatro Extensiones de Data Mining abordamos dos temas complementarios que tambieacuten se utilizan como procesos de Data Mining a saber el Web Mining y el Text Mining Estos temas tambieacuten los podriacuteamos ver como una aplicacioacuten de Data Mining sin embargo los hemos colocado en un capiacutetulo aparte ya que estaacuten considerados como un campo diferente esto es aplicaciones vistas como un meta Data Mining

Finalmente el uacuteltimo capiacutetulo Conclusiones y perspectivas damos nuestras conclusiones y algunos puntos de vista particulares mencionamos cuaacuteles son las oportunidades que existen para trabajar en proyectos de este tipo y queacute es lo que se espera de Data Mining en los proacuteximos antildeos

Hemos incluido tambieacuten un Resumen de todo lo abordado durante nuestro documento que contempla los aspectos maacutes importantes aquiacute tratados En la bibliografiacutea podraacute encontrar las direcciones http de donde se tomaron muchos de los aspectos mencionados en el transcurso de este trabajo cuando coloquemos un nuacutemero por ejemplo [2] al final de un paacuterrafo o cualquier sentencia estamos haciendo referencia al nuacutemero de artiacuteculo de internet mencionado en la bibliografiacutea de donde fue tomado dicho paacuterrafo o sentencia

CAPITULO I

PANORAMA GENERAL DE DATA MINING

En este capiacutetulo abordamos los conceptos fundamentales relacionados con Data Mining que nos ayudaraacuten a tener sobre todo una idea general de eacutel y ademaacutes nos auxiliaraacuten para entender los siguientes capiacutetulos Comenzamos con un ejemplo introductorio en la seccioacuten 11 Ejemplo de un problema asociado a Data Mining donde pretendemos dar a conocer una aplicacioacuten muy simple de Data Mining Continuamos con el apartado 12 Data Warehouse Un paso antes de Data Mining ya que creemos conveniente tener las nociones adecuadas de este tema que se relaciona fuertemente con Data Mining y del cuaacutel haremos mencioacuten en el resto de este trabajo Finalmente en la seccioacuten 13 iquestQueacute es Data Mining explicamos de la forma que creiacutemos uacutetil el concepto real de Data Mining sus objetivos y una forma breve de coacutemo y doacutende se trabaja con eacutel

15

11 Ejemplo de un problema asociado a Data Mining [18]

Para poder generar una idea general del significado y aplicacioacuten de Data Mining consideremos el siguiente problema

Suponga que usted es el gerente de mercadeo para una compantildeiacutea de telefoniacutea celular El problema considera lo siguiente La desercioacuten de clientes es muy alta La produccioacuten(despueacutes de que el contrato expira) es del 40 Los clientes reciben un teleacutefono de regalo con el contrato Usted paga una comisioacuten de ventas por contrato Se le da un teleacutefono nuevo a cada persona cuyo contrato ha expirado lo cual

es muy caro y por ende poco rentable para la compantildeiacutea Traer de regreso a un cliente despueacutes de que se va es difiacutecil y caro

111 Posible solucioacuten al problema de ejemplo

Se debe predecir queacute clientes abandonaraacuten la compantildeiacutea tres meses antes de que el contrato expire

Si queremos conservar a un cliente que creamos abandonaraacute la empresa se le deberiacutea ofrecer un nuevo teleacutefono

No hay que prestarle atencioacuten a los clientes que tienen altas posibilidades de quedarse en la empresa

Si hay clientes que no deseamos conservar simplemente no hacemos nada

Pues bien es muy faacutecil pretender hacer todo lo mencionado antes pero ahora la pregunta es iquestcoacutemo lo hacemos No podemos tomar decisiones a la ligera ni tomar medidas de las cuales estamos seguros que fallaraacuten por ejemplo suena absurdo en cuestiones como eacutestas recurrir a la lectura del Tarot La solucioacuten debe basarse en algo maacutes formal y coherente y una de esas alternativas es Data Mining

112 Solucioacuten del problema ejemplo a traveacutes de Data Mining

La solucioacuten que puede dar Data Mining al ejemplo del problema mencionado en esta seccioacuten considera lo siguiente

Interactuar dinaacutemicamente con el cliente Trabajar hacia delante y no hacia atraacutes Mejorar la calidad de la interaccioacuten iquestEl cliente quiere interactuar

o La liacutenea de ganancias se salva Optimizar el tiempo de interaccioacuten

o Aumentar el valor del cliente constantemente o Aumentar el valor de vida del cliente

En esta seccioacuten hemos visto solo un ejemplo introductoria en las secciones subsecuentes trataremos otros casos e iremos explicando como es que Data Mining ofrece soluciones a problemas de empresas

12 Data Warehouse Un paso antes de Data Mining

16

Antes de dar a conocer claramente lo que significa Data Mining es preciso dejar en claro lo que es un Data Warehouse que en principio lo podemos ver como un concepto que esta antes de Data Mining y es la base de este (aunque no siempre es asiacute) por ello el objetivo de esta seccioacuten es dar una idea general a este concepto no entraremos en muchos detalles pero daremos a conocer lo maacutes relevante para que en las secciones siguientes cuando hablemos de Data Warehouse o Data Warehousing no haya dudas sobre lo que nos estamos refiriendo

Las Bases de Datos (BD) de una empresa utilizan los ordenadores como medio para organizar sus datos de forma que sean comprensibles para las personas Este proceso es conocido como Data Warehousing La comprensioacuten de los datos almacenados es esencial para cualquier organizacioacuten ya que constituye un elemento baacutesico en la toma de decisiones

Un Data Warehouse es un almaceacuten o repositorio de datos categorizados que concentra un gran volumen de informacioacuten de intereacutes para toda una organizacioacuten la cual se distribuye por medio de diversas herramientas de consulta y de creacioacuten de informes orientadas a la toma de decisiones El objetivo del Data Warehouse (DW) es agrupar los datos con el propoacutesito de facilitar su posterior anaacutelisis de forma que sean faacuteciles de acceder y posteriormente analizar informacioacuten sobre la propia empresa A este tipo de datos se les conoce como informativos Los sistemas que manejan estos datos se denominan OLAP (Online Analytical Processing) Existe muchas definiciones formales de DW de distintos autores pero una de las mas famosas puede ser la dada por Inmon en 1992 Un Data Warehouse es una coleccioacuten de datos orientados a temas integrados no-volaacutetiles y variante en el tiempo organizados para soportar necesidades empresariales Los Data Warehouses a menudo almacenan gran cantidad de informacioacuten la cual estaacute a veces subdividida en pequentildeas unidades loacutegicas Perioacutedicamente se importan estos datos de otros sistemas de informacioacuten dentro del Data Warehouse para realizar sobre ellos un procesamiento posterior Un Data Warehouse se diferencia de una Base de Datos operacional de una empresa diremos que un Data Warehouse puede derivarse de la Base de Datos corporativa mediante la importacioacuten de informacioacuten pero el DW no es esa BD operacional[7]

Muchos de los datos de una empresa se utilizan como soporte a los negocios por eso a este tipo de datos se les denomina operacionales Los sistemas usados con el fin de recogerlos reciben el nombre de OLTP (Online Transaction Processing)[10]

Las principales caracteriacutesticas o propiedades de un DW son las siguientes

El DW estaacute orientado a la toma de decisiones Un buen disentildeo de la base de datos favorece el anaacutelisis y la recuperacioacuten de datos para obtener una ventaja estrateacutegica y para facilitar las decisiones de marketing

El DW almacena datos categorizaacutendolos o estructuraacutendolos de forma que favorezcan el anaacutelisis de los datos y puedan proporcionar anaacutelisis histoacutericos

El DW no estaacute orientado a procesos relacionados con la operativa de la empresa es decir que solo esta destinado a funcionar como un almaceacuten de datos

El DW estaacute preparado para ser explotado mediante herramientas especiacuteficas que permiten la extraccioacuten de informacioacuten significativa y patrones de

17

comportamiento que permanecen ocultos en un enorme repositorio de datos Esta explotacioacuten de los datos se suele realizar con herramientas de Data Mining

121 Software para un Data Warehouse[10]

La informacioacuten estrateacutegica se almacena en Gigabytes(tal vez maacutes) de datos de marketing En este caso se necesita software especializado que permita capturar los datos relevantes en forma raacutepida El software no deberiacutea limitarse uacutenicamente al acceso a los datos sino tambieacuten al anaacutelisis significativo de los datos esto es transformar los datos de la informacioacuten cruda o no procesada en informacioacuten uacutetil para la empresa

El software o herramientas de negocios inteligentes se colocan sobre la plataforma Data Warehousing y proveen este servicio Debido a que son el punto principal de contacto entre la aplicacioacuten del depoacutesito y la gente que lo usa estas herramientas pueden constituir la diferencia entre el eacutexito o fracaso de un depoacutesito Las herramientas de negocio inteligentes se han convertido en los sucesores de los sistemas de soporte de decisioacuten pero tienen un alcance maacutes amplio No solamente ayudan en las decisiones de soporte sino en muchos casos estas herramientas soportan muchas funciones operacionales y de misioacuten-criacutetica de la compantildeiacutea Sin embargo estos productos no son infalibles ya que soacutelo se consigue el maacuteximo provecho del Data Warehouse si eligen las herramientas adecuadas a las necesidades de cada usuario final Una de estas herramientas es Data Mining sin embargo hay otras que no mencionaremos ya que se encuentran fuera de los objetivos de este trabajo El proceso de Data Mining extrae los conocimientos guardados o informacioacuten predictiva desde el Data Warehouse sin requerir pedidos o preguntas especiacuteficas Data Mining usa algunas de las teacutecnicas de computacioacuten maacutes avanzadas para generar modelos y asociaciones como redes neurales deteccioacuten de desviacioacuten modelado predictivo y programacioacuten geneacutetica

122 Ventajas y Desventajas del Data Warehouse

La utilizacioacuten de Data Warehouse proporciona una serie de ventajas

Proporciona un gran poder de procesamiento de informacioacuten Permite una mayor flexibilidad y rapidez en el acceso a la informacioacuten Facilita la toma de decisiones en los negocios Las empresas obtienen un aumento de la productividad Proporciona una comunicacioacuten fiable entre todos los departamentos de la

empresa Mejora las relaciones con los proveedores y los clientes Permite conocer queacute estaacute pasando en el negocio es decir estar siempre

enterado de los buenos y malos resultados Transforma los datos en informacioacuten y la informacioacuten en conocimiento Permite hacer planes de forma maacutes efectiva Reduce los tiempos de respuesta y los costes de operacioacuten

Resumiendo el Data Warehouse proporciona una informacioacuten de gestioacuten accesible correcta uniforme y actualizada Proporciona un menor coste en la toma de

18

decisiones una mayor flexibilidad ante el entorno un mejor servicio al cliente y permite el redisentildeo de los procesos

Pero los Data Warehouse tambieacuten tienen algunas desventajas

Requieren una revisioacuten del modelo de datos objetos transacciones y ademaacutes del almacenamiento

Tienen un disentildeo complejo y multidisciplinar Requieren una reestructuracioacuten de los sistemas operacionales Tienen un alto coste Requieren sistemas aplicaciones y almacenamiento especiacutefico

Por uacuteltimo cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versioacuten maacutes reducida de un Data Warehouse a menudo conteniendo informacioacuten especiacutefica de alguacuten departamento como marketing finanzas o mantenimiento de la red Idealmente el Data Marts deberiacutea ser un subconjunto del Data Warehouse a fin de mantener consistencia en las praacutecticas de administracioacuten de datos corporativos y para mantener la seguridad y la integridad de la informacioacuten cruda que se estaacute usando Para las grandes compantildeiacuteas el Data Marts usualmente contiene una docena de gigabytes de datos Ahora podemos continuar y dar una explicacioacuten de lo que en realidad es Data Mining a pesar de que en este apartado hemos dado una definicioacuten de manera somera

13 iquestQueacute es Data Mining[14]

Cada diacutea generamos una gran cantidad de informacioacuten algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos Nos damos cuenta de que generamos informacioacuten cuando registramos nuestra entrada en el trabajo cuando entramos en un servidor para ver nuestro correo cuando pagamos con una tarjeta de creacutedito o cuando reservamos un boleto de avioacuten Otras veces no nos damos cuenta de que generamos informacioacuten como cuando conducimos por una viacutea donde estaacuten contabilizando el nuacutemero de automoacuteviles que pasan por minuto cuando se sigue nuestra navegacioacuten por Internet o cuando nos sacan una fotografiacutea del rostro al haber pasado cerca de una oficina gubernamental iquestCon queacute finalidad queremos generar informacioacuten Son muchos los motivos que nos llevan a generar informacioacuten ya que nos pueden ayudar a controlar optimizar administrar examinar investigar planificar predecir someter negociar o tomar decisiones de cualquier aacutembito seguacuten el dominio en que nos desarrollemos La informacioacuten por siacute misma estaacute considerada un bien patrimonial De esta forma si una empresa tiene una peacuterdida total o parcial de informacioacuten provoca bastantes perjuicios Es evidente que la informacioacuten debe ser protegida pero tambieacuten explotada

iquestQueacute nos ha permitido poder generar tanta informacioacuten En los uacuteltimos antildeos debido al desarrollo tecnoloacutegico a niveles exponenciales tanto en el aacuterea de coacutemputo como en la de transmisioacuten de datos ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacioacuten Sin duda existen cuatro factores importantes que nos han llevado a este suceso

19

1 El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente

2 El incremento de las velocidades de coacutemputo en los procesadores 3 Las mejoras en la confiabilidad y aumento de la velocidad en la transmisioacuten

de datos 4 El desarrollo de sistemas administradores de bases de datos maacutes poderosos

Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacioacuten en las bases de datos Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura ya que soacutelo se guarda (o escribe) en el disco duro pero nunca se hace uso de eacutel Generalmente todas las empresas usan un dato llamado dato-escritura-lectura que utilizan para hacer consultas dirigidas Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-anaacutelisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones Es necesario contar con tecnologiacuteas que nos ayuden a explotar el potencial de este tipo de datos La cantidad de informacioacuten que nos llega cada diacutea es tan inmensa que nos resulta difiacutecil asimilarla Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171769416 sitios donde nos pueden decir algo al respecto Suponiendo que nos tomemos un minuto para ver el contenido de cada paacutegina tardariacuteamos entonces 326 antildeos en visitarlas todas Esto es imposible y por lo tanto existe una clara necesidad de disponer de tecnologiacuteas que nos ayuden en nuestros procesos de buacutesqueda y auacuten maacutes de tecnologiacuteas que nos ayuden a comprender su contenido Como bien sabemos algunos sistemas producen una cantidad inmensa de datos estos datos con frecuencia contienen valiosa informacioacuten que puede resultar muy uacutetil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacioacuten Las dimensiones de las base de datos grandes (montantildeas) y sus velocidades de crecimiento hacen muy difiacutecil para un humano su anaacutelisis y la extraccioacuten de alguna informacioacuten importante (oro) Auacuten con el uso de herramientas estadiacutesticas claacutesicas esta tarea es casi imposible El Data Mining surge como una tecnologiacutea que intenta ayudar a comprender el contenido de una base de datos De forma general los datos son la materia prima bruta en el momento que el usuario les atribuye alguacuten significado especial pasan a convertirse en informacioacuten Cuando los especialistas elaboran o encuentran un modelo haciendo que la interpretacioacuten del confronto entre la informacioacuten y ese modelo represente un valor agregado entonces nos referimos al conocimiento En la figura 11 se ilustra la jerarquiacutea que existe en una base de datos entre dato informacioacuten y conocimiento Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquiacutea El aacuterea interna dentro del triaacutengulo representa los objetivos que se han propuesto La separacioacuten del triaacutengulo representa la estrecha unioacuten entre dato e informacioacuten no asiacute entre la informacioacuten y el conocimiento El Data Mining trabaja en el nivel superior buscando patrones comportamientos agrupaciones secuencias tendencias o asociaciones que puedan generar alguacuten modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisioacuten

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 7: Clase 6 Data Mining

7

datos en las que centralizan informacioacuten potencialmente uacutetil de todas sus aacutereas de negocio

etc No obstante actualmente estaacute cobrando una importancia cada vez mayor la mineriacutea de

datos desestructurados como informacioacuten contenida en ficheros de texto en internet etc

Tabla de contenidos

1 Ejemplos de uso de la mineriacutea de datos

2 Mineriacutea de datos y otras disciplinas anaacutelogas

3 Protocolo de un proyecto de mineriacutea de datos

4 Tendencias

5 Enlaces externos

6 Veacutease tambieacuten

1- Ejemplos de uso de la mineriacutea de datos

El ejemplo claacutesico mdashaparte de algo rancio y posiblemente apoacutecrifomdash de

aplicacioacuten de la mineriacutea de datos tiene que ver con la deteccioacuten de haacutebitos de compra en

supermercados Un estudio muy citado detectoacute que los viernes habiacutea una cantidad

inusualmente elevada de clientes que adquiriacutean a la vez pantildeales y cerveza Se detectoacute que

se debiacutea a que dicho diacutea soliacutean acudir al supermercado padres joacutevenes cuya perspectiva

para el fin de semana consistiacutea en quedarse en casa cuidando de su hijo y viendo la

televisioacuten con una cerveza en la mano El supermercado pudo incrementar sus ventas de

cerveza colocaacutendolas proacuteximas a los pantildeales para fomentar las ventas compulsivas pero un

ejemplo maacutes habitual es el de la deteccioacuten de patrones de fuga En muchas industrias mdash

como la banca las telecomunicaciones etcmdash existe un comprensible intereacutes en detectar

cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para

posiblemente pasarse a la competencia A estos clientes mdashy en funcioacuten de su valormdash se

les podriacutean hacer ofertas personalizadas ofrecer promociones especiales etc con el

objetivo uacuteltimo de retenerlos La mineriacutea de datos ayuda a determinar queacute clientes son los

maacutes proclives a darse de baja estudiando sus patrones de comportamiento y comparaacutendolos

con muestras de clientes que efectivamente se dieron de baja en el pasado

Un caso anaacutelogo es el de la deteccioacuten de transacciones de blanqueo de dinero o de fraude

en el uso de tarjetas de creacutedito o de servicios de telefoniacutea moacutevil e incluso en la relacioacuten de

los contribuyentes con el fisco Generalmente estas operaciones fraudulentas o ilegales

suelen seguir patrones caracteriacutesticos que permiten con cierto grado de probabilidad

distinguirlas de las legiacutetimas y desarrollar asiacute mecanismos para tomar medidas raacutepidas

frente a ellas

Tambieacuten es un aacuterea en boga el del anaacutelisis del comportamiento de los visitantes mdashsobre

todo cuando son clientes potencialesmdash en una paacutegina de internet O la utilizacioacuten de la

informacioacuten mdashobtenida por medios maacutes o menos legiacutetimosmdash sobre ellos para ofrecerles

propaganda adaptada especiacuteficamente a su perfil O para una vez que adquieren un

determinado producto saber inmediatamente queacute otro ofrecerle teniendo en cuenta la

informacioacuten histoacuterica disponible acerca de los clientes que han comprado el primero

Mineriacutea de datos y otras disciplinas anaacutelogas

Suscita cierta poleacutemica el definir las fronteras existentes entre la mineriacutea de datos y

disciplinas anaacutelogas como pueden serlo la estadiacutestica la inteligencia artificial etc Hay

quienes sostienen que la mineriacutea de datos no es sino estadiacutestica envuelta en una jerga de

8

negocios que la conviertan en un producto vendible Otros en cambio encuentran en ella

una serie de problemas y meacutetodos especiacuteficos que la hacen distinta de otras disciplinas

El hecho es que la praacutectica totalidad de los modelos y algoritmos de uso general en mineriacutea

de datos mdashredes neuronales aacuterboles de regresioacuten y clasificacioacuten modelos logiacutesticos

anaacutelisis de componentes principales etcmdash gozan de una tradicioacuten relativamente larga en

otros campos

Fases de un proyecto de mineriacutea de datos

Un proyecto de mineriacutea de datos tiene varias fases necesarias que son esencialmente

Comprensioacuten del negocio y del problema que se quiere resolver

Determinacioacuten obtencioacuten y limpieza de los datos necesarios

Creacioacuten de modelos matemaacuteticos

Validacioacuten comunicacioacuten etc de los resultados obtenidos

Integracioacuten si procede de los resultados en un sistema transaccional o similar

La relacioacuten entre todas estas fases soacutelo es lineal sobre el papel En realidad es mucho maacutes

compleja y esconde toda una jerarquiacutea de subfases A traveacutes de la experiencia acumulada

en proyectos de mineriacutea de datos se han ido desarrollando metodologiacuteas que permiten

gestionar esta complejidad de una manera maacutes o menos uniforme Ejemplos de ellas son

CRISP-DM y SEMMA

Fases de un Proyecto de Mineriacutea de Datos

Los pasos a seguir para la realizacioacuten de un proyecto de mineriacutea de datos son siempre los

mismos independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento

utilizada

El proceso de mineriacutea de datos pasa por las siguientes fases

1- Filtrado de datos

2- Seleccioacuten de Variables

3- Extraccioacuten de Conocimiento

4- Interpretacioacuten y Evaluacioacuten

Si desea obtener una descripcioacuten maacutes detallada puede consultar la documentacioacuten de

CRISP-DM CRISP-DM (CRoss Industry Standard Process for Data Mining) es un

estaacutendar industrial utilizado por maacutes de 160 empresas e instituciones de todo el mundo que

surge en respuesta a la falta de estandarizacioacuten y propone un modelo de proceso general

para proyectos de mineriacutea de datos

Neutral respecto a industria y herramientas

Aplicable en cualquier sector de negocio

9

Fases de un proyecto de Mineriacutea de Datos

1- Filtrado de datos

El formato de los datos contenidos en la fuente de datos (base de datos Data Warehouse)

nunca es el idoacuteneo y la mayoriacutea de las veces no es posible ni siquiera utilizar ninguacuten

algoritmo de mineriacutea sobre los datos en bruto

Mediante el preprocesado se filtran los datos (de forma que se eliminan valores

incorrectos no vaacutelidos desconocidos seguacuten las necesidades y el algoritmo a usar) se

obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del

proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo clustering)

2- Seleccioacuten de variables

Auacuten despueacutes de haber sido preprocesados en la mayoriacutea de los casos se tiene una cantidad

ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las

variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de

conocimiento obtenido del proceso de mineriacutea

Los meacutetodos para la seleccioacuten de caracteriacutesticas son baacutesicamente dos

Aquellos basados en la eleccioacuten de los mejores atributos del problema

Y aquellos que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

3- Algoritmos de Extraccioacuten de Conocimiento

Mediante una teacutecnica de mineriacutea de datos se obtiene un modelo de conocimiento que

representa patrones de comportamiento observados en los valores de las variables del

problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias

teacutecnicas a la vez para generar distintos modelos aunque generalmente cada teacutecnica obliga a

un preprocesado diferente de los datos

4- Interpretacioacuten y evaluacioacuten

Una vez obtenido el modelo se debe proceder a su validacioacuten comprobando que las

conclusiones que arroja son vaacutelidas y suficientemente satisfactorias En el caso de haber

obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los

modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos

alcanza los resultados esperados debe alterarse alguno de los pasos anteriores para generar

nuevos modelos

Tendencias

La mineriacutea de datos ha sufrido transformaciones en los uacuteltimos antildeos de acuerdo con

cambios tecnoloacutegicos de estrategias de maacuterketing la extensioacuten de los modelos de compra

en liacutenea etc Los maacutes importantes de ellos son

La importancia que han cobrado los datos no estructurados (texto paacuteginas de internet etc)

La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales

portales de internet etc

La exigencia de que los procesos funcionen praacutecticamente en liacutenea (por ejemplo que frente

a un fraude con una tarjeta de creacutedito eacutesta pueda ser cancelada casi al instante)

10

Principios de Data Mining

1 Resumen

2 Introduccioacuten

3 Panorama general de data mining

4 La forma en que se trabaja con Data Mining

5 Aplicaciones de Data Mining

6 Extensiones de Data Mining

7 Conclusiones y perspectivas

8 Referencias

RESUMEN

En los uacuteltimos antildeos ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos debido baacutesicamente al gran poder de procesamiento de las maacutequinas como a su bajo costo de almacenamiento Sin embargo dentro de estas enormes masas de datos existe una gran cantidad de informacioacuten oculta de gran importancia estrateacutegica a la que no se puede acceder por las teacutecnicas claacutesicas de recuperacioacuten de la informacioacuten El descubrimiento de esta informacioacuten oculta es posible gracias a la Mineriacutea de Datos (Data Mining) que entre otras sofisticadas teacutecnicas aplica la inteligencia

artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creacioacuten de modelos es decir representaciones abstractas de la realidad pero es el descubrimiento del conocimiento (KDD por sus siglas en ingleacutes) que se encarga de la preparacioacuten de los datos y la interpretacioacuten de los resultados obtenidos los cuales dan un significado a estos patrones encontrados Asiacute el valor real de los datos reside en la informacioacuten que se puede extraer de ellos informacioacuten que ayude a tomar decisiones o mejorar nuestra comprensioacuten de los fenoacutemenos que nos rodean Hoy maacutes que nunca los meacutetodos analiacuteticos avanzados son el arma secreta de muchos negocios exitosos Empleando meacutetodos analiacuteticos avanzados para la explotacioacuten de datos los negocios incrementan sus ganancias maximizan la eficiencia operativa reducen costos y mejoran la satisfaccioacuten del cliente El presente trabajo enfatiza el uso del Data Mining para el descubrimiento del conocimiento y su uso predominante en nivel empresarial a fin de contribuir en la toma de decisiones taacutecticas y estrateacutegicas en una organizacioacuten proporcionando un sentido automatizado para la generacioacuten de conocimiento Vimos cual es la relacioacuten entre Data Mining y un Data Warehouse conocimos lo maacutes relevante sobre el proceso de Data Warehousing y como esta inmerso el Data Mining sobre su arquitectura Asiacute mismo presentamos algunas fases generales y otras un poco maacutes especiacuteficas sobre como implementar un proyecto Data Mining Tambieacuten conocimos cuales son las diferencias entre Data Mining y los procesos de estadiacutestica a pesar de que son ramas con notables diferencias ambas pueden complementarse en sus procesos de toma de decisiones y presentacioacuten de resultados

11

Se incluyeron aplicaciones de Data Mining en varias aacutereas ademaacutes de la empresarial y se da a conocer de forma muy general el alcance que tiene el utilizar un proceso de este tipo Ademaacutes hablamos de algunas herramientas de distribucioacuten libre y algunas comerciales que son empleadas para emprender proyectos de Data Mining Conocimos dos extensiones de Data Mining Web Mining y Text Mining finalmente dimos algunos puntos de vista comentarios y opiniones sobre lo que es Data Mining y lo que se espera de esta tecnologiacutea en los proacuteximos antildeos

INTRODUCCIOacuteN

Desde eacutepocas remotas la humanidad se ha preocupado por la creacioacuten de bienes con el miacutenimo de recursos Distintos pueblos y en distintos periacuteodos se practicaban la previsioacuten planeacioacuten y organizacioacuten de grupos para ejercitar diversas actividades (entre ellas la pesca agricultura el comercio la guerra etc) En antildeos maacutes recientes durante la revolucioacuten industrial se pusieron en praacutectica ideas que sirvieron para la creacioacuten de la administracioacuten ya que durante ese tiempo se pensoacute en la manera de producir maacutes con menos recursos A partir de ese momento precursores e idealistas fueron sentando las bases para la creacioacuten de la administracioacuten convirtieacutendola en una ciencia La humanidad ha utilizado varias formas para llevar a cabo transacciones de los bienes tal es el caso de los antiguos pueblos al utilizar monedas de metal con diferentes insignias descripciones y denominaciones para el intercambio de artiacuteculos o servicios Todo esto nos lleva a decir que es necesario conocer las herramientas y hacer buen uso de ellas para que una empresa pueda evaluar planes decisiones poliacuteticas procedimientos y en general todo lo concerniente a ella entre estas herramientas podemos hablar de herramientas contables financieras matemaacuteticas economiacutea y de informacioacuten El mundo experimenta cambios fundamentales Los continuos avances en tecnologiacutea de computadoras y comunicaciones tienen un fuerte impacto sobre la forma en que las personas trabajan La tecnologiacutea y las expectativas de las personas que la utilizan estaacuten modificando gradualmente las caracteriacutesticas de los sistemas de

informacioacuten Actualmente la economiacutea de muchas empresas y paiacuteses estaacute basada en la informacioacuten maacutes en la tecnologiacutea de sistemas de informacioacuten que sobre las maacutequinas y productos no relacionados con ella El desarrollo de los sistemas de informacioacuten juega en este tiempo un papel muy valioso dentro de las organizaciones En la era industrial lo maacutes importante era el uso del capital y recursos tangibles para generar nuevos productos Actualmente los recursos baacutesicos son las ideas y el uso de informacioacuten El empleo estrateacutegico de la informacioacuten continuaraacute creando en todas las empresas y organizaciones nuevas oportunidades[13] Para desarrollar un sistema de informacioacuten se necesita tecnologiacutea y gente desde los usuarios de la informacioacuten pasando por los operadores capturistas de datos y analistas de sistemas hasta llegar a los niveles directivos de toda la organizacioacuten Los primeros programadores de computadoras desarrollaban aplicaciones que satisfaciacutean vagamente los requerimientos de informacioacuten de los usuarios finales Ahora gracias a las herramientas de hardware y software con las que se cuenta es mucho maacutes faacutecil obtener la informacioacuten necesaria y a tiempo Una de estas herramientas son los Sistemas Administradores de Bases de Datos(DBMS por sus

12

siglas en ingleacutes) pero vayamos maacutes haya iquestqueacute sucederiacutea si adoptamos herramientas o teacutecnicas de bases de datos que nos digan queacute hacer seguacuten las informacioacuten que ellas presentan esto nos conduce a hablar de Data Mining o Mineriacutea de Datos Mientras que la innovacioacuten y la originalidad son habilidades fundamentales para la supervivencia de las empresas su eacutexito y prosperidad depende tambieacuten de decisiones eficientes y competitivas que deben ser tomadas en cortos intervalos de tiempo Para tomar decisiones es fundamental contar con informacioacuten de calidad Hoy en diacutea el nivel gerencial cuenta con una eficaz herramienta para lograr ese objetivo las teacutecnicas de Data Mining Con respecto a los nuevos usos de las bases de datos el Data Mining aparece como uno de los maacutes prometedores unido y fuertemente relacionado con los problemas asociados a los grandes almacenes de datos llamados Data Warehouses La relacioacuten entre el costo de los ordenadores y la atencioacuten humana ha cambiado sustancialmente El recurso maacutes precioso es el factor humano y los ordenadores deben potenciarlo Esto plantea una nueva filosofiacutea de acceso a la informacioacuten donde los ordenadores deben analizar los datos resumirlos organizarlos y resolver cuestiones mucho maacutes complejas que las actuales ofreciendo al usuario la informacioacuten que realmente le interesa Este proceso como se veraacute a lo largo de este trabajo esta muy ligado a cuestiones de Data Mining y Data Warehause Por el momento solo diremos que Data Mining es la integracioacuten de un conjunto de aacutereas que tienen como propoacutesito la identificacioacuten de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisiones en el transcurso de este trabajo detallaremos esto y seraacute de una forma maacutes comprensible Las teacutecnicas de Data Mining son el resultado de un largo proceso de investigacioacuten y desarrollo de productos Esta evolucioacuten comenzoacute cuando los datos de negocios fueron almacenados por primera vez en computadoras y continuoacute con mejoras en el acceso a los datos y maacutes recientemente con tecnologiacuteas generadas para permitir a los usuarios navegar a traveacutes de los datos en tiempo real Data Mining toma este proceso de evolucioacuten maacutes allaacute del acceso y navegacioacuten retrospectiva de los datos hacia la entrega de informacioacuten prospectiva y proactiva Data Mining estaacute listo para su aplicacioacuten en la comunidad de negocios porque estaacute soportado por tres tecnologiacuteas que ya estaacuten suficientemente maduras

Recoleccioacuten masiva de datos Potentes computadoras con multiprocesadores Algoritmos de Data Mining

Las bases de datos comerciales estaacuten creciendo a un ritmo sin precedentes Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontroacute que el 19 de los que contestaron estaacuten por encima del nivel de los 50 Gigabytes En algunas industrias tales como ventas al por menor (retail) estos nuacutemeros pueden ser auacuten mayores MCI Telecommunications Corp cuenta con una base de datos de 3 terabytes + 1 terabyte de iacutendices y overhead corriendo en MVS sobre IBM SP2 La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma maacutes costo-efectiva con tecnologiacutea de computadoras con multiprocesamiento paralelo Los algoritmos de Data Mining

13

utilizan teacutecnicas que han existido por lo menos desde hace 10 antildeos pero que soacutelo han sido implementadas recientemente como herramientas maduras confiables entendibles que consistentemente son maacutes performantes que meacutetodos estadiacutesticos claacutesicos En la evolucioacuten desde los datos de negocios a informacioacuten de negocios cada nuevo paso se basa en el previo Por ejemplo el acceso a datos dinaacutemicos es criacutetico para las aplicaciones de navegacioacuten de datos (drill through applications) y la habilidad para almacenar grandes bases de datos es criacutetica para Data Mining Los componentes esenciales de la tecnologiacutea de Data Mining han estado bajo desarrollo por deacutecadas en aacutereas de investigacioacuten como estadiacutesticas inteligencia artificial y aprendizaje de maacutequinas Hoy la madurez de estas teacutecnicas junto con los motores de bases de datos relacionales de alta performance hicieron que estas tecnologiacuteas fueran praacutecticas para los entornos de Data Warehouse actuales La idea de Data Mining no es nueva Desde los antildeos sesenta los estadiacutesticos manejaban teacuterminos como Data Fishing Data Mining o Data Archaeology con la idea de encontrar correlaciones sin una hipoacutetesis previa en bases de datos con ruido A principios de los antildeos ochenta Rakesh Agrawal Gio Wiederhold Robert Blum y Gregory Piatetsky-Shapiro entre otros empezaron a consolidar los teacuterminos de Data Mining y KDD (Knowledge Discovery in Databases Descubrimiento de Conocimiento en Bases de Datos) A finales de los antildeos ochenta soacutelo existiacutean un par de empresas dedicadas a esta tecnologiacutea en 2002 ya habiacutea maacutes de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones Las listas de discusioacuten sobre este tema las forman investigadores de maacutes de ochenta paiacuteses Esta tecnologiacutea ha sido un buen punto de encuentro entre personas pertenecientes al aacutembito acadeacutemico y al de los negocios[20] El presente trabajo tiene como finalidad dar a conocer una perspectiva general acerca de todo lo referente a la teoriacutea de Data Mining existen teacutecnicas de implantacioacuten de Data Mining algoritmos reglas etc de las cuales no daremos mayor detalle ya que no se encuentran como un objetivo de este documento solo se mencionaraacuten como la base teoacuterica de la Mineriacutea de Datos Lo que siacute perseguimos de manera especiacutefica es dejar en claro queacute es el concepto de Data Mining sus expectativas o finalidades dar a conocer sus cimientos y a queacute nos llevan todos ellos sus posibles aplicaciones y coacutemo se esta usando actualmente en algunas aacutereas principalmente en el nivel empresarial Aquiacute cabe mencionar que Data Mining es un proceso utilizado frecuentemente en macro empresas sin embargo tambieacuten es utilizado en las llamadas Pymes (Pequentildeas Y Medianas EmpresaS) y ademaacutes a nivel cientiacutefico aunque con menor frecuencia es por ello que nos hemos enfocado sobre todo a la utilizacioacuten de dicho proceso en las empresas grandes y coacutemo es que funciona en ellas auacuten asiacute creiacutemos conveniente introducir algunos ejemplos de su uso en otros entornos El primer capiacutetulo Panorama general de Data Mining comienza con un ejemplo introductorio para dar una idea general del por queacute es necesario utilizar Data Mining en ciertos casos esto nos lleva a dar un paso previo antes de conocer exactamente queacute es Data Mining Data Warehouse un paso antes de Data Mining nos menciona queacute relacioacuten hay entre Data Warehouse y Data Mining es importante entender este concepto ya que podriacuteamos decir que es una de las

14

principales bases de la Mineriacutea de Datos finalmente el capiacutetulo nos dice lo que en realidad es Data Mining sus objetivos y algunas formas generales de su utilizacioacuten

La forma en queacute trabaja Data Mining el capiacutetulo nuacutemero dos menciona de forma muy general como es que estaacute constituido Data Mining cuaacutel es su arquitectura la forma en que se implementa y las fases que se siguen para una buena implantacioacuten de un proyecto de Data Mining como bien lo hemos mencionado anteriormente este no es un trabajo para describir detalladamente las teacutecnicas de la Mineriacutea de Datos por ello cabe aclarar que este capiacutetulo tiene un enfoque teoacuterico baacutesico

Los dos primeros capiacutetulos nos sirven para entender baacutesicamente cuaacuteles podriacutean ser las aplicaciones de Data Mining el tercer capiacutetulo Aplicaciones de Data Mining nos da varios ejemplos de doacutende y coacutemo puede ser utilizado este proceso y cuaacuteles son sus ventajas en estas aacutereas de aplicacioacuten (principalmente en nivel empresarial)

El capiacutetulo nuacutemero cuatro Extensiones de Data Mining abordamos dos temas complementarios que tambieacuten se utilizan como procesos de Data Mining a saber el Web Mining y el Text Mining Estos temas tambieacuten los podriacuteamos ver como una aplicacioacuten de Data Mining sin embargo los hemos colocado en un capiacutetulo aparte ya que estaacuten considerados como un campo diferente esto es aplicaciones vistas como un meta Data Mining

Finalmente el uacuteltimo capiacutetulo Conclusiones y perspectivas damos nuestras conclusiones y algunos puntos de vista particulares mencionamos cuaacuteles son las oportunidades que existen para trabajar en proyectos de este tipo y queacute es lo que se espera de Data Mining en los proacuteximos antildeos

Hemos incluido tambieacuten un Resumen de todo lo abordado durante nuestro documento que contempla los aspectos maacutes importantes aquiacute tratados En la bibliografiacutea podraacute encontrar las direcciones http de donde se tomaron muchos de los aspectos mencionados en el transcurso de este trabajo cuando coloquemos un nuacutemero por ejemplo [2] al final de un paacuterrafo o cualquier sentencia estamos haciendo referencia al nuacutemero de artiacuteculo de internet mencionado en la bibliografiacutea de donde fue tomado dicho paacuterrafo o sentencia

CAPITULO I

PANORAMA GENERAL DE DATA MINING

En este capiacutetulo abordamos los conceptos fundamentales relacionados con Data Mining que nos ayudaraacuten a tener sobre todo una idea general de eacutel y ademaacutes nos auxiliaraacuten para entender los siguientes capiacutetulos Comenzamos con un ejemplo introductorio en la seccioacuten 11 Ejemplo de un problema asociado a Data Mining donde pretendemos dar a conocer una aplicacioacuten muy simple de Data Mining Continuamos con el apartado 12 Data Warehouse Un paso antes de Data Mining ya que creemos conveniente tener las nociones adecuadas de este tema que se relaciona fuertemente con Data Mining y del cuaacutel haremos mencioacuten en el resto de este trabajo Finalmente en la seccioacuten 13 iquestQueacute es Data Mining explicamos de la forma que creiacutemos uacutetil el concepto real de Data Mining sus objetivos y una forma breve de coacutemo y doacutende se trabaja con eacutel

15

11 Ejemplo de un problema asociado a Data Mining [18]

Para poder generar una idea general del significado y aplicacioacuten de Data Mining consideremos el siguiente problema

Suponga que usted es el gerente de mercadeo para una compantildeiacutea de telefoniacutea celular El problema considera lo siguiente La desercioacuten de clientes es muy alta La produccioacuten(despueacutes de que el contrato expira) es del 40 Los clientes reciben un teleacutefono de regalo con el contrato Usted paga una comisioacuten de ventas por contrato Se le da un teleacutefono nuevo a cada persona cuyo contrato ha expirado lo cual

es muy caro y por ende poco rentable para la compantildeiacutea Traer de regreso a un cliente despueacutes de que se va es difiacutecil y caro

111 Posible solucioacuten al problema de ejemplo

Se debe predecir queacute clientes abandonaraacuten la compantildeiacutea tres meses antes de que el contrato expire

Si queremos conservar a un cliente que creamos abandonaraacute la empresa se le deberiacutea ofrecer un nuevo teleacutefono

No hay que prestarle atencioacuten a los clientes que tienen altas posibilidades de quedarse en la empresa

Si hay clientes que no deseamos conservar simplemente no hacemos nada

Pues bien es muy faacutecil pretender hacer todo lo mencionado antes pero ahora la pregunta es iquestcoacutemo lo hacemos No podemos tomar decisiones a la ligera ni tomar medidas de las cuales estamos seguros que fallaraacuten por ejemplo suena absurdo en cuestiones como eacutestas recurrir a la lectura del Tarot La solucioacuten debe basarse en algo maacutes formal y coherente y una de esas alternativas es Data Mining

112 Solucioacuten del problema ejemplo a traveacutes de Data Mining

La solucioacuten que puede dar Data Mining al ejemplo del problema mencionado en esta seccioacuten considera lo siguiente

Interactuar dinaacutemicamente con el cliente Trabajar hacia delante y no hacia atraacutes Mejorar la calidad de la interaccioacuten iquestEl cliente quiere interactuar

o La liacutenea de ganancias se salva Optimizar el tiempo de interaccioacuten

o Aumentar el valor del cliente constantemente o Aumentar el valor de vida del cliente

En esta seccioacuten hemos visto solo un ejemplo introductoria en las secciones subsecuentes trataremos otros casos e iremos explicando como es que Data Mining ofrece soluciones a problemas de empresas

12 Data Warehouse Un paso antes de Data Mining

16

Antes de dar a conocer claramente lo que significa Data Mining es preciso dejar en claro lo que es un Data Warehouse que en principio lo podemos ver como un concepto que esta antes de Data Mining y es la base de este (aunque no siempre es asiacute) por ello el objetivo de esta seccioacuten es dar una idea general a este concepto no entraremos en muchos detalles pero daremos a conocer lo maacutes relevante para que en las secciones siguientes cuando hablemos de Data Warehouse o Data Warehousing no haya dudas sobre lo que nos estamos refiriendo

Las Bases de Datos (BD) de una empresa utilizan los ordenadores como medio para organizar sus datos de forma que sean comprensibles para las personas Este proceso es conocido como Data Warehousing La comprensioacuten de los datos almacenados es esencial para cualquier organizacioacuten ya que constituye un elemento baacutesico en la toma de decisiones

Un Data Warehouse es un almaceacuten o repositorio de datos categorizados que concentra un gran volumen de informacioacuten de intereacutes para toda una organizacioacuten la cual se distribuye por medio de diversas herramientas de consulta y de creacioacuten de informes orientadas a la toma de decisiones El objetivo del Data Warehouse (DW) es agrupar los datos con el propoacutesito de facilitar su posterior anaacutelisis de forma que sean faacuteciles de acceder y posteriormente analizar informacioacuten sobre la propia empresa A este tipo de datos se les conoce como informativos Los sistemas que manejan estos datos se denominan OLAP (Online Analytical Processing) Existe muchas definiciones formales de DW de distintos autores pero una de las mas famosas puede ser la dada por Inmon en 1992 Un Data Warehouse es una coleccioacuten de datos orientados a temas integrados no-volaacutetiles y variante en el tiempo organizados para soportar necesidades empresariales Los Data Warehouses a menudo almacenan gran cantidad de informacioacuten la cual estaacute a veces subdividida en pequentildeas unidades loacutegicas Perioacutedicamente se importan estos datos de otros sistemas de informacioacuten dentro del Data Warehouse para realizar sobre ellos un procesamiento posterior Un Data Warehouse se diferencia de una Base de Datos operacional de una empresa diremos que un Data Warehouse puede derivarse de la Base de Datos corporativa mediante la importacioacuten de informacioacuten pero el DW no es esa BD operacional[7]

Muchos de los datos de una empresa se utilizan como soporte a los negocios por eso a este tipo de datos se les denomina operacionales Los sistemas usados con el fin de recogerlos reciben el nombre de OLTP (Online Transaction Processing)[10]

Las principales caracteriacutesticas o propiedades de un DW son las siguientes

El DW estaacute orientado a la toma de decisiones Un buen disentildeo de la base de datos favorece el anaacutelisis y la recuperacioacuten de datos para obtener una ventaja estrateacutegica y para facilitar las decisiones de marketing

El DW almacena datos categorizaacutendolos o estructuraacutendolos de forma que favorezcan el anaacutelisis de los datos y puedan proporcionar anaacutelisis histoacutericos

El DW no estaacute orientado a procesos relacionados con la operativa de la empresa es decir que solo esta destinado a funcionar como un almaceacuten de datos

El DW estaacute preparado para ser explotado mediante herramientas especiacuteficas que permiten la extraccioacuten de informacioacuten significativa y patrones de

17

comportamiento que permanecen ocultos en un enorme repositorio de datos Esta explotacioacuten de los datos se suele realizar con herramientas de Data Mining

121 Software para un Data Warehouse[10]

La informacioacuten estrateacutegica se almacena en Gigabytes(tal vez maacutes) de datos de marketing En este caso se necesita software especializado que permita capturar los datos relevantes en forma raacutepida El software no deberiacutea limitarse uacutenicamente al acceso a los datos sino tambieacuten al anaacutelisis significativo de los datos esto es transformar los datos de la informacioacuten cruda o no procesada en informacioacuten uacutetil para la empresa

El software o herramientas de negocios inteligentes se colocan sobre la plataforma Data Warehousing y proveen este servicio Debido a que son el punto principal de contacto entre la aplicacioacuten del depoacutesito y la gente que lo usa estas herramientas pueden constituir la diferencia entre el eacutexito o fracaso de un depoacutesito Las herramientas de negocio inteligentes se han convertido en los sucesores de los sistemas de soporte de decisioacuten pero tienen un alcance maacutes amplio No solamente ayudan en las decisiones de soporte sino en muchos casos estas herramientas soportan muchas funciones operacionales y de misioacuten-criacutetica de la compantildeiacutea Sin embargo estos productos no son infalibles ya que soacutelo se consigue el maacuteximo provecho del Data Warehouse si eligen las herramientas adecuadas a las necesidades de cada usuario final Una de estas herramientas es Data Mining sin embargo hay otras que no mencionaremos ya que se encuentran fuera de los objetivos de este trabajo El proceso de Data Mining extrae los conocimientos guardados o informacioacuten predictiva desde el Data Warehouse sin requerir pedidos o preguntas especiacuteficas Data Mining usa algunas de las teacutecnicas de computacioacuten maacutes avanzadas para generar modelos y asociaciones como redes neurales deteccioacuten de desviacioacuten modelado predictivo y programacioacuten geneacutetica

122 Ventajas y Desventajas del Data Warehouse

La utilizacioacuten de Data Warehouse proporciona una serie de ventajas

Proporciona un gran poder de procesamiento de informacioacuten Permite una mayor flexibilidad y rapidez en el acceso a la informacioacuten Facilita la toma de decisiones en los negocios Las empresas obtienen un aumento de la productividad Proporciona una comunicacioacuten fiable entre todos los departamentos de la

empresa Mejora las relaciones con los proveedores y los clientes Permite conocer queacute estaacute pasando en el negocio es decir estar siempre

enterado de los buenos y malos resultados Transforma los datos en informacioacuten y la informacioacuten en conocimiento Permite hacer planes de forma maacutes efectiva Reduce los tiempos de respuesta y los costes de operacioacuten

Resumiendo el Data Warehouse proporciona una informacioacuten de gestioacuten accesible correcta uniforme y actualizada Proporciona un menor coste en la toma de

18

decisiones una mayor flexibilidad ante el entorno un mejor servicio al cliente y permite el redisentildeo de los procesos

Pero los Data Warehouse tambieacuten tienen algunas desventajas

Requieren una revisioacuten del modelo de datos objetos transacciones y ademaacutes del almacenamiento

Tienen un disentildeo complejo y multidisciplinar Requieren una reestructuracioacuten de los sistemas operacionales Tienen un alto coste Requieren sistemas aplicaciones y almacenamiento especiacutefico

Por uacuteltimo cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versioacuten maacutes reducida de un Data Warehouse a menudo conteniendo informacioacuten especiacutefica de alguacuten departamento como marketing finanzas o mantenimiento de la red Idealmente el Data Marts deberiacutea ser un subconjunto del Data Warehouse a fin de mantener consistencia en las praacutecticas de administracioacuten de datos corporativos y para mantener la seguridad y la integridad de la informacioacuten cruda que se estaacute usando Para las grandes compantildeiacuteas el Data Marts usualmente contiene una docena de gigabytes de datos Ahora podemos continuar y dar una explicacioacuten de lo que en realidad es Data Mining a pesar de que en este apartado hemos dado una definicioacuten de manera somera

13 iquestQueacute es Data Mining[14]

Cada diacutea generamos una gran cantidad de informacioacuten algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos Nos damos cuenta de que generamos informacioacuten cuando registramos nuestra entrada en el trabajo cuando entramos en un servidor para ver nuestro correo cuando pagamos con una tarjeta de creacutedito o cuando reservamos un boleto de avioacuten Otras veces no nos damos cuenta de que generamos informacioacuten como cuando conducimos por una viacutea donde estaacuten contabilizando el nuacutemero de automoacuteviles que pasan por minuto cuando se sigue nuestra navegacioacuten por Internet o cuando nos sacan una fotografiacutea del rostro al haber pasado cerca de una oficina gubernamental iquestCon queacute finalidad queremos generar informacioacuten Son muchos los motivos que nos llevan a generar informacioacuten ya que nos pueden ayudar a controlar optimizar administrar examinar investigar planificar predecir someter negociar o tomar decisiones de cualquier aacutembito seguacuten el dominio en que nos desarrollemos La informacioacuten por siacute misma estaacute considerada un bien patrimonial De esta forma si una empresa tiene una peacuterdida total o parcial de informacioacuten provoca bastantes perjuicios Es evidente que la informacioacuten debe ser protegida pero tambieacuten explotada

iquestQueacute nos ha permitido poder generar tanta informacioacuten En los uacuteltimos antildeos debido al desarrollo tecnoloacutegico a niveles exponenciales tanto en el aacuterea de coacutemputo como en la de transmisioacuten de datos ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacioacuten Sin duda existen cuatro factores importantes que nos han llevado a este suceso

19

1 El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente

2 El incremento de las velocidades de coacutemputo en los procesadores 3 Las mejoras en la confiabilidad y aumento de la velocidad en la transmisioacuten

de datos 4 El desarrollo de sistemas administradores de bases de datos maacutes poderosos

Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacioacuten en las bases de datos Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura ya que soacutelo se guarda (o escribe) en el disco duro pero nunca se hace uso de eacutel Generalmente todas las empresas usan un dato llamado dato-escritura-lectura que utilizan para hacer consultas dirigidas Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-anaacutelisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones Es necesario contar con tecnologiacuteas que nos ayuden a explotar el potencial de este tipo de datos La cantidad de informacioacuten que nos llega cada diacutea es tan inmensa que nos resulta difiacutecil asimilarla Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171769416 sitios donde nos pueden decir algo al respecto Suponiendo que nos tomemos un minuto para ver el contenido de cada paacutegina tardariacuteamos entonces 326 antildeos en visitarlas todas Esto es imposible y por lo tanto existe una clara necesidad de disponer de tecnologiacuteas que nos ayuden en nuestros procesos de buacutesqueda y auacuten maacutes de tecnologiacuteas que nos ayuden a comprender su contenido Como bien sabemos algunos sistemas producen una cantidad inmensa de datos estos datos con frecuencia contienen valiosa informacioacuten que puede resultar muy uacutetil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacioacuten Las dimensiones de las base de datos grandes (montantildeas) y sus velocidades de crecimiento hacen muy difiacutecil para un humano su anaacutelisis y la extraccioacuten de alguna informacioacuten importante (oro) Auacuten con el uso de herramientas estadiacutesticas claacutesicas esta tarea es casi imposible El Data Mining surge como una tecnologiacutea que intenta ayudar a comprender el contenido de una base de datos De forma general los datos son la materia prima bruta en el momento que el usuario les atribuye alguacuten significado especial pasan a convertirse en informacioacuten Cuando los especialistas elaboran o encuentran un modelo haciendo que la interpretacioacuten del confronto entre la informacioacuten y ese modelo represente un valor agregado entonces nos referimos al conocimiento En la figura 11 se ilustra la jerarquiacutea que existe en una base de datos entre dato informacioacuten y conocimiento Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquiacutea El aacuterea interna dentro del triaacutengulo representa los objetivos que se han propuesto La separacioacuten del triaacutengulo representa la estrecha unioacuten entre dato e informacioacuten no asiacute entre la informacioacuten y el conocimiento El Data Mining trabaja en el nivel superior buscando patrones comportamientos agrupaciones secuencias tendencias o asociaciones que puedan generar alguacuten modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisioacuten

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 8: Clase 6 Data Mining

8

negocios que la conviertan en un producto vendible Otros en cambio encuentran en ella

una serie de problemas y meacutetodos especiacuteficos que la hacen distinta de otras disciplinas

El hecho es que la praacutectica totalidad de los modelos y algoritmos de uso general en mineriacutea

de datos mdashredes neuronales aacuterboles de regresioacuten y clasificacioacuten modelos logiacutesticos

anaacutelisis de componentes principales etcmdash gozan de una tradicioacuten relativamente larga en

otros campos

Fases de un proyecto de mineriacutea de datos

Un proyecto de mineriacutea de datos tiene varias fases necesarias que son esencialmente

Comprensioacuten del negocio y del problema que se quiere resolver

Determinacioacuten obtencioacuten y limpieza de los datos necesarios

Creacioacuten de modelos matemaacuteticos

Validacioacuten comunicacioacuten etc de los resultados obtenidos

Integracioacuten si procede de los resultados en un sistema transaccional o similar

La relacioacuten entre todas estas fases soacutelo es lineal sobre el papel En realidad es mucho maacutes

compleja y esconde toda una jerarquiacutea de subfases A traveacutes de la experiencia acumulada

en proyectos de mineriacutea de datos se han ido desarrollando metodologiacuteas que permiten

gestionar esta complejidad de una manera maacutes o menos uniforme Ejemplos de ellas son

CRISP-DM y SEMMA

Fases de un Proyecto de Mineriacutea de Datos

Los pasos a seguir para la realizacioacuten de un proyecto de mineriacutea de datos son siempre los

mismos independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento

utilizada

El proceso de mineriacutea de datos pasa por las siguientes fases

1- Filtrado de datos

2- Seleccioacuten de Variables

3- Extraccioacuten de Conocimiento

4- Interpretacioacuten y Evaluacioacuten

Si desea obtener una descripcioacuten maacutes detallada puede consultar la documentacioacuten de

CRISP-DM CRISP-DM (CRoss Industry Standard Process for Data Mining) es un

estaacutendar industrial utilizado por maacutes de 160 empresas e instituciones de todo el mundo que

surge en respuesta a la falta de estandarizacioacuten y propone un modelo de proceso general

para proyectos de mineriacutea de datos

Neutral respecto a industria y herramientas

Aplicable en cualquier sector de negocio

9

Fases de un proyecto de Mineriacutea de Datos

1- Filtrado de datos

El formato de los datos contenidos en la fuente de datos (base de datos Data Warehouse)

nunca es el idoacuteneo y la mayoriacutea de las veces no es posible ni siquiera utilizar ninguacuten

algoritmo de mineriacutea sobre los datos en bruto

Mediante el preprocesado se filtran los datos (de forma que se eliminan valores

incorrectos no vaacutelidos desconocidos seguacuten las necesidades y el algoritmo a usar) se

obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del

proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo clustering)

2- Seleccioacuten de variables

Auacuten despueacutes de haber sido preprocesados en la mayoriacutea de los casos se tiene una cantidad

ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las

variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de

conocimiento obtenido del proceso de mineriacutea

Los meacutetodos para la seleccioacuten de caracteriacutesticas son baacutesicamente dos

Aquellos basados en la eleccioacuten de los mejores atributos del problema

Y aquellos que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

3- Algoritmos de Extraccioacuten de Conocimiento

Mediante una teacutecnica de mineriacutea de datos se obtiene un modelo de conocimiento que

representa patrones de comportamiento observados en los valores de las variables del

problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias

teacutecnicas a la vez para generar distintos modelos aunque generalmente cada teacutecnica obliga a

un preprocesado diferente de los datos

4- Interpretacioacuten y evaluacioacuten

Una vez obtenido el modelo se debe proceder a su validacioacuten comprobando que las

conclusiones que arroja son vaacutelidas y suficientemente satisfactorias En el caso de haber

obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los

modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos

alcanza los resultados esperados debe alterarse alguno de los pasos anteriores para generar

nuevos modelos

Tendencias

La mineriacutea de datos ha sufrido transformaciones en los uacuteltimos antildeos de acuerdo con

cambios tecnoloacutegicos de estrategias de maacuterketing la extensioacuten de los modelos de compra

en liacutenea etc Los maacutes importantes de ellos son

La importancia que han cobrado los datos no estructurados (texto paacuteginas de internet etc)

La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales

portales de internet etc

La exigencia de que los procesos funcionen praacutecticamente en liacutenea (por ejemplo que frente

a un fraude con una tarjeta de creacutedito eacutesta pueda ser cancelada casi al instante)

10

Principios de Data Mining

1 Resumen

2 Introduccioacuten

3 Panorama general de data mining

4 La forma en que se trabaja con Data Mining

5 Aplicaciones de Data Mining

6 Extensiones de Data Mining

7 Conclusiones y perspectivas

8 Referencias

RESUMEN

En los uacuteltimos antildeos ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos debido baacutesicamente al gran poder de procesamiento de las maacutequinas como a su bajo costo de almacenamiento Sin embargo dentro de estas enormes masas de datos existe una gran cantidad de informacioacuten oculta de gran importancia estrateacutegica a la que no se puede acceder por las teacutecnicas claacutesicas de recuperacioacuten de la informacioacuten El descubrimiento de esta informacioacuten oculta es posible gracias a la Mineriacutea de Datos (Data Mining) que entre otras sofisticadas teacutecnicas aplica la inteligencia

artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creacioacuten de modelos es decir representaciones abstractas de la realidad pero es el descubrimiento del conocimiento (KDD por sus siglas en ingleacutes) que se encarga de la preparacioacuten de los datos y la interpretacioacuten de los resultados obtenidos los cuales dan un significado a estos patrones encontrados Asiacute el valor real de los datos reside en la informacioacuten que se puede extraer de ellos informacioacuten que ayude a tomar decisiones o mejorar nuestra comprensioacuten de los fenoacutemenos que nos rodean Hoy maacutes que nunca los meacutetodos analiacuteticos avanzados son el arma secreta de muchos negocios exitosos Empleando meacutetodos analiacuteticos avanzados para la explotacioacuten de datos los negocios incrementan sus ganancias maximizan la eficiencia operativa reducen costos y mejoran la satisfaccioacuten del cliente El presente trabajo enfatiza el uso del Data Mining para el descubrimiento del conocimiento y su uso predominante en nivel empresarial a fin de contribuir en la toma de decisiones taacutecticas y estrateacutegicas en una organizacioacuten proporcionando un sentido automatizado para la generacioacuten de conocimiento Vimos cual es la relacioacuten entre Data Mining y un Data Warehouse conocimos lo maacutes relevante sobre el proceso de Data Warehousing y como esta inmerso el Data Mining sobre su arquitectura Asiacute mismo presentamos algunas fases generales y otras un poco maacutes especiacuteficas sobre como implementar un proyecto Data Mining Tambieacuten conocimos cuales son las diferencias entre Data Mining y los procesos de estadiacutestica a pesar de que son ramas con notables diferencias ambas pueden complementarse en sus procesos de toma de decisiones y presentacioacuten de resultados

11

Se incluyeron aplicaciones de Data Mining en varias aacutereas ademaacutes de la empresarial y se da a conocer de forma muy general el alcance que tiene el utilizar un proceso de este tipo Ademaacutes hablamos de algunas herramientas de distribucioacuten libre y algunas comerciales que son empleadas para emprender proyectos de Data Mining Conocimos dos extensiones de Data Mining Web Mining y Text Mining finalmente dimos algunos puntos de vista comentarios y opiniones sobre lo que es Data Mining y lo que se espera de esta tecnologiacutea en los proacuteximos antildeos

INTRODUCCIOacuteN

Desde eacutepocas remotas la humanidad se ha preocupado por la creacioacuten de bienes con el miacutenimo de recursos Distintos pueblos y en distintos periacuteodos se practicaban la previsioacuten planeacioacuten y organizacioacuten de grupos para ejercitar diversas actividades (entre ellas la pesca agricultura el comercio la guerra etc) En antildeos maacutes recientes durante la revolucioacuten industrial se pusieron en praacutectica ideas que sirvieron para la creacioacuten de la administracioacuten ya que durante ese tiempo se pensoacute en la manera de producir maacutes con menos recursos A partir de ese momento precursores e idealistas fueron sentando las bases para la creacioacuten de la administracioacuten convirtieacutendola en una ciencia La humanidad ha utilizado varias formas para llevar a cabo transacciones de los bienes tal es el caso de los antiguos pueblos al utilizar monedas de metal con diferentes insignias descripciones y denominaciones para el intercambio de artiacuteculos o servicios Todo esto nos lleva a decir que es necesario conocer las herramientas y hacer buen uso de ellas para que una empresa pueda evaluar planes decisiones poliacuteticas procedimientos y en general todo lo concerniente a ella entre estas herramientas podemos hablar de herramientas contables financieras matemaacuteticas economiacutea y de informacioacuten El mundo experimenta cambios fundamentales Los continuos avances en tecnologiacutea de computadoras y comunicaciones tienen un fuerte impacto sobre la forma en que las personas trabajan La tecnologiacutea y las expectativas de las personas que la utilizan estaacuten modificando gradualmente las caracteriacutesticas de los sistemas de

informacioacuten Actualmente la economiacutea de muchas empresas y paiacuteses estaacute basada en la informacioacuten maacutes en la tecnologiacutea de sistemas de informacioacuten que sobre las maacutequinas y productos no relacionados con ella El desarrollo de los sistemas de informacioacuten juega en este tiempo un papel muy valioso dentro de las organizaciones En la era industrial lo maacutes importante era el uso del capital y recursos tangibles para generar nuevos productos Actualmente los recursos baacutesicos son las ideas y el uso de informacioacuten El empleo estrateacutegico de la informacioacuten continuaraacute creando en todas las empresas y organizaciones nuevas oportunidades[13] Para desarrollar un sistema de informacioacuten se necesita tecnologiacutea y gente desde los usuarios de la informacioacuten pasando por los operadores capturistas de datos y analistas de sistemas hasta llegar a los niveles directivos de toda la organizacioacuten Los primeros programadores de computadoras desarrollaban aplicaciones que satisfaciacutean vagamente los requerimientos de informacioacuten de los usuarios finales Ahora gracias a las herramientas de hardware y software con las que se cuenta es mucho maacutes faacutecil obtener la informacioacuten necesaria y a tiempo Una de estas herramientas son los Sistemas Administradores de Bases de Datos(DBMS por sus

12

siglas en ingleacutes) pero vayamos maacutes haya iquestqueacute sucederiacutea si adoptamos herramientas o teacutecnicas de bases de datos que nos digan queacute hacer seguacuten las informacioacuten que ellas presentan esto nos conduce a hablar de Data Mining o Mineriacutea de Datos Mientras que la innovacioacuten y la originalidad son habilidades fundamentales para la supervivencia de las empresas su eacutexito y prosperidad depende tambieacuten de decisiones eficientes y competitivas que deben ser tomadas en cortos intervalos de tiempo Para tomar decisiones es fundamental contar con informacioacuten de calidad Hoy en diacutea el nivel gerencial cuenta con una eficaz herramienta para lograr ese objetivo las teacutecnicas de Data Mining Con respecto a los nuevos usos de las bases de datos el Data Mining aparece como uno de los maacutes prometedores unido y fuertemente relacionado con los problemas asociados a los grandes almacenes de datos llamados Data Warehouses La relacioacuten entre el costo de los ordenadores y la atencioacuten humana ha cambiado sustancialmente El recurso maacutes precioso es el factor humano y los ordenadores deben potenciarlo Esto plantea una nueva filosofiacutea de acceso a la informacioacuten donde los ordenadores deben analizar los datos resumirlos organizarlos y resolver cuestiones mucho maacutes complejas que las actuales ofreciendo al usuario la informacioacuten que realmente le interesa Este proceso como se veraacute a lo largo de este trabajo esta muy ligado a cuestiones de Data Mining y Data Warehause Por el momento solo diremos que Data Mining es la integracioacuten de un conjunto de aacutereas que tienen como propoacutesito la identificacioacuten de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisiones en el transcurso de este trabajo detallaremos esto y seraacute de una forma maacutes comprensible Las teacutecnicas de Data Mining son el resultado de un largo proceso de investigacioacuten y desarrollo de productos Esta evolucioacuten comenzoacute cuando los datos de negocios fueron almacenados por primera vez en computadoras y continuoacute con mejoras en el acceso a los datos y maacutes recientemente con tecnologiacuteas generadas para permitir a los usuarios navegar a traveacutes de los datos en tiempo real Data Mining toma este proceso de evolucioacuten maacutes allaacute del acceso y navegacioacuten retrospectiva de los datos hacia la entrega de informacioacuten prospectiva y proactiva Data Mining estaacute listo para su aplicacioacuten en la comunidad de negocios porque estaacute soportado por tres tecnologiacuteas que ya estaacuten suficientemente maduras

Recoleccioacuten masiva de datos Potentes computadoras con multiprocesadores Algoritmos de Data Mining

Las bases de datos comerciales estaacuten creciendo a un ritmo sin precedentes Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontroacute que el 19 de los que contestaron estaacuten por encima del nivel de los 50 Gigabytes En algunas industrias tales como ventas al por menor (retail) estos nuacutemeros pueden ser auacuten mayores MCI Telecommunications Corp cuenta con una base de datos de 3 terabytes + 1 terabyte de iacutendices y overhead corriendo en MVS sobre IBM SP2 La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma maacutes costo-efectiva con tecnologiacutea de computadoras con multiprocesamiento paralelo Los algoritmos de Data Mining

13

utilizan teacutecnicas que han existido por lo menos desde hace 10 antildeos pero que soacutelo han sido implementadas recientemente como herramientas maduras confiables entendibles que consistentemente son maacutes performantes que meacutetodos estadiacutesticos claacutesicos En la evolucioacuten desde los datos de negocios a informacioacuten de negocios cada nuevo paso se basa en el previo Por ejemplo el acceso a datos dinaacutemicos es criacutetico para las aplicaciones de navegacioacuten de datos (drill through applications) y la habilidad para almacenar grandes bases de datos es criacutetica para Data Mining Los componentes esenciales de la tecnologiacutea de Data Mining han estado bajo desarrollo por deacutecadas en aacutereas de investigacioacuten como estadiacutesticas inteligencia artificial y aprendizaje de maacutequinas Hoy la madurez de estas teacutecnicas junto con los motores de bases de datos relacionales de alta performance hicieron que estas tecnologiacuteas fueran praacutecticas para los entornos de Data Warehouse actuales La idea de Data Mining no es nueva Desde los antildeos sesenta los estadiacutesticos manejaban teacuterminos como Data Fishing Data Mining o Data Archaeology con la idea de encontrar correlaciones sin una hipoacutetesis previa en bases de datos con ruido A principios de los antildeos ochenta Rakesh Agrawal Gio Wiederhold Robert Blum y Gregory Piatetsky-Shapiro entre otros empezaron a consolidar los teacuterminos de Data Mining y KDD (Knowledge Discovery in Databases Descubrimiento de Conocimiento en Bases de Datos) A finales de los antildeos ochenta soacutelo existiacutean un par de empresas dedicadas a esta tecnologiacutea en 2002 ya habiacutea maacutes de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones Las listas de discusioacuten sobre este tema las forman investigadores de maacutes de ochenta paiacuteses Esta tecnologiacutea ha sido un buen punto de encuentro entre personas pertenecientes al aacutembito acadeacutemico y al de los negocios[20] El presente trabajo tiene como finalidad dar a conocer una perspectiva general acerca de todo lo referente a la teoriacutea de Data Mining existen teacutecnicas de implantacioacuten de Data Mining algoritmos reglas etc de las cuales no daremos mayor detalle ya que no se encuentran como un objetivo de este documento solo se mencionaraacuten como la base teoacuterica de la Mineriacutea de Datos Lo que siacute perseguimos de manera especiacutefica es dejar en claro queacute es el concepto de Data Mining sus expectativas o finalidades dar a conocer sus cimientos y a queacute nos llevan todos ellos sus posibles aplicaciones y coacutemo se esta usando actualmente en algunas aacutereas principalmente en el nivel empresarial Aquiacute cabe mencionar que Data Mining es un proceso utilizado frecuentemente en macro empresas sin embargo tambieacuten es utilizado en las llamadas Pymes (Pequentildeas Y Medianas EmpresaS) y ademaacutes a nivel cientiacutefico aunque con menor frecuencia es por ello que nos hemos enfocado sobre todo a la utilizacioacuten de dicho proceso en las empresas grandes y coacutemo es que funciona en ellas auacuten asiacute creiacutemos conveniente introducir algunos ejemplos de su uso en otros entornos El primer capiacutetulo Panorama general de Data Mining comienza con un ejemplo introductorio para dar una idea general del por queacute es necesario utilizar Data Mining en ciertos casos esto nos lleva a dar un paso previo antes de conocer exactamente queacute es Data Mining Data Warehouse un paso antes de Data Mining nos menciona queacute relacioacuten hay entre Data Warehouse y Data Mining es importante entender este concepto ya que podriacuteamos decir que es una de las

14

principales bases de la Mineriacutea de Datos finalmente el capiacutetulo nos dice lo que en realidad es Data Mining sus objetivos y algunas formas generales de su utilizacioacuten

La forma en queacute trabaja Data Mining el capiacutetulo nuacutemero dos menciona de forma muy general como es que estaacute constituido Data Mining cuaacutel es su arquitectura la forma en que se implementa y las fases que se siguen para una buena implantacioacuten de un proyecto de Data Mining como bien lo hemos mencionado anteriormente este no es un trabajo para describir detalladamente las teacutecnicas de la Mineriacutea de Datos por ello cabe aclarar que este capiacutetulo tiene un enfoque teoacuterico baacutesico

Los dos primeros capiacutetulos nos sirven para entender baacutesicamente cuaacuteles podriacutean ser las aplicaciones de Data Mining el tercer capiacutetulo Aplicaciones de Data Mining nos da varios ejemplos de doacutende y coacutemo puede ser utilizado este proceso y cuaacuteles son sus ventajas en estas aacutereas de aplicacioacuten (principalmente en nivel empresarial)

El capiacutetulo nuacutemero cuatro Extensiones de Data Mining abordamos dos temas complementarios que tambieacuten se utilizan como procesos de Data Mining a saber el Web Mining y el Text Mining Estos temas tambieacuten los podriacuteamos ver como una aplicacioacuten de Data Mining sin embargo los hemos colocado en un capiacutetulo aparte ya que estaacuten considerados como un campo diferente esto es aplicaciones vistas como un meta Data Mining

Finalmente el uacuteltimo capiacutetulo Conclusiones y perspectivas damos nuestras conclusiones y algunos puntos de vista particulares mencionamos cuaacuteles son las oportunidades que existen para trabajar en proyectos de este tipo y queacute es lo que se espera de Data Mining en los proacuteximos antildeos

Hemos incluido tambieacuten un Resumen de todo lo abordado durante nuestro documento que contempla los aspectos maacutes importantes aquiacute tratados En la bibliografiacutea podraacute encontrar las direcciones http de donde se tomaron muchos de los aspectos mencionados en el transcurso de este trabajo cuando coloquemos un nuacutemero por ejemplo [2] al final de un paacuterrafo o cualquier sentencia estamos haciendo referencia al nuacutemero de artiacuteculo de internet mencionado en la bibliografiacutea de donde fue tomado dicho paacuterrafo o sentencia

CAPITULO I

PANORAMA GENERAL DE DATA MINING

En este capiacutetulo abordamos los conceptos fundamentales relacionados con Data Mining que nos ayudaraacuten a tener sobre todo una idea general de eacutel y ademaacutes nos auxiliaraacuten para entender los siguientes capiacutetulos Comenzamos con un ejemplo introductorio en la seccioacuten 11 Ejemplo de un problema asociado a Data Mining donde pretendemos dar a conocer una aplicacioacuten muy simple de Data Mining Continuamos con el apartado 12 Data Warehouse Un paso antes de Data Mining ya que creemos conveniente tener las nociones adecuadas de este tema que se relaciona fuertemente con Data Mining y del cuaacutel haremos mencioacuten en el resto de este trabajo Finalmente en la seccioacuten 13 iquestQueacute es Data Mining explicamos de la forma que creiacutemos uacutetil el concepto real de Data Mining sus objetivos y una forma breve de coacutemo y doacutende se trabaja con eacutel

15

11 Ejemplo de un problema asociado a Data Mining [18]

Para poder generar una idea general del significado y aplicacioacuten de Data Mining consideremos el siguiente problema

Suponga que usted es el gerente de mercadeo para una compantildeiacutea de telefoniacutea celular El problema considera lo siguiente La desercioacuten de clientes es muy alta La produccioacuten(despueacutes de que el contrato expira) es del 40 Los clientes reciben un teleacutefono de regalo con el contrato Usted paga una comisioacuten de ventas por contrato Se le da un teleacutefono nuevo a cada persona cuyo contrato ha expirado lo cual

es muy caro y por ende poco rentable para la compantildeiacutea Traer de regreso a un cliente despueacutes de que se va es difiacutecil y caro

111 Posible solucioacuten al problema de ejemplo

Se debe predecir queacute clientes abandonaraacuten la compantildeiacutea tres meses antes de que el contrato expire

Si queremos conservar a un cliente que creamos abandonaraacute la empresa se le deberiacutea ofrecer un nuevo teleacutefono

No hay que prestarle atencioacuten a los clientes que tienen altas posibilidades de quedarse en la empresa

Si hay clientes que no deseamos conservar simplemente no hacemos nada

Pues bien es muy faacutecil pretender hacer todo lo mencionado antes pero ahora la pregunta es iquestcoacutemo lo hacemos No podemos tomar decisiones a la ligera ni tomar medidas de las cuales estamos seguros que fallaraacuten por ejemplo suena absurdo en cuestiones como eacutestas recurrir a la lectura del Tarot La solucioacuten debe basarse en algo maacutes formal y coherente y una de esas alternativas es Data Mining

112 Solucioacuten del problema ejemplo a traveacutes de Data Mining

La solucioacuten que puede dar Data Mining al ejemplo del problema mencionado en esta seccioacuten considera lo siguiente

Interactuar dinaacutemicamente con el cliente Trabajar hacia delante y no hacia atraacutes Mejorar la calidad de la interaccioacuten iquestEl cliente quiere interactuar

o La liacutenea de ganancias se salva Optimizar el tiempo de interaccioacuten

o Aumentar el valor del cliente constantemente o Aumentar el valor de vida del cliente

En esta seccioacuten hemos visto solo un ejemplo introductoria en las secciones subsecuentes trataremos otros casos e iremos explicando como es que Data Mining ofrece soluciones a problemas de empresas

12 Data Warehouse Un paso antes de Data Mining

16

Antes de dar a conocer claramente lo que significa Data Mining es preciso dejar en claro lo que es un Data Warehouse que en principio lo podemos ver como un concepto que esta antes de Data Mining y es la base de este (aunque no siempre es asiacute) por ello el objetivo de esta seccioacuten es dar una idea general a este concepto no entraremos en muchos detalles pero daremos a conocer lo maacutes relevante para que en las secciones siguientes cuando hablemos de Data Warehouse o Data Warehousing no haya dudas sobre lo que nos estamos refiriendo

Las Bases de Datos (BD) de una empresa utilizan los ordenadores como medio para organizar sus datos de forma que sean comprensibles para las personas Este proceso es conocido como Data Warehousing La comprensioacuten de los datos almacenados es esencial para cualquier organizacioacuten ya que constituye un elemento baacutesico en la toma de decisiones

Un Data Warehouse es un almaceacuten o repositorio de datos categorizados que concentra un gran volumen de informacioacuten de intereacutes para toda una organizacioacuten la cual se distribuye por medio de diversas herramientas de consulta y de creacioacuten de informes orientadas a la toma de decisiones El objetivo del Data Warehouse (DW) es agrupar los datos con el propoacutesito de facilitar su posterior anaacutelisis de forma que sean faacuteciles de acceder y posteriormente analizar informacioacuten sobre la propia empresa A este tipo de datos se les conoce como informativos Los sistemas que manejan estos datos se denominan OLAP (Online Analytical Processing) Existe muchas definiciones formales de DW de distintos autores pero una de las mas famosas puede ser la dada por Inmon en 1992 Un Data Warehouse es una coleccioacuten de datos orientados a temas integrados no-volaacutetiles y variante en el tiempo organizados para soportar necesidades empresariales Los Data Warehouses a menudo almacenan gran cantidad de informacioacuten la cual estaacute a veces subdividida en pequentildeas unidades loacutegicas Perioacutedicamente se importan estos datos de otros sistemas de informacioacuten dentro del Data Warehouse para realizar sobre ellos un procesamiento posterior Un Data Warehouse se diferencia de una Base de Datos operacional de una empresa diremos que un Data Warehouse puede derivarse de la Base de Datos corporativa mediante la importacioacuten de informacioacuten pero el DW no es esa BD operacional[7]

Muchos de los datos de una empresa se utilizan como soporte a los negocios por eso a este tipo de datos se les denomina operacionales Los sistemas usados con el fin de recogerlos reciben el nombre de OLTP (Online Transaction Processing)[10]

Las principales caracteriacutesticas o propiedades de un DW son las siguientes

El DW estaacute orientado a la toma de decisiones Un buen disentildeo de la base de datos favorece el anaacutelisis y la recuperacioacuten de datos para obtener una ventaja estrateacutegica y para facilitar las decisiones de marketing

El DW almacena datos categorizaacutendolos o estructuraacutendolos de forma que favorezcan el anaacutelisis de los datos y puedan proporcionar anaacutelisis histoacutericos

El DW no estaacute orientado a procesos relacionados con la operativa de la empresa es decir que solo esta destinado a funcionar como un almaceacuten de datos

El DW estaacute preparado para ser explotado mediante herramientas especiacuteficas que permiten la extraccioacuten de informacioacuten significativa y patrones de

17

comportamiento que permanecen ocultos en un enorme repositorio de datos Esta explotacioacuten de los datos se suele realizar con herramientas de Data Mining

121 Software para un Data Warehouse[10]

La informacioacuten estrateacutegica se almacena en Gigabytes(tal vez maacutes) de datos de marketing En este caso se necesita software especializado que permita capturar los datos relevantes en forma raacutepida El software no deberiacutea limitarse uacutenicamente al acceso a los datos sino tambieacuten al anaacutelisis significativo de los datos esto es transformar los datos de la informacioacuten cruda o no procesada en informacioacuten uacutetil para la empresa

El software o herramientas de negocios inteligentes se colocan sobre la plataforma Data Warehousing y proveen este servicio Debido a que son el punto principal de contacto entre la aplicacioacuten del depoacutesito y la gente que lo usa estas herramientas pueden constituir la diferencia entre el eacutexito o fracaso de un depoacutesito Las herramientas de negocio inteligentes se han convertido en los sucesores de los sistemas de soporte de decisioacuten pero tienen un alcance maacutes amplio No solamente ayudan en las decisiones de soporte sino en muchos casos estas herramientas soportan muchas funciones operacionales y de misioacuten-criacutetica de la compantildeiacutea Sin embargo estos productos no son infalibles ya que soacutelo se consigue el maacuteximo provecho del Data Warehouse si eligen las herramientas adecuadas a las necesidades de cada usuario final Una de estas herramientas es Data Mining sin embargo hay otras que no mencionaremos ya que se encuentran fuera de los objetivos de este trabajo El proceso de Data Mining extrae los conocimientos guardados o informacioacuten predictiva desde el Data Warehouse sin requerir pedidos o preguntas especiacuteficas Data Mining usa algunas de las teacutecnicas de computacioacuten maacutes avanzadas para generar modelos y asociaciones como redes neurales deteccioacuten de desviacioacuten modelado predictivo y programacioacuten geneacutetica

122 Ventajas y Desventajas del Data Warehouse

La utilizacioacuten de Data Warehouse proporciona una serie de ventajas

Proporciona un gran poder de procesamiento de informacioacuten Permite una mayor flexibilidad y rapidez en el acceso a la informacioacuten Facilita la toma de decisiones en los negocios Las empresas obtienen un aumento de la productividad Proporciona una comunicacioacuten fiable entre todos los departamentos de la

empresa Mejora las relaciones con los proveedores y los clientes Permite conocer queacute estaacute pasando en el negocio es decir estar siempre

enterado de los buenos y malos resultados Transforma los datos en informacioacuten y la informacioacuten en conocimiento Permite hacer planes de forma maacutes efectiva Reduce los tiempos de respuesta y los costes de operacioacuten

Resumiendo el Data Warehouse proporciona una informacioacuten de gestioacuten accesible correcta uniforme y actualizada Proporciona un menor coste en la toma de

18

decisiones una mayor flexibilidad ante el entorno un mejor servicio al cliente y permite el redisentildeo de los procesos

Pero los Data Warehouse tambieacuten tienen algunas desventajas

Requieren una revisioacuten del modelo de datos objetos transacciones y ademaacutes del almacenamiento

Tienen un disentildeo complejo y multidisciplinar Requieren una reestructuracioacuten de los sistemas operacionales Tienen un alto coste Requieren sistemas aplicaciones y almacenamiento especiacutefico

Por uacuteltimo cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versioacuten maacutes reducida de un Data Warehouse a menudo conteniendo informacioacuten especiacutefica de alguacuten departamento como marketing finanzas o mantenimiento de la red Idealmente el Data Marts deberiacutea ser un subconjunto del Data Warehouse a fin de mantener consistencia en las praacutecticas de administracioacuten de datos corporativos y para mantener la seguridad y la integridad de la informacioacuten cruda que se estaacute usando Para las grandes compantildeiacuteas el Data Marts usualmente contiene una docena de gigabytes de datos Ahora podemos continuar y dar una explicacioacuten de lo que en realidad es Data Mining a pesar de que en este apartado hemos dado una definicioacuten de manera somera

13 iquestQueacute es Data Mining[14]

Cada diacutea generamos una gran cantidad de informacioacuten algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos Nos damos cuenta de que generamos informacioacuten cuando registramos nuestra entrada en el trabajo cuando entramos en un servidor para ver nuestro correo cuando pagamos con una tarjeta de creacutedito o cuando reservamos un boleto de avioacuten Otras veces no nos damos cuenta de que generamos informacioacuten como cuando conducimos por una viacutea donde estaacuten contabilizando el nuacutemero de automoacuteviles que pasan por minuto cuando se sigue nuestra navegacioacuten por Internet o cuando nos sacan una fotografiacutea del rostro al haber pasado cerca de una oficina gubernamental iquestCon queacute finalidad queremos generar informacioacuten Son muchos los motivos que nos llevan a generar informacioacuten ya que nos pueden ayudar a controlar optimizar administrar examinar investigar planificar predecir someter negociar o tomar decisiones de cualquier aacutembito seguacuten el dominio en que nos desarrollemos La informacioacuten por siacute misma estaacute considerada un bien patrimonial De esta forma si una empresa tiene una peacuterdida total o parcial de informacioacuten provoca bastantes perjuicios Es evidente que la informacioacuten debe ser protegida pero tambieacuten explotada

iquestQueacute nos ha permitido poder generar tanta informacioacuten En los uacuteltimos antildeos debido al desarrollo tecnoloacutegico a niveles exponenciales tanto en el aacuterea de coacutemputo como en la de transmisioacuten de datos ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacioacuten Sin duda existen cuatro factores importantes que nos han llevado a este suceso

19

1 El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente

2 El incremento de las velocidades de coacutemputo en los procesadores 3 Las mejoras en la confiabilidad y aumento de la velocidad en la transmisioacuten

de datos 4 El desarrollo de sistemas administradores de bases de datos maacutes poderosos

Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacioacuten en las bases de datos Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura ya que soacutelo se guarda (o escribe) en el disco duro pero nunca se hace uso de eacutel Generalmente todas las empresas usan un dato llamado dato-escritura-lectura que utilizan para hacer consultas dirigidas Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-anaacutelisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones Es necesario contar con tecnologiacuteas que nos ayuden a explotar el potencial de este tipo de datos La cantidad de informacioacuten que nos llega cada diacutea es tan inmensa que nos resulta difiacutecil asimilarla Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171769416 sitios donde nos pueden decir algo al respecto Suponiendo que nos tomemos un minuto para ver el contenido de cada paacutegina tardariacuteamos entonces 326 antildeos en visitarlas todas Esto es imposible y por lo tanto existe una clara necesidad de disponer de tecnologiacuteas que nos ayuden en nuestros procesos de buacutesqueda y auacuten maacutes de tecnologiacuteas que nos ayuden a comprender su contenido Como bien sabemos algunos sistemas producen una cantidad inmensa de datos estos datos con frecuencia contienen valiosa informacioacuten que puede resultar muy uacutetil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacioacuten Las dimensiones de las base de datos grandes (montantildeas) y sus velocidades de crecimiento hacen muy difiacutecil para un humano su anaacutelisis y la extraccioacuten de alguna informacioacuten importante (oro) Auacuten con el uso de herramientas estadiacutesticas claacutesicas esta tarea es casi imposible El Data Mining surge como una tecnologiacutea que intenta ayudar a comprender el contenido de una base de datos De forma general los datos son la materia prima bruta en el momento que el usuario les atribuye alguacuten significado especial pasan a convertirse en informacioacuten Cuando los especialistas elaboran o encuentran un modelo haciendo que la interpretacioacuten del confronto entre la informacioacuten y ese modelo represente un valor agregado entonces nos referimos al conocimiento En la figura 11 se ilustra la jerarquiacutea que existe en una base de datos entre dato informacioacuten y conocimiento Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquiacutea El aacuterea interna dentro del triaacutengulo representa los objetivos que se han propuesto La separacioacuten del triaacutengulo representa la estrecha unioacuten entre dato e informacioacuten no asiacute entre la informacioacuten y el conocimiento El Data Mining trabaja en el nivel superior buscando patrones comportamientos agrupaciones secuencias tendencias o asociaciones que puedan generar alguacuten modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisioacuten

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 9: Clase 6 Data Mining

9

Fases de un proyecto de Mineriacutea de Datos

1- Filtrado de datos

El formato de los datos contenidos en la fuente de datos (base de datos Data Warehouse)

nunca es el idoacuteneo y la mayoriacutea de las veces no es posible ni siquiera utilizar ninguacuten

algoritmo de mineriacutea sobre los datos en bruto

Mediante el preprocesado se filtran los datos (de forma que se eliminan valores

incorrectos no vaacutelidos desconocidos seguacuten las necesidades y el algoritmo a usar) se

obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del

proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo clustering)

2- Seleccioacuten de variables

Auacuten despueacutes de haber sido preprocesados en la mayoriacutea de los casos se tiene una cantidad

ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las

variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de

conocimiento obtenido del proceso de mineriacutea

Los meacutetodos para la seleccioacuten de caracteriacutesticas son baacutesicamente dos

Aquellos basados en la eleccioacuten de los mejores atributos del problema

Y aquellos que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

3- Algoritmos de Extraccioacuten de Conocimiento

Mediante una teacutecnica de mineriacutea de datos se obtiene un modelo de conocimiento que

representa patrones de comportamiento observados en los valores de las variables del

problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias

teacutecnicas a la vez para generar distintos modelos aunque generalmente cada teacutecnica obliga a

un preprocesado diferente de los datos

4- Interpretacioacuten y evaluacioacuten

Una vez obtenido el modelo se debe proceder a su validacioacuten comprobando que las

conclusiones que arroja son vaacutelidas y suficientemente satisfactorias En el caso de haber

obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los

modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos

alcanza los resultados esperados debe alterarse alguno de los pasos anteriores para generar

nuevos modelos

Tendencias

La mineriacutea de datos ha sufrido transformaciones en los uacuteltimos antildeos de acuerdo con

cambios tecnoloacutegicos de estrategias de maacuterketing la extensioacuten de los modelos de compra

en liacutenea etc Los maacutes importantes de ellos son

La importancia que han cobrado los datos no estructurados (texto paacuteginas de internet etc)

La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales

portales de internet etc

La exigencia de que los procesos funcionen praacutecticamente en liacutenea (por ejemplo que frente

a un fraude con una tarjeta de creacutedito eacutesta pueda ser cancelada casi al instante)

10

Principios de Data Mining

1 Resumen

2 Introduccioacuten

3 Panorama general de data mining

4 La forma en que se trabaja con Data Mining

5 Aplicaciones de Data Mining

6 Extensiones de Data Mining

7 Conclusiones y perspectivas

8 Referencias

RESUMEN

En los uacuteltimos antildeos ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos debido baacutesicamente al gran poder de procesamiento de las maacutequinas como a su bajo costo de almacenamiento Sin embargo dentro de estas enormes masas de datos existe una gran cantidad de informacioacuten oculta de gran importancia estrateacutegica a la que no se puede acceder por las teacutecnicas claacutesicas de recuperacioacuten de la informacioacuten El descubrimiento de esta informacioacuten oculta es posible gracias a la Mineriacutea de Datos (Data Mining) que entre otras sofisticadas teacutecnicas aplica la inteligencia

artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creacioacuten de modelos es decir representaciones abstractas de la realidad pero es el descubrimiento del conocimiento (KDD por sus siglas en ingleacutes) que se encarga de la preparacioacuten de los datos y la interpretacioacuten de los resultados obtenidos los cuales dan un significado a estos patrones encontrados Asiacute el valor real de los datos reside en la informacioacuten que se puede extraer de ellos informacioacuten que ayude a tomar decisiones o mejorar nuestra comprensioacuten de los fenoacutemenos que nos rodean Hoy maacutes que nunca los meacutetodos analiacuteticos avanzados son el arma secreta de muchos negocios exitosos Empleando meacutetodos analiacuteticos avanzados para la explotacioacuten de datos los negocios incrementan sus ganancias maximizan la eficiencia operativa reducen costos y mejoran la satisfaccioacuten del cliente El presente trabajo enfatiza el uso del Data Mining para el descubrimiento del conocimiento y su uso predominante en nivel empresarial a fin de contribuir en la toma de decisiones taacutecticas y estrateacutegicas en una organizacioacuten proporcionando un sentido automatizado para la generacioacuten de conocimiento Vimos cual es la relacioacuten entre Data Mining y un Data Warehouse conocimos lo maacutes relevante sobre el proceso de Data Warehousing y como esta inmerso el Data Mining sobre su arquitectura Asiacute mismo presentamos algunas fases generales y otras un poco maacutes especiacuteficas sobre como implementar un proyecto Data Mining Tambieacuten conocimos cuales son las diferencias entre Data Mining y los procesos de estadiacutestica a pesar de que son ramas con notables diferencias ambas pueden complementarse en sus procesos de toma de decisiones y presentacioacuten de resultados

11

Se incluyeron aplicaciones de Data Mining en varias aacutereas ademaacutes de la empresarial y se da a conocer de forma muy general el alcance que tiene el utilizar un proceso de este tipo Ademaacutes hablamos de algunas herramientas de distribucioacuten libre y algunas comerciales que son empleadas para emprender proyectos de Data Mining Conocimos dos extensiones de Data Mining Web Mining y Text Mining finalmente dimos algunos puntos de vista comentarios y opiniones sobre lo que es Data Mining y lo que se espera de esta tecnologiacutea en los proacuteximos antildeos

INTRODUCCIOacuteN

Desde eacutepocas remotas la humanidad se ha preocupado por la creacioacuten de bienes con el miacutenimo de recursos Distintos pueblos y en distintos periacuteodos se practicaban la previsioacuten planeacioacuten y organizacioacuten de grupos para ejercitar diversas actividades (entre ellas la pesca agricultura el comercio la guerra etc) En antildeos maacutes recientes durante la revolucioacuten industrial se pusieron en praacutectica ideas que sirvieron para la creacioacuten de la administracioacuten ya que durante ese tiempo se pensoacute en la manera de producir maacutes con menos recursos A partir de ese momento precursores e idealistas fueron sentando las bases para la creacioacuten de la administracioacuten convirtieacutendola en una ciencia La humanidad ha utilizado varias formas para llevar a cabo transacciones de los bienes tal es el caso de los antiguos pueblos al utilizar monedas de metal con diferentes insignias descripciones y denominaciones para el intercambio de artiacuteculos o servicios Todo esto nos lleva a decir que es necesario conocer las herramientas y hacer buen uso de ellas para que una empresa pueda evaluar planes decisiones poliacuteticas procedimientos y en general todo lo concerniente a ella entre estas herramientas podemos hablar de herramientas contables financieras matemaacuteticas economiacutea y de informacioacuten El mundo experimenta cambios fundamentales Los continuos avances en tecnologiacutea de computadoras y comunicaciones tienen un fuerte impacto sobre la forma en que las personas trabajan La tecnologiacutea y las expectativas de las personas que la utilizan estaacuten modificando gradualmente las caracteriacutesticas de los sistemas de

informacioacuten Actualmente la economiacutea de muchas empresas y paiacuteses estaacute basada en la informacioacuten maacutes en la tecnologiacutea de sistemas de informacioacuten que sobre las maacutequinas y productos no relacionados con ella El desarrollo de los sistemas de informacioacuten juega en este tiempo un papel muy valioso dentro de las organizaciones En la era industrial lo maacutes importante era el uso del capital y recursos tangibles para generar nuevos productos Actualmente los recursos baacutesicos son las ideas y el uso de informacioacuten El empleo estrateacutegico de la informacioacuten continuaraacute creando en todas las empresas y organizaciones nuevas oportunidades[13] Para desarrollar un sistema de informacioacuten se necesita tecnologiacutea y gente desde los usuarios de la informacioacuten pasando por los operadores capturistas de datos y analistas de sistemas hasta llegar a los niveles directivos de toda la organizacioacuten Los primeros programadores de computadoras desarrollaban aplicaciones que satisfaciacutean vagamente los requerimientos de informacioacuten de los usuarios finales Ahora gracias a las herramientas de hardware y software con las que se cuenta es mucho maacutes faacutecil obtener la informacioacuten necesaria y a tiempo Una de estas herramientas son los Sistemas Administradores de Bases de Datos(DBMS por sus

12

siglas en ingleacutes) pero vayamos maacutes haya iquestqueacute sucederiacutea si adoptamos herramientas o teacutecnicas de bases de datos que nos digan queacute hacer seguacuten las informacioacuten que ellas presentan esto nos conduce a hablar de Data Mining o Mineriacutea de Datos Mientras que la innovacioacuten y la originalidad son habilidades fundamentales para la supervivencia de las empresas su eacutexito y prosperidad depende tambieacuten de decisiones eficientes y competitivas que deben ser tomadas en cortos intervalos de tiempo Para tomar decisiones es fundamental contar con informacioacuten de calidad Hoy en diacutea el nivel gerencial cuenta con una eficaz herramienta para lograr ese objetivo las teacutecnicas de Data Mining Con respecto a los nuevos usos de las bases de datos el Data Mining aparece como uno de los maacutes prometedores unido y fuertemente relacionado con los problemas asociados a los grandes almacenes de datos llamados Data Warehouses La relacioacuten entre el costo de los ordenadores y la atencioacuten humana ha cambiado sustancialmente El recurso maacutes precioso es el factor humano y los ordenadores deben potenciarlo Esto plantea una nueva filosofiacutea de acceso a la informacioacuten donde los ordenadores deben analizar los datos resumirlos organizarlos y resolver cuestiones mucho maacutes complejas que las actuales ofreciendo al usuario la informacioacuten que realmente le interesa Este proceso como se veraacute a lo largo de este trabajo esta muy ligado a cuestiones de Data Mining y Data Warehause Por el momento solo diremos que Data Mining es la integracioacuten de un conjunto de aacutereas que tienen como propoacutesito la identificacioacuten de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisiones en el transcurso de este trabajo detallaremos esto y seraacute de una forma maacutes comprensible Las teacutecnicas de Data Mining son el resultado de un largo proceso de investigacioacuten y desarrollo de productos Esta evolucioacuten comenzoacute cuando los datos de negocios fueron almacenados por primera vez en computadoras y continuoacute con mejoras en el acceso a los datos y maacutes recientemente con tecnologiacuteas generadas para permitir a los usuarios navegar a traveacutes de los datos en tiempo real Data Mining toma este proceso de evolucioacuten maacutes allaacute del acceso y navegacioacuten retrospectiva de los datos hacia la entrega de informacioacuten prospectiva y proactiva Data Mining estaacute listo para su aplicacioacuten en la comunidad de negocios porque estaacute soportado por tres tecnologiacuteas que ya estaacuten suficientemente maduras

Recoleccioacuten masiva de datos Potentes computadoras con multiprocesadores Algoritmos de Data Mining

Las bases de datos comerciales estaacuten creciendo a un ritmo sin precedentes Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontroacute que el 19 de los que contestaron estaacuten por encima del nivel de los 50 Gigabytes En algunas industrias tales como ventas al por menor (retail) estos nuacutemeros pueden ser auacuten mayores MCI Telecommunications Corp cuenta con una base de datos de 3 terabytes + 1 terabyte de iacutendices y overhead corriendo en MVS sobre IBM SP2 La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma maacutes costo-efectiva con tecnologiacutea de computadoras con multiprocesamiento paralelo Los algoritmos de Data Mining

13

utilizan teacutecnicas que han existido por lo menos desde hace 10 antildeos pero que soacutelo han sido implementadas recientemente como herramientas maduras confiables entendibles que consistentemente son maacutes performantes que meacutetodos estadiacutesticos claacutesicos En la evolucioacuten desde los datos de negocios a informacioacuten de negocios cada nuevo paso se basa en el previo Por ejemplo el acceso a datos dinaacutemicos es criacutetico para las aplicaciones de navegacioacuten de datos (drill through applications) y la habilidad para almacenar grandes bases de datos es criacutetica para Data Mining Los componentes esenciales de la tecnologiacutea de Data Mining han estado bajo desarrollo por deacutecadas en aacutereas de investigacioacuten como estadiacutesticas inteligencia artificial y aprendizaje de maacutequinas Hoy la madurez de estas teacutecnicas junto con los motores de bases de datos relacionales de alta performance hicieron que estas tecnologiacuteas fueran praacutecticas para los entornos de Data Warehouse actuales La idea de Data Mining no es nueva Desde los antildeos sesenta los estadiacutesticos manejaban teacuterminos como Data Fishing Data Mining o Data Archaeology con la idea de encontrar correlaciones sin una hipoacutetesis previa en bases de datos con ruido A principios de los antildeos ochenta Rakesh Agrawal Gio Wiederhold Robert Blum y Gregory Piatetsky-Shapiro entre otros empezaron a consolidar los teacuterminos de Data Mining y KDD (Knowledge Discovery in Databases Descubrimiento de Conocimiento en Bases de Datos) A finales de los antildeos ochenta soacutelo existiacutean un par de empresas dedicadas a esta tecnologiacutea en 2002 ya habiacutea maacutes de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones Las listas de discusioacuten sobre este tema las forman investigadores de maacutes de ochenta paiacuteses Esta tecnologiacutea ha sido un buen punto de encuentro entre personas pertenecientes al aacutembito acadeacutemico y al de los negocios[20] El presente trabajo tiene como finalidad dar a conocer una perspectiva general acerca de todo lo referente a la teoriacutea de Data Mining existen teacutecnicas de implantacioacuten de Data Mining algoritmos reglas etc de las cuales no daremos mayor detalle ya que no se encuentran como un objetivo de este documento solo se mencionaraacuten como la base teoacuterica de la Mineriacutea de Datos Lo que siacute perseguimos de manera especiacutefica es dejar en claro queacute es el concepto de Data Mining sus expectativas o finalidades dar a conocer sus cimientos y a queacute nos llevan todos ellos sus posibles aplicaciones y coacutemo se esta usando actualmente en algunas aacutereas principalmente en el nivel empresarial Aquiacute cabe mencionar que Data Mining es un proceso utilizado frecuentemente en macro empresas sin embargo tambieacuten es utilizado en las llamadas Pymes (Pequentildeas Y Medianas EmpresaS) y ademaacutes a nivel cientiacutefico aunque con menor frecuencia es por ello que nos hemos enfocado sobre todo a la utilizacioacuten de dicho proceso en las empresas grandes y coacutemo es que funciona en ellas auacuten asiacute creiacutemos conveniente introducir algunos ejemplos de su uso en otros entornos El primer capiacutetulo Panorama general de Data Mining comienza con un ejemplo introductorio para dar una idea general del por queacute es necesario utilizar Data Mining en ciertos casos esto nos lleva a dar un paso previo antes de conocer exactamente queacute es Data Mining Data Warehouse un paso antes de Data Mining nos menciona queacute relacioacuten hay entre Data Warehouse y Data Mining es importante entender este concepto ya que podriacuteamos decir que es una de las

14

principales bases de la Mineriacutea de Datos finalmente el capiacutetulo nos dice lo que en realidad es Data Mining sus objetivos y algunas formas generales de su utilizacioacuten

La forma en queacute trabaja Data Mining el capiacutetulo nuacutemero dos menciona de forma muy general como es que estaacute constituido Data Mining cuaacutel es su arquitectura la forma en que se implementa y las fases que se siguen para una buena implantacioacuten de un proyecto de Data Mining como bien lo hemos mencionado anteriormente este no es un trabajo para describir detalladamente las teacutecnicas de la Mineriacutea de Datos por ello cabe aclarar que este capiacutetulo tiene un enfoque teoacuterico baacutesico

Los dos primeros capiacutetulos nos sirven para entender baacutesicamente cuaacuteles podriacutean ser las aplicaciones de Data Mining el tercer capiacutetulo Aplicaciones de Data Mining nos da varios ejemplos de doacutende y coacutemo puede ser utilizado este proceso y cuaacuteles son sus ventajas en estas aacutereas de aplicacioacuten (principalmente en nivel empresarial)

El capiacutetulo nuacutemero cuatro Extensiones de Data Mining abordamos dos temas complementarios que tambieacuten se utilizan como procesos de Data Mining a saber el Web Mining y el Text Mining Estos temas tambieacuten los podriacuteamos ver como una aplicacioacuten de Data Mining sin embargo los hemos colocado en un capiacutetulo aparte ya que estaacuten considerados como un campo diferente esto es aplicaciones vistas como un meta Data Mining

Finalmente el uacuteltimo capiacutetulo Conclusiones y perspectivas damos nuestras conclusiones y algunos puntos de vista particulares mencionamos cuaacuteles son las oportunidades que existen para trabajar en proyectos de este tipo y queacute es lo que se espera de Data Mining en los proacuteximos antildeos

Hemos incluido tambieacuten un Resumen de todo lo abordado durante nuestro documento que contempla los aspectos maacutes importantes aquiacute tratados En la bibliografiacutea podraacute encontrar las direcciones http de donde se tomaron muchos de los aspectos mencionados en el transcurso de este trabajo cuando coloquemos un nuacutemero por ejemplo [2] al final de un paacuterrafo o cualquier sentencia estamos haciendo referencia al nuacutemero de artiacuteculo de internet mencionado en la bibliografiacutea de donde fue tomado dicho paacuterrafo o sentencia

CAPITULO I

PANORAMA GENERAL DE DATA MINING

En este capiacutetulo abordamos los conceptos fundamentales relacionados con Data Mining que nos ayudaraacuten a tener sobre todo una idea general de eacutel y ademaacutes nos auxiliaraacuten para entender los siguientes capiacutetulos Comenzamos con un ejemplo introductorio en la seccioacuten 11 Ejemplo de un problema asociado a Data Mining donde pretendemos dar a conocer una aplicacioacuten muy simple de Data Mining Continuamos con el apartado 12 Data Warehouse Un paso antes de Data Mining ya que creemos conveniente tener las nociones adecuadas de este tema que se relaciona fuertemente con Data Mining y del cuaacutel haremos mencioacuten en el resto de este trabajo Finalmente en la seccioacuten 13 iquestQueacute es Data Mining explicamos de la forma que creiacutemos uacutetil el concepto real de Data Mining sus objetivos y una forma breve de coacutemo y doacutende se trabaja con eacutel

15

11 Ejemplo de un problema asociado a Data Mining [18]

Para poder generar una idea general del significado y aplicacioacuten de Data Mining consideremos el siguiente problema

Suponga que usted es el gerente de mercadeo para una compantildeiacutea de telefoniacutea celular El problema considera lo siguiente La desercioacuten de clientes es muy alta La produccioacuten(despueacutes de que el contrato expira) es del 40 Los clientes reciben un teleacutefono de regalo con el contrato Usted paga una comisioacuten de ventas por contrato Se le da un teleacutefono nuevo a cada persona cuyo contrato ha expirado lo cual

es muy caro y por ende poco rentable para la compantildeiacutea Traer de regreso a un cliente despueacutes de que se va es difiacutecil y caro

111 Posible solucioacuten al problema de ejemplo

Se debe predecir queacute clientes abandonaraacuten la compantildeiacutea tres meses antes de que el contrato expire

Si queremos conservar a un cliente que creamos abandonaraacute la empresa se le deberiacutea ofrecer un nuevo teleacutefono

No hay que prestarle atencioacuten a los clientes que tienen altas posibilidades de quedarse en la empresa

Si hay clientes que no deseamos conservar simplemente no hacemos nada

Pues bien es muy faacutecil pretender hacer todo lo mencionado antes pero ahora la pregunta es iquestcoacutemo lo hacemos No podemos tomar decisiones a la ligera ni tomar medidas de las cuales estamos seguros que fallaraacuten por ejemplo suena absurdo en cuestiones como eacutestas recurrir a la lectura del Tarot La solucioacuten debe basarse en algo maacutes formal y coherente y una de esas alternativas es Data Mining

112 Solucioacuten del problema ejemplo a traveacutes de Data Mining

La solucioacuten que puede dar Data Mining al ejemplo del problema mencionado en esta seccioacuten considera lo siguiente

Interactuar dinaacutemicamente con el cliente Trabajar hacia delante y no hacia atraacutes Mejorar la calidad de la interaccioacuten iquestEl cliente quiere interactuar

o La liacutenea de ganancias se salva Optimizar el tiempo de interaccioacuten

o Aumentar el valor del cliente constantemente o Aumentar el valor de vida del cliente

En esta seccioacuten hemos visto solo un ejemplo introductoria en las secciones subsecuentes trataremos otros casos e iremos explicando como es que Data Mining ofrece soluciones a problemas de empresas

12 Data Warehouse Un paso antes de Data Mining

16

Antes de dar a conocer claramente lo que significa Data Mining es preciso dejar en claro lo que es un Data Warehouse que en principio lo podemos ver como un concepto que esta antes de Data Mining y es la base de este (aunque no siempre es asiacute) por ello el objetivo de esta seccioacuten es dar una idea general a este concepto no entraremos en muchos detalles pero daremos a conocer lo maacutes relevante para que en las secciones siguientes cuando hablemos de Data Warehouse o Data Warehousing no haya dudas sobre lo que nos estamos refiriendo

Las Bases de Datos (BD) de una empresa utilizan los ordenadores como medio para organizar sus datos de forma que sean comprensibles para las personas Este proceso es conocido como Data Warehousing La comprensioacuten de los datos almacenados es esencial para cualquier organizacioacuten ya que constituye un elemento baacutesico en la toma de decisiones

Un Data Warehouse es un almaceacuten o repositorio de datos categorizados que concentra un gran volumen de informacioacuten de intereacutes para toda una organizacioacuten la cual se distribuye por medio de diversas herramientas de consulta y de creacioacuten de informes orientadas a la toma de decisiones El objetivo del Data Warehouse (DW) es agrupar los datos con el propoacutesito de facilitar su posterior anaacutelisis de forma que sean faacuteciles de acceder y posteriormente analizar informacioacuten sobre la propia empresa A este tipo de datos se les conoce como informativos Los sistemas que manejan estos datos se denominan OLAP (Online Analytical Processing) Existe muchas definiciones formales de DW de distintos autores pero una de las mas famosas puede ser la dada por Inmon en 1992 Un Data Warehouse es una coleccioacuten de datos orientados a temas integrados no-volaacutetiles y variante en el tiempo organizados para soportar necesidades empresariales Los Data Warehouses a menudo almacenan gran cantidad de informacioacuten la cual estaacute a veces subdividida en pequentildeas unidades loacutegicas Perioacutedicamente se importan estos datos de otros sistemas de informacioacuten dentro del Data Warehouse para realizar sobre ellos un procesamiento posterior Un Data Warehouse se diferencia de una Base de Datos operacional de una empresa diremos que un Data Warehouse puede derivarse de la Base de Datos corporativa mediante la importacioacuten de informacioacuten pero el DW no es esa BD operacional[7]

Muchos de los datos de una empresa se utilizan como soporte a los negocios por eso a este tipo de datos se les denomina operacionales Los sistemas usados con el fin de recogerlos reciben el nombre de OLTP (Online Transaction Processing)[10]

Las principales caracteriacutesticas o propiedades de un DW son las siguientes

El DW estaacute orientado a la toma de decisiones Un buen disentildeo de la base de datos favorece el anaacutelisis y la recuperacioacuten de datos para obtener una ventaja estrateacutegica y para facilitar las decisiones de marketing

El DW almacena datos categorizaacutendolos o estructuraacutendolos de forma que favorezcan el anaacutelisis de los datos y puedan proporcionar anaacutelisis histoacutericos

El DW no estaacute orientado a procesos relacionados con la operativa de la empresa es decir que solo esta destinado a funcionar como un almaceacuten de datos

El DW estaacute preparado para ser explotado mediante herramientas especiacuteficas que permiten la extraccioacuten de informacioacuten significativa y patrones de

17

comportamiento que permanecen ocultos en un enorme repositorio de datos Esta explotacioacuten de los datos se suele realizar con herramientas de Data Mining

121 Software para un Data Warehouse[10]

La informacioacuten estrateacutegica se almacena en Gigabytes(tal vez maacutes) de datos de marketing En este caso se necesita software especializado que permita capturar los datos relevantes en forma raacutepida El software no deberiacutea limitarse uacutenicamente al acceso a los datos sino tambieacuten al anaacutelisis significativo de los datos esto es transformar los datos de la informacioacuten cruda o no procesada en informacioacuten uacutetil para la empresa

El software o herramientas de negocios inteligentes se colocan sobre la plataforma Data Warehousing y proveen este servicio Debido a que son el punto principal de contacto entre la aplicacioacuten del depoacutesito y la gente que lo usa estas herramientas pueden constituir la diferencia entre el eacutexito o fracaso de un depoacutesito Las herramientas de negocio inteligentes se han convertido en los sucesores de los sistemas de soporte de decisioacuten pero tienen un alcance maacutes amplio No solamente ayudan en las decisiones de soporte sino en muchos casos estas herramientas soportan muchas funciones operacionales y de misioacuten-criacutetica de la compantildeiacutea Sin embargo estos productos no son infalibles ya que soacutelo se consigue el maacuteximo provecho del Data Warehouse si eligen las herramientas adecuadas a las necesidades de cada usuario final Una de estas herramientas es Data Mining sin embargo hay otras que no mencionaremos ya que se encuentran fuera de los objetivos de este trabajo El proceso de Data Mining extrae los conocimientos guardados o informacioacuten predictiva desde el Data Warehouse sin requerir pedidos o preguntas especiacuteficas Data Mining usa algunas de las teacutecnicas de computacioacuten maacutes avanzadas para generar modelos y asociaciones como redes neurales deteccioacuten de desviacioacuten modelado predictivo y programacioacuten geneacutetica

122 Ventajas y Desventajas del Data Warehouse

La utilizacioacuten de Data Warehouse proporciona una serie de ventajas

Proporciona un gran poder de procesamiento de informacioacuten Permite una mayor flexibilidad y rapidez en el acceso a la informacioacuten Facilita la toma de decisiones en los negocios Las empresas obtienen un aumento de la productividad Proporciona una comunicacioacuten fiable entre todos los departamentos de la

empresa Mejora las relaciones con los proveedores y los clientes Permite conocer queacute estaacute pasando en el negocio es decir estar siempre

enterado de los buenos y malos resultados Transforma los datos en informacioacuten y la informacioacuten en conocimiento Permite hacer planes de forma maacutes efectiva Reduce los tiempos de respuesta y los costes de operacioacuten

Resumiendo el Data Warehouse proporciona una informacioacuten de gestioacuten accesible correcta uniforme y actualizada Proporciona un menor coste en la toma de

18

decisiones una mayor flexibilidad ante el entorno un mejor servicio al cliente y permite el redisentildeo de los procesos

Pero los Data Warehouse tambieacuten tienen algunas desventajas

Requieren una revisioacuten del modelo de datos objetos transacciones y ademaacutes del almacenamiento

Tienen un disentildeo complejo y multidisciplinar Requieren una reestructuracioacuten de los sistemas operacionales Tienen un alto coste Requieren sistemas aplicaciones y almacenamiento especiacutefico

Por uacuteltimo cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versioacuten maacutes reducida de un Data Warehouse a menudo conteniendo informacioacuten especiacutefica de alguacuten departamento como marketing finanzas o mantenimiento de la red Idealmente el Data Marts deberiacutea ser un subconjunto del Data Warehouse a fin de mantener consistencia en las praacutecticas de administracioacuten de datos corporativos y para mantener la seguridad y la integridad de la informacioacuten cruda que se estaacute usando Para las grandes compantildeiacuteas el Data Marts usualmente contiene una docena de gigabytes de datos Ahora podemos continuar y dar una explicacioacuten de lo que en realidad es Data Mining a pesar de que en este apartado hemos dado una definicioacuten de manera somera

13 iquestQueacute es Data Mining[14]

Cada diacutea generamos una gran cantidad de informacioacuten algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos Nos damos cuenta de que generamos informacioacuten cuando registramos nuestra entrada en el trabajo cuando entramos en un servidor para ver nuestro correo cuando pagamos con una tarjeta de creacutedito o cuando reservamos un boleto de avioacuten Otras veces no nos damos cuenta de que generamos informacioacuten como cuando conducimos por una viacutea donde estaacuten contabilizando el nuacutemero de automoacuteviles que pasan por minuto cuando se sigue nuestra navegacioacuten por Internet o cuando nos sacan una fotografiacutea del rostro al haber pasado cerca de una oficina gubernamental iquestCon queacute finalidad queremos generar informacioacuten Son muchos los motivos que nos llevan a generar informacioacuten ya que nos pueden ayudar a controlar optimizar administrar examinar investigar planificar predecir someter negociar o tomar decisiones de cualquier aacutembito seguacuten el dominio en que nos desarrollemos La informacioacuten por siacute misma estaacute considerada un bien patrimonial De esta forma si una empresa tiene una peacuterdida total o parcial de informacioacuten provoca bastantes perjuicios Es evidente que la informacioacuten debe ser protegida pero tambieacuten explotada

iquestQueacute nos ha permitido poder generar tanta informacioacuten En los uacuteltimos antildeos debido al desarrollo tecnoloacutegico a niveles exponenciales tanto en el aacuterea de coacutemputo como en la de transmisioacuten de datos ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacioacuten Sin duda existen cuatro factores importantes que nos han llevado a este suceso

19

1 El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente

2 El incremento de las velocidades de coacutemputo en los procesadores 3 Las mejoras en la confiabilidad y aumento de la velocidad en la transmisioacuten

de datos 4 El desarrollo de sistemas administradores de bases de datos maacutes poderosos

Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacioacuten en las bases de datos Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura ya que soacutelo se guarda (o escribe) en el disco duro pero nunca se hace uso de eacutel Generalmente todas las empresas usan un dato llamado dato-escritura-lectura que utilizan para hacer consultas dirigidas Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-anaacutelisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones Es necesario contar con tecnologiacuteas que nos ayuden a explotar el potencial de este tipo de datos La cantidad de informacioacuten que nos llega cada diacutea es tan inmensa que nos resulta difiacutecil asimilarla Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171769416 sitios donde nos pueden decir algo al respecto Suponiendo que nos tomemos un minuto para ver el contenido de cada paacutegina tardariacuteamos entonces 326 antildeos en visitarlas todas Esto es imposible y por lo tanto existe una clara necesidad de disponer de tecnologiacuteas que nos ayuden en nuestros procesos de buacutesqueda y auacuten maacutes de tecnologiacuteas que nos ayuden a comprender su contenido Como bien sabemos algunos sistemas producen una cantidad inmensa de datos estos datos con frecuencia contienen valiosa informacioacuten que puede resultar muy uacutetil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacioacuten Las dimensiones de las base de datos grandes (montantildeas) y sus velocidades de crecimiento hacen muy difiacutecil para un humano su anaacutelisis y la extraccioacuten de alguna informacioacuten importante (oro) Auacuten con el uso de herramientas estadiacutesticas claacutesicas esta tarea es casi imposible El Data Mining surge como una tecnologiacutea que intenta ayudar a comprender el contenido de una base de datos De forma general los datos son la materia prima bruta en el momento que el usuario les atribuye alguacuten significado especial pasan a convertirse en informacioacuten Cuando los especialistas elaboran o encuentran un modelo haciendo que la interpretacioacuten del confronto entre la informacioacuten y ese modelo represente un valor agregado entonces nos referimos al conocimiento En la figura 11 se ilustra la jerarquiacutea que existe en una base de datos entre dato informacioacuten y conocimiento Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquiacutea El aacuterea interna dentro del triaacutengulo representa los objetivos que se han propuesto La separacioacuten del triaacutengulo representa la estrecha unioacuten entre dato e informacioacuten no asiacute entre la informacioacuten y el conocimiento El Data Mining trabaja en el nivel superior buscando patrones comportamientos agrupaciones secuencias tendencias o asociaciones que puedan generar alguacuten modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisioacuten

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 10: Clase 6 Data Mining

10

Principios de Data Mining

1 Resumen

2 Introduccioacuten

3 Panorama general de data mining

4 La forma en que se trabaja con Data Mining

5 Aplicaciones de Data Mining

6 Extensiones de Data Mining

7 Conclusiones y perspectivas

8 Referencias

RESUMEN

En los uacuteltimos antildeos ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos debido baacutesicamente al gran poder de procesamiento de las maacutequinas como a su bajo costo de almacenamiento Sin embargo dentro de estas enormes masas de datos existe una gran cantidad de informacioacuten oculta de gran importancia estrateacutegica a la que no se puede acceder por las teacutecnicas claacutesicas de recuperacioacuten de la informacioacuten El descubrimiento de esta informacioacuten oculta es posible gracias a la Mineriacutea de Datos (Data Mining) que entre otras sofisticadas teacutecnicas aplica la inteligencia

artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creacioacuten de modelos es decir representaciones abstractas de la realidad pero es el descubrimiento del conocimiento (KDD por sus siglas en ingleacutes) que se encarga de la preparacioacuten de los datos y la interpretacioacuten de los resultados obtenidos los cuales dan un significado a estos patrones encontrados Asiacute el valor real de los datos reside en la informacioacuten que se puede extraer de ellos informacioacuten que ayude a tomar decisiones o mejorar nuestra comprensioacuten de los fenoacutemenos que nos rodean Hoy maacutes que nunca los meacutetodos analiacuteticos avanzados son el arma secreta de muchos negocios exitosos Empleando meacutetodos analiacuteticos avanzados para la explotacioacuten de datos los negocios incrementan sus ganancias maximizan la eficiencia operativa reducen costos y mejoran la satisfaccioacuten del cliente El presente trabajo enfatiza el uso del Data Mining para el descubrimiento del conocimiento y su uso predominante en nivel empresarial a fin de contribuir en la toma de decisiones taacutecticas y estrateacutegicas en una organizacioacuten proporcionando un sentido automatizado para la generacioacuten de conocimiento Vimos cual es la relacioacuten entre Data Mining y un Data Warehouse conocimos lo maacutes relevante sobre el proceso de Data Warehousing y como esta inmerso el Data Mining sobre su arquitectura Asiacute mismo presentamos algunas fases generales y otras un poco maacutes especiacuteficas sobre como implementar un proyecto Data Mining Tambieacuten conocimos cuales son las diferencias entre Data Mining y los procesos de estadiacutestica a pesar de que son ramas con notables diferencias ambas pueden complementarse en sus procesos de toma de decisiones y presentacioacuten de resultados

11

Se incluyeron aplicaciones de Data Mining en varias aacutereas ademaacutes de la empresarial y se da a conocer de forma muy general el alcance que tiene el utilizar un proceso de este tipo Ademaacutes hablamos de algunas herramientas de distribucioacuten libre y algunas comerciales que son empleadas para emprender proyectos de Data Mining Conocimos dos extensiones de Data Mining Web Mining y Text Mining finalmente dimos algunos puntos de vista comentarios y opiniones sobre lo que es Data Mining y lo que se espera de esta tecnologiacutea en los proacuteximos antildeos

INTRODUCCIOacuteN

Desde eacutepocas remotas la humanidad se ha preocupado por la creacioacuten de bienes con el miacutenimo de recursos Distintos pueblos y en distintos periacuteodos se practicaban la previsioacuten planeacioacuten y organizacioacuten de grupos para ejercitar diversas actividades (entre ellas la pesca agricultura el comercio la guerra etc) En antildeos maacutes recientes durante la revolucioacuten industrial se pusieron en praacutectica ideas que sirvieron para la creacioacuten de la administracioacuten ya que durante ese tiempo se pensoacute en la manera de producir maacutes con menos recursos A partir de ese momento precursores e idealistas fueron sentando las bases para la creacioacuten de la administracioacuten convirtieacutendola en una ciencia La humanidad ha utilizado varias formas para llevar a cabo transacciones de los bienes tal es el caso de los antiguos pueblos al utilizar monedas de metal con diferentes insignias descripciones y denominaciones para el intercambio de artiacuteculos o servicios Todo esto nos lleva a decir que es necesario conocer las herramientas y hacer buen uso de ellas para que una empresa pueda evaluar planes decisiones poliacuteticas procedimientos y en general todo lo concerniente a ella entre estas herramientas podemos hablar de herramientas contables financieras matemaacuteticas economiacutea y de informacioacuten El mundo experimenta cambios fundamentales Los continuos avances en tecnologiacutea de computadoras y comunicaciones tienen un fuerte impacto sobre la forma en que las personas trabajan La tecnologiacutea y las expectativas de las personas que la utilizan estaacuten modificando gradualmente las caracteriacutesticas de los sistemas de

informacioacuten Actualmente la economiacutea de muchas empresas y paiacuteses estaacute basada en la informacioacuten maacutes en la tecnologiacutea de sistemas de informacioacuten que sobre las maacutequinas y productos no relacionados con ella El desarrollo de los sistemas de informacioacuten juega en este tiempo un papel muy valioso dentro de las organizaciones En la era industrial lo maacutes importante era el uso del capital y recursos tangibles para generar nuevos productos Actualmente los recursos baacutesicos son las ideas y el uso de informacioacuten El empleo estrateacutegico de la informacioacuten continuaraacute creando en todas las empresas y organizaciones nuevas oportunidades[13] Para desarrollar un sistema de informacioacuten se necesita tecnologiacutea y gente desde los usuarios de la informacioacuten pasando por los operadores capturistas de datos y analistas de sistemas hasta llegar a los niveles directivos de toda la organizacioacuten Los primeros programadores de computadoras desarrollaban aplicaciones que satisfaciacutean vagamente los requerimientos de informacioacuten de los usuarios finales Ahora gracias a las herramientas de hardware y software con las que se cuenta es mucho maacutes faacutecil obtener la informacioacuten necesaria y a tiempo Una de estas herramientas son los Sistemas Administradores de Bases de Datos(DBMS por sus

12

siglas en ingleacutes) pero vayamos maacutes haya iquestqueacute sucederiacutea si adoptamos herramientas o teacutecnicas de bases de datos que nos digan queacute hacer seguacuten las informacioacuten que ellas presentan esto nos conduce a hablar de Data Mining o Mineriacutea de Datos Mientras que la innovacioacuten y la originalidad son habilidades fundamentales para la supervivencia de las empresas su eacutexito y prosperidad depende tambieacuten de decisiones eficientes y competitivas que deben ser tomadas en cortos intervalos de tiempo Para tomar decisiones es fundamental contar con informacioacuten de calidad Hoy en diacutea el nivel gerencial cuenta con una eficaz herramienta para lograr ese objetivo las teacutecnicas de Data Mining Con respecto a los nuevos usos de las bases de datos el Data Mining aparece como uno de los maacutes prometedores unido y fuertemente relacionado con los problemas asociados a los grandes almacenes de datos llamados Data Warehouses La relacioacuten entre el costo de los ordenadores y la atencioacuten humana ha cambiado sustancialmente El recurso maacutes precioso es el factor humano y los ordenadores deben potenciarlo Esto plantea una nueva filosofiacutea de acceso a la informacioacuten donde los ordenadores deben analizar los datos resumirlos organizarlos y resolver cuestiones mucho maacutes complejas que las actuales ofreciendo al usuario la informacioacuten que realmente le interesa Este proceso como se veraacute a lo largo de este trabajo esta muy ligado a cuestiones de Data Mining y Data Warehause Por el momento solo diremos que Data Mining es la integracioacuten de un conjunto de aacutereas que tienen como propoacutesito la identificacioacuten de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisiones en el transcurso de este trabajo detallaremos esto y seraacute de una forma maacutes comprensible Las teacutecnicas de Data Mining son el resultado de un largo proceso de investigacioacuten y desarrollo de productos Esta evolucioacuten comenzoacute cuando los datos de negocios fueron almacenados por primera vez en computadoras y continuoacute con mejoras en el acceso a los datos y maacutes recientemente con tecnologiacuteas generadas para permitir a los usuarios navegar a traveacutes de los datos en tiempo real Data Mining toma este proceso de evolucioacuten maacutes allaacute del acceso y navegacioacuten retrospectiva de los datos hacia la entrega de informacioacuten prospectiva y proactiva Data Mining estaacute listo para su aplicacioacuten en la comunidad de negocios porque estaacute soportado por tres tecnologiacuteas que ya estaacuten suficientemente maduras

Recoleccioacuten masiva de datos Potentes computadoras con multiprocesadores Algoritmos de Data Mining

Las bases de datos comerciales estaacuten creciendo a un ritmo sin precedentes Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontroacute que el 19 de los que contestaron estaacuten por encima del nivel de los 50 Gigabytes En algunas industrias tales como ventas al por menor (retail) estos nuacutemeros pueden ser auacuten mayores MCI Telecommunications Corp cuenta con una base de datos de 3 terabytes + 1 terabyte de iacutendices y overhead corriendo en MVS sobre IBM SP2 La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma maacutes costo-efectiva con tecnologiacutea de computadoras con multiprocesamiento paralelo Los algoritmos de Data Mining

13

utilizan teacutecnicas que han existido por lo menos desde hace 10 antildeos pero que soacutelo han sido implementadas recientemente como herramientas maduras confiables entendibles que consistentemente son maacutes performantes que meacutetodos estadiacutesticos claacutesicos En la evolucioacuten desde los datos de negocios a informacioacuten de negocios cada nuevo paso se basa en el previo Por ejemplo el acceso a datos dinaacutemicos es criacutetico para las aplicaciones de navegacioacuten de datos (drill through applications) y la habilidad para almacenar grandes bases de datos es criacutetica para Data Mining Los componentes esenciales de la tecnologiacutea de Data Mining han estado bajo desarrollo por deacutecadas en aacutereas de investigacioacuten como estadiacutesticas inteligencia artificial y aprendizaje de maacutequinas Hoy la madurez de estas teacutecnicas junto con los motores de bases de datos relacionales de alta performance hicieron que estas tecnologiacuteas fueran praacutecticas para los entornos de Data Warehouse actuales La idea de Data Mining no es nueva Desde los antildeos sesenta los estadiacutesticos manejaban teacuterminos como Data Fishing Data Mining o Data Archaeology con la idea de encontrar correlaciones sin una hipoacutetesis previa en bases de datos con ruido A principios de los antildeos ochenta Rakesh Agrawal Gio Wiederhold Robert Blum y Gregory Piatetsky-Shapiro entre otros empezaron a consolidar los teacuterminos de Data Mining y KDD (Knowledge Discovery in Databases Descubrimiento de Conocimiento en Bases de Datos) A finales de los antildeos ochenta soacutelo existiacutean un par de empresas dedicadas a esta tecnologiacutea en 2002 ya habiacutea maacutes de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones Las listas de discusioacuten sobre este tema las forman investigadores de maacutes de ochenta paiacuteses Esta tecnologiacutea ha sido un buen punto de encuentro entre personas pertenecientes al aacutembito acadeacutemico y al de los negocios[20] El presente trabajo tiene como finalidad dar a conocer una perspectiva general acerca de todo lo referente a la teoriacutea de Data Mining existen teacutecnicas de implantacioacuten de Data Mining algoritmos reglas etc de las cuales no daremos mayor detalle ya que no se encuentran como un objetivo de este documento solo se mencionaraacuten como la base teoacuterica de la Mineriacutea de Datos Lo que siacute perseguimos de manera especiacutefica es dejar en claro queacute es el concepto de Data Mining sus expectativas o finalidades dar a conocer sus cimientos y a queacute nos llevan todos ellos sus posibles aplicaciones y coacutemo se esta usando actualmente en algunas aacutereas principalmente en el nivel empresarial Aquiacute cabe mencionar que Data Mining es un proceso utilizado frecuentemente en macro empresas sin embargo tambieacuten es utilizado en las llamadas Pymes (Pequentildeas Y Medianas EmpresaS) y ademaacutes a nivel cientiacutefico aunque con menor frecuencia es por ello que nos hemos enfocado sobre todo a la utilizacioacuten de dicho proceso en las empresas grandes y coacutemo es que funciona en ellas auacuten asiacute creiacutemos conveniente introducir algunos ejemplos de su uso en otros entornos El primer capiacutetulo Panorama general de Data Mining comienza con un ejemplo introductorio para dar una idea general del por queacute es necesario utilizar Data Mining en ciertos casos esto nos lleva a dar un paso previo antes de conocer exactamente queacute es Data Mining Data Warehouse un paso antes de Data Mining nos menciona queacute relacioacuten hay entre Data Warehouse y Data Mining es importante entender este concepto ya que podriacuteamos decir que es una de las

14

principales bases de la Mineriacutea de Datos finalmente el capiacutetulo nos dice lo que en realidad es Data Mining sus objetivos y algunas formas generales de su utilizacioacuten

La forma en queacute trabaja Data Mining el capiacutetulo nuacutemero dos menciona de forma muy general como es que estaacute constituido Data Mining cuaacutel es su arquitectura la forma en que se implementa y las fases que se siguen para una buena implantacioacuten de un proyecto de Data Mining como bien lo hemos mencionado anteriormente este no es un trabajo para describir detalladamente las teacutecnicas de la Mineriacutea de Datos por ello cabe aclarar que este capiacutetulo tiene un enfoque teoacuterico baacutesico

Los dos primeros capiacutetulos nos sirven para entender baacutesicamente cuaacuteles podriacutean ser las aplicaciones de Data Mining el tercer capiacutetulo Aplicaciones de Data Mining nos da varios ejemplos de doacutende y coacutemo puede ser utilizado este proceso y cuaacuteles son sus ventajas en estas aacutereas de aplicacioacuten (principalmente en nivel empresarial)

El capiacutetulo nuacutemero cuatro Extensiones de Data Mining abordamos dos temas complementarios que tambieacuten se utilizan como procesos de Data Mining a saber el Web Mining y el Text Mining Estos temas tambieacuten los podriacuteamos ver como una aplicacioacuten de Data Mining sin embargo los hemos colocado en un capiacutetulo aparte ya que estaacuten considerados como un campo diferente esto es aplicaciones vistas como un meta Data Mining

Finalmente el uacuteltimo capiacutetulo Conclusiones y perspectivas damos nuestras conclusiones y algunos puntos de vista particulares mencionamos cuaacuteles son las oportunidades que existen para trabajar en proyectos de este tipo y queacute es lo que se espera de Data Mining en los proacuteximos antildeos

Hemos incluido tambieacuten un Resumen de todo lo abordado durante nuestro documento que contempla los aspectos maacutes importantes aquiacute tratados En la bibliografiacutea podraacute encontrar las direcciones http de donde se tomaron muchos de los aspectos mencionados en el transcurso de este trabajo cuando coloquemos un nuacutemero por ejemplo [2] al final de un paacuterrafo o cualquier sentencia estamos haciendo referencia al nuacutemero de artiacuteculo de internet mencionado en la bibliografiacutea de donde fue tomado dicho paacuterrafo o sentencia

CAPITULO I

PANORAMA GENERAL DE DATA MINING

En este capiacutetulo abordamos los conceptos fundamentales relacionados con Data Mining que nos ayudaraacuten a tener sobre todo una idea general de eacutel y ademaacutes nos auxiliaraacuten para entender los siguientes capiacutetulos Comenzamos con un ejemplo introductorio en la seccioacuten 11 Ejemplo de un problema asociado a Data Mining donde pretendemos dar a conocer una aplicacioacuten muy simple de Data Mining Continuamos con el apartado 12 Data Warehouse Un paso antes de Data Mining ya que creemos conveniente tener las nociones adecuadas de este tema que se relaciona fuertemente con Data Mining y del cuaacutel haremos mencioacuten en el resto de este trabajo Finalmente en la seccioacuten 13 iquestQueacute es Data Mining explicamos de la forma que creiacutemos uacutetil el concepto real de Data Mining sus objetivos y una forma breve de coacutemo y doacutende se trabaja con eacutel

15

11 Ejemplo de un problema asociado a Data Mining [18]

Para poder generar una idea general del significado y aplicacioacuten de Data Mining consideremos el siguiente problema

Suponga que usted es el gerente de mercadeo para una compantildeiacutea de telefoniacutea celular El problema considera lo siguiente La desercioacuten de clientes es muy alta La produccioacuten(despueacutes de que el contrato expira) es del 40 Los clientes reciben un teleacutefono de regalo con el contrato Usted paga una comisioacuten de ventas por contrato Se le da un teleacutefono nuevo a cada persona cuyo contrato ha expirado lo cual

es muy caro y por ende poco rentable para la compantildeiacutea Traer de regreso a un cliente despueacutes de que se va es difiacutecil y caro

111 Posible solucioacuten al problema de ejemplo

Se debe predecir queacute clientes abandonaraacuten la compantildeiacutea tres meses antes de que el contrato expire

Si queremos conservar a un cliente que creamos abandonaraacute la empresa se le deberiacutea ofrecer un nuevo teleacutefono

No hay que prestarle atencioacuten a los clientes que tienen altas posibilidades de quedarse en la empresa

Si hay clientes que no deseamos conservar simplemente no hacemos nada

Pues bien es muy faacutecil pretender hacer todo lo mencionado antes pero ahora la pregunta es iquestcoacutemo lo hacemos No podemos tomar decisiones a la ligera ni tomar medidas de las cuales estamos seguros que fallaraacuten por ejemplo suena absurdo en cuestiones como eacutestas recurrir a la lectura del Tarot La solucioacuten debe basarse en algo maacutes formal y coherente y una de esas alternativas es Data Mining

112 Solucioacuten del problema ejemplo a traveacutes de Data Mining

La solucioacuten que puede dar Data Mining al ejemplo del problema mencionado en esta seccioacuten considera lo siguiente

Interactuar dinaacutemicamente con el cliente Trabajar hacia delante y no hacia atraacutes Mejorar la calidad de la interaccioacuten iquestEl cliente quiere interactuar

o La liacutenea de ganancias se salva Optimizar el tiempo de interaccioacuten

o Aumentar el valor del cliente constantemente o Aumentar el valor de vida del cliente

En esta seccioacuten hemos visto solo un ejemplo introductoria en las secciones subsecuentes trataremos otros casos e iremos explicando como es que Data Mining ofrece soluciones a problemas de empresas

12 Data Warehouse Un paso antes de Data Mining

16

Antes de dar a conocer claramente lo que significa Data Mining es preciso dejar en claro lo que es un Data Warehouse que en principio lo podemos ver como un concepto que esta antes de Data Mining y es la base de este (aunque no siempre es asiacute) por ello el objetivo de esta seccioacuten es dar una idea general a este concepto no entraremos en muchos detalles pero daremos a conocer lo maacutes relevante para que en las secciones siguientes cuando hablemos de Data Warehouse o Data Warehousing no haya dudas sobre lo que nos estamos refiriendo

Las Bases de Datos (BD) de una empresa utilizan los ordenadores como medio para organizar sus datos de forma que sean comprensibles para las personas Este proceso es conocido como Data Warehousing La comprensioacuten de los datos almacenados es esencial para cualquier organizacioacuten ya que constituye un elemento baacutesico en la toma de decisiones

Un Data Warehouse es un almaceacuten o repositorio de datos categorizados que concentra un gran volumen de informacioacuten de intereacutes para toda una organizacioacuten la cual se distribuye por medio de diversas herramientas de consulta y de creacioacuten de informes orientadas a la toma de decisiones El objetivo del Data Warehouse (DW) es agrupar los datos con el propoacutesito de facilitar su posterior anaacutelisis de forma que sean faacuteciles de acceder y posteriormente analizar informacioacuten sobre la propia empresa A este tipo de datos se les conoce como informativos Los sistemas que manejan estos datos se denominan OLAP (Online Analytical Processing) Existe muchas definiciones formales de DW de distintos autores pero una de las mas famosas puede ser la dada por Inmon en 1992 Un Data Warehouse es una coleccioacuten de datos orientados a temas integrados no-volaacutetiles y variante en el tiempo organizados para soportar necesidades empresariales Los Data Warehouses a menudo almacenan gran cantidad de informacioacuten la cual estaacute a veces subdividida en pequentildeas unidades loacutegicas Perioacutedicamente se importan estos datos de otros sistemas de informacioacuten dentro del Data Warehouse para realizar sobre ellos un procesamiento posterior Un Data Warehouse se diferencia de una Base de Datos operacional de una empresa diremos que un Data Warehouse puede derivarse de la Base de Datos corporativa mediante la importacioacuten de informacioacuten pero el DW no es esa BD operacional[7]

Muchos de los datos de una empresa se utilizan como soporte a los negocios por eso a este tipo de datos se les denomina operacionales Los sistemas usados con el fin de recogerlos reciben el nombre de OLTP (Online Transaction Processing)[10]

Las principales caracteriacutesticas o propiedades de un DW son las siguientes

El DW estaacute orientado a la toma de decisiones Un buen disentildeo de la base de datos favorece el anaacutelisis y la recuperacioacuten de datos para obtener una ventaja estrateacutegica y para facilitar las decisiones de marketing

El DW almacena datos categorizaacutendolos o estructuraacutendolos de forma que favorezcan el anaacutelisis de los datos y puedan proporcionar anaacutelisis histoacutericos

El DW no estaacute orientado a procesos relacionados con la operativa de la empresa es decir que solo esta destinado a funcionar como un almaceacuten de datos

El DW estaacute preparado para ser explotado mediante herramientas especiacuteficas que permiten la extraccioacuten de informacioacuten significativa y patrones de

17

comportamiento que permanecen ocultos en un enorme repositorio de datos Esta explotacioacuten de los datos se suele realizar con herramientas de Data Mining

121 Software para un Data Warehouse[10]

La informacioacuten estrateacutegica se almacena en Gigabytes(tal vez maacutes) de datos de marketing En este caso se necesita software especializado que permita capturar los datos relevantes en forma raacutepida El software no deberiacutea limitarse uacutenicamente al acceso a los datos sino tambieacuten al anaacutelisis significativo de los datos esto es transformar los datos de la informacioacuten cruda o no procesada en informacioacuten uacutetil para la empresa

El software o herramientas de negocios inteligentes se colocan sobre la plataforma Data Warehousing y proveen este servicio Debido a que son el punto principal de contacto entre la aplicacioacuten del depoacutesito y la gente que lo usa estas herramientas pueden constituir la diferencia entre el eacutexito o fracaso de un depoacutesito Las herramientas de negocio inteligentes se han convertido en los sucesores de los sistemas de soporte de decisioacuten pero tienen un alcance maacutes amplio No solamente ayudan en las decisiones de soporte sino en muchos casos estas herramientas soportan muchas funciones operacionales y de misioacuten-criacutetica de la compantildeiacutea Sin embargo estos productos no son infalibles ya que soacutelo se consigue el maacuteximo provecho del Data Warehouse si eligen las herramientas adecuadas a las necesidades de cada usuario final Una de estas herramientas es Data Mining sin embargo hay otras que no mencionaremos ya que se encuentran fuera de los objetivos de este trabajo El proceso de Data Mining extrae los conocimientos guardados o informacioacuten predictiva desde el Data Warehouse sin requerir pedidos o preguntas especiacuteficas Data Mining usa algunas de las teacutecnicas de computacioacuten maacutes avanzadas para generar modelos y asociaciones como redes neurales deteccioacuten de desviacioacuten modelado predictivo y programacioacuten geneacutetica

122 Ventajas y Desventajas del Data Warehouse

La utilizacioacuten de Data Warehouse proporciona una serie de ventajas

Proporciona un gran poder de procesamiento de informacioacuten Permite una mayor flexibilidad y rapidez en el acceso a la informacioacuten Facilita la toma de decisiones en los negocios Las empresas obtienen un aumento de la productividad Proporciona una comunicacioacuten fiable entre todos los departamentos de la

empresa Mejora las relaciones con los proveedores y los clientes Permite conocer queacute estaacute pasando en el negocio es decir estar siempre

enterado de los buenos y malos resultados Transforma los datos en informacioacuten y la informacioacuten en conocimiento Permite hacer planes de forma maacutes efectiva Reduce los tiempos de respuesta y los costes de operacioacuten

Resumiendo el Data Warehouse proporciona una informacioacuten de gestioacuten accesible correcta uniforme y actualizada Proporciona un menor coste en la toma de

18

decisiones una mayor flexibilidad ante el entorno un mejor servicio al cliente y permite el redisentildeo de los procesos

Pero los Data Warehouse tambieacuten tienen algunas desventajas

Requieren una revisioacuten del modelo de datos objetos transacciones y ademaacutes del almacenamiento

Tienen un disentildeo complejo y multidisciplinar Requieren una reestructuracioacuten de los sistemas operacionales Tienen un alto coste Requieren sistemas aplicaciones y almacenamiento especiacutefico

Por uacuteltimo cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versioacuten maacutes reducida de un Data Warehouse a menudo conteniendo informacioacuten especiacutefica de alguacuten departamento como marketing finanzas o mantenimiento de la red Idealmente el Data Marts deberiacutea ser un subconjunto del Data Warehouse a fin de mantener consistencia en las praacutecticas de administracioacuten de datos corporativos y para mantener la seguridad y la integridad de la informacioacuten cruda que se estaacute usando Para las grandes compantildeiacuteas el Data Marts usualmente contiene una docena de gigabytes de datos Ahora podemos continuar y dar una explicacioacuten de lo que en realidad es Data Mining a pesar de que en este apartado hemos dado una definicioacuten de manera somera

13 iquestQueacute es Data Mining[14]

Cada diacutea generamos una gran cantidad de informacioacuten algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos Nos damos cuenta de que generamos informacioacuten cuando registramos nuestra entrada en el trabajo cuando entramos en un servidor para ver nuestro correo cuando pagamos con una tarjeta de creacutedito o cuando reservamos un boleto de avioacuten Otras veces no nos damos cuenta de que generamos informacioacuten como cuando conducimos por una viacutea donde estaacuten contabilizando el nuacutemero de automoacuteviles que pasan por minuto cuando se sigue nuestra navegacioacuten por Internet o cuando nos sacan una fotografiacutea del rostro al haber pasado cerca de una oficina gubernamental iquestCon queacute finalidad queremos generar informacioacuten Son muchos los motivos que nos llevan a generar informacioacuten ya que nos pueden ayudar a controlar optimizar administrar examinar investigar planificar predecir someter negociar o tomar decisiones de cualquier aacutembito seguacuten el dominio en que nos desarrollemos La informacioacuten por siacute misma estaacute considerada un bien patrimonial De esta forma si una empresa tiene una peacuterdida total o parcial de informacioacuten provoca bastantes perjuicios Es evidente que la informacioacuten debe ser protegida pero tambieacuten explotada

iquestQueacute nos ha permitido poder generar tanta informacioacuten En los uacuteltimos antildeos debido al desarrollo tecnoloacutegico a niveles exponenciales tanto en el aacuterea de coacutemputo como en la de transmisioacuten de datos ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacioacuten Sin duda existen cuatro factores importantes que nos han llevado a este suceso

19

1 El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente

2 El incremento de las velocidades de coacutemputo en los procesadores 3 Las mejoras en la confiabilidad y aumento de la velocidad en la transmisioacuten

de datos 4 El desarrollo de sistemas administradores de bases de datos maacutes poderosos

Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacioacuten en las bases de datos Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura ya que soacutelo se guarda (o escribe) en el disco duro pero nunca se hace uso de eacutel Generalmente todas las empresas usan un dato llamado dato-escritura-lectura que utilizan para hacer consultas dirigidas Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-anaacutelisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones Es necesario contar con tecnologiacuteas que nos ayuden a explotar el potencial de este tipo de datos La cantidad de informacioacuten que nos llega cada diacutea es tan inmensa que nos resulta difiacutecil asimilarla Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171769416 sitios donde nos pueden decir algo al respecto Suponiendo que nos tomemos un minuto para ver el contenido de cada paacutegina tardariacuteamos entonces 326 antildeos en visitarlas todas Esto es imposible y por lo tanto existe una clara necesidad de disponer de tecnologiacuteas que nos ayuden en nuestros procesos de buacutesqueda y auacuten maacutes de tecnologiacuteas que nos ayuden a comprender su contenido Como bien sabemos algunos sistemas producen una cantidad inmensa de datos estos datos con frecuencia contienen valiosa informacioacuten que puede resultar muy uacutetil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacioacuten Las dimensiones de las base de datos grandes (montantildeas) y sus velocidades de crecimiento hacen muy difiacutecil para un humano su anaacutelisis y la extraccioacuten de alguna informacioacuten importante (oro) Auacuten con el uso de herramientas estadiacutesticas claacutesicas esta tarea es casi imposible El Data Mining surge como una tecnologiacutea que intenta ayudar a comprender el contenido de una base de datos De forma general los datos son la materia prima bruta en el momento que el usuario les atribuye alguacuten significado especial pasan a convertirse en informacioacuten Cuando los especialistas elaboran o encuentran un modelo haciendo que la interpretacioacuten del confronto entre la informacioacuten y ese modelo represente un valor agregado entonces nos referimos al conocimiento En la figura 11 se ilustra la jerarquiacutea que existe en una base de datos entre dato informacioacuten y conocimiento Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquiacutea El aacuterea interna dentro del triaacutengulo representa los objetivos que se han propuesto La separacioacuten del triaacutengulo representa la estrecha unioacuten entre dato e informacioacuten no asiacute entre la informacioacuten y el conocimiento El Data Mining trabaja en el nivel superior buscando patrones comportamientos agrupaciones secuencias tendencias o asociaciones que puedan generar alguacuten modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisioacuten

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 11: Clase 6 Data Mining

11

Se incluyeron aplicaciones de Data Mining en varias aacutereas ademaacutes de la empresarial y se da a conocer de forma muy general el alcance que tiene el utilizar un proceso de este tipo Ademaacutes hablamos de algunas herramientas de distribucioacuten libre y algunas comerciales que son empleadas para emprender proyectos de Data Mining Conocimos dos extensiones de Data Mining Web Mining y Text Mining finalmente dimos algunos puntos de vista comentarios y opiniones sobre lo que es Data Mining y lo que se espera de esta tecnologiacutea en los proacuteximos antildeos

INTRODUCCIOacuteN

Desde eacutepocas remotas la humanidad se ha preocupado por la creacioacuten de bienes con el miacutenimo de recursos Distintos pueblos y en distintos periacuteodos se practicaban la previsioacuten planeacioacuten y organizacioacuten de grupos para ejercitar diversas actividades (entre ellas la pesca agricultura el comercio la guerra etc) En antildeos maacutes recientes durante la revolucioacuten industrial se pusieron en praacutectica ideas que sirvieron para la creacioacuten de la administracioacuten ya que durante ese tiempo se pensoacute en la manera de producir maacutes con menos recursos A partir de ese momento precursores e idealistas fueron sentando las bases para la creacioacuten de la administracioacuten convirtieacutendola en una ciencia La humanidad ha utilizado varias formas para llevar a cabo transacciones de los bienes tal es el caso de los antiguos pueblos al utilizar monedas de metal con diferentes insignias descripciones y denominaciones para el intercambio de artiacuteculos o servicios Todo esto nos lleva a decir que es necesario conocer las herramientas y hacer buen uso de ellas para que una empresa pueda evaluar planes decisiones poliacuteticas procedimientos y en general todo lo concerniente a ella entre estas herramientas podemos hablar de herramientas contables financieras matemaacuteticas economiacutea y de informacioacuten El mundo experimenta cambios fundamentales Los continuos avances en tecnologiacutea de computadoras y comunicaciones tienen un fuerte impacto sobre la forma en que las personas trabajan La tecnologiacutea y las expectativas de las personas que la utilizan estaacuten modificando gradualmente las caracteriacutesticas de los sistemas de

informacioacuten Actualmente la economiacutea de muchas empresas y paiacuteses estaacute basada en la informacioacuten maacutes en la tecnologiacutea de sistemas de informacioacuten que sobre las maacutequinas y productos no relacionados con ella El desarrollo de los sistemas de informacioacuten juega en este tiempo un papel muy valioso dentro de las organizaciones En la era industrial lo maacutes importante era el uso del capital y recursos tangibles para generar nuevos productos Actualmente los recursos baacutesicos son las ideas y el uso de informacioacuten El empleo estrateacutegico de la informacioacuten continuaraacute creando en todas las empresas y organizaciones nuevas oportunidades[13] Para desarrollar un sistema de informacioacuten se necesita tecnologiacutea y gente desde los usuarios de la informacioacuten pasando por los operadores capturistas de datos y analistas de sistemas hasta llegar a los niveles directivos de toda la organizacioacuten Los primeros programadores de computadoras desarrollaban aplicaciones que satisfaciacutean vagamente los requerimientos de informacioacuten de los usuarios finales Ahora gracias a las herramientas de hardware y software con las que se cuenta es mucho maacutes faacutecil obtener la informacioacuten necesaria y a tiempo Una de estas herramientas son los Sistemas Administradores de Bases de Datos(DBMS por sus

12

siglas en ingleacutes) pero vayamos maacutes haya iquestqueacute sucederiacutea si adoptamos herramientas o teacutecnicas de bases de datos que nos digan queacute hacer seguacuten las informacioacuten que ellas presentan esto nos conduce a hablar de Data Mining o Mineriacutea de Datos Mientras que la innovacioacuten y la originalidad son habilidades fundamentales para la supervivencia de las empresas su eacutexito y prosperidad depende tambieacuten de decisiones eficientes y competitivas que deben ser tomadas en cortos intervalos de tiempo Para tomar decisiones es fundamental contar con informacioacuten de calidad Hoy en diacutea el nivel gerencial cuenta con una eficaz herramienta para lograr ese objetivo las teacutecnicas de Data Mining Con respecto a los nuevos usos de las bases de datos el Data Mining aparece como uno de los maacutes prometedores unido y fuertemente relacionado con los problemas asociados a los grandes almacenes de datos llamados Data Warehouses La relacioacuten entre el costo de los ordenadores y la atencioacuten humana ha cambiado sustancialmente El recurso maacutes precioso es el factor humano y los ordenadores deben potenciarlo Esto plantea una nueva filosofiacutea de acceso a la informacioacuten donde los ordenadores deben analizar los datos resumirlos organizarlos y resolver cuestiones mucho maacutes complejas que las actuales ofreciendo al usuario la informacioacuten que realmente le interesa Este proceso como se veraacute a lo largo de este trabajo esta muy ligado a cuestiones de Data Mining y Data Warehause Por el momento solo diremos que Data Mining es la integracioacuten de un conjunto de aacutereas que tienen como propoacutesito la identificacioacuten de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisiones en el transcurso de este trabajo detallaremos esto y seraacute de una forma maacutes comprensible Las teacutecnicas de Data Mining son el resultado de un largo proceso de investigacioacuten y desarrollo de productos Esta evolucioacuten comenzoacute cuando los datos de negocios fueron almacenados por primera vez en computadoras y continuoacute con mejoras en el acceso a los datos y maacutes recientemente con tecnologiacuteas generadas para permitir a los usuarios navegar a traveacutes de los datos en tiempo real Data Mining toma este proceso de evolucioacuten maacutes allaacute del acceso y navegacioacuten retrospectiva de los datos hacia la entrega de informacioacuten prospectiva y proactiva Data Mining estaacute listo para su aplicacioacuten en la comunidad de negocios porque estaacute soportado por tres tecnologiacuteas que ya estaacuten suficientemente maduras

Recoleccioacuten masiva de datos Potentes computadoras con multiprocesadores Algoritmos de Data Mining

Las bases de datos comerciales estaacuten creciendo a un ritmo sin precedentes Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontroacute que el 19 de los que contestaron estaacuten por encima del nivel de los 50 Gigabytes En algunas industrias tales como ventas al por menor (retail) estos nuacutemeros pueden ser auacuten mayores MCI Telecommunications Corp cuenta con una base de datos de 3 terabytes + 1 terabyte de iacutendices y overhead corriendo en MVS sobre IBM SP2 La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma maacutes costo-efectiva con tecnologiacutea de computadoras con multiprocesamiento paralelo Los algoritmos de Data Mining

13

utilizan teacutecnicas que han existido por lo menos desde hace 10 antildeos pero que soacutelo han sido implementadas recientemente como herramientas maduras confiables entendibles que consistentemente son maacutes performantes que meacutetodos estadiacutesticos claacutesicos En la evolucioacuten desde los datos de negocios a informacioacuten de negocios cada nuevo paso se basa en el previo Por ejemplo el acceso a datos dinaacutemicos es criacutetico para las aplicaciones de navegacioacuten de datos (drill through applications) y la habilidad para almacenar grandes bases de datos es criacutetica para Data Mining Los componentes esenciales de la tecnologiacutea de Data Mining han estado bajo desarrollo por deacutecadas en aacutereas de investigacioacuten como estadiacutesticas inteligencia artificial y aprendizaje de maacutequinas Hoy la madurez de estas teacutecnicas junto con los motores de bases de datos relacionales de alta performance hicieron que estas tecnologiacuteas fueran praacutecticas para los entornos de Data Warehouse actuales La idea de Data Mining no es nueva Desde los antildeos sesenta los estadiacutesticos manejaban teacuterminos como Data Fishing Data Mining o Data Archaeology con la idea de encontrar correlaciones sin una hipoacutetesis previa en bases de datos con ruido A principios de los antildeos ochenta Rakesh Agrawal Gio Wiederhold Robert Blum y Gregory Piatetsky-Shapiro entre otros empezaron a consolidar los teacuterminos de Data Mining y KDD (Knowledge Discovery in Databases Descubrimiento de Conocimiento en Bases de Datos) A finales de los antildeos ochenta soacutelo existiacutean un par de empresas dedicadas a esta tecnologiacutea en 2002 ya habiacutea maacutes de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones Las listas de discusioacuten sobre este tema las forman investigadores de maacutes de ochenta paiacuteses Esta tecnologiacutea ha sido un buen punto de encuentro entre personas pertenecientes al aacutembito acadeacutemico y al de los negocios[20] El presente trabajo tiene como finalidad dar a conocer una perspectiva general acerca de todo lo referente a la teoriacutea de Data Mining existen teacutecnicas de implantacioacuten de Data Mining algoritmos reglas etc de las cuales no daremos mayor detalle ya que no se encuentran como un objetivo de este documento solo se mencionaraacuten como la base teoacuterica de la Mineriacutea de Datos Lo que siacute perseguimos de manera especiacutefica es dejar en claro queacute es el concepto de Data Mining sus expectativas o finalidades dar a conocer sus cimientos y a queacute nos llevan todos ellos sus posibles aplicaciones y coacutemo se esta usando actualmente en algunas aacutereas principalmente en el nivel empresarial Aquiacute cabe mencionar que Data Mining es un proceso utilizado frecuentemente en macro empresas sin embargo tambieacuten es utilizado en las llamadas Pymes (Pequentildeas Y Medianas EmpresaS) y ademaacutes a nivel cientiacutefico aunque con menor frecuencia es por ello que nos hemos enfocado sobre todo a la utilizacioacuten de dicho proceso en las empresas grandes y coacutemo es que funciona en ellas auacuten asiacute creiacutemos conveniente introducir algunos ejemplos de su uso en otros entornos El primer capiacutetulo Panorama general de Data Mining comienza con un ejemplo introductorio para dar una idea general del por queacute es necesario utilizar Data Mining en ciertos casos esto nos lleva a dar un paso previo antes de conocer exactamente queacute es Data Mining Data Warehouse un paso antes de Data Mining nos menciona queacute relacioacuten hay entre Data Warehouse y Data Mining es importante entender este concepto ya que podriacuteamos decir que es una de las

14

principales bases de la Mineriacutea de Datos finalmente el capiacutetulo nos dice lo que en realidad es Data Mining sus objetivos y algunas formas generales de su utilizacioacuten

La forma en queacute trabaja Data Mining el capiacutetulo nuacutemero dos menciona de forma muy general como es que estaacute constituido Data Mining cuaacutel es su arquitectura la forma en que se implementa y las fases que se siguen para una buena implantacioacuten de un proyecto de Data Mining como bien lo hemos mencionado anteriormente este no es un trabajo para describir detalladamente las teacutecnicas de la Mineriacutea de Datos por ello cabe aclarar que este capiacutetulo tiene un enfoque teoacuterico baacutesico

Los dos primeros capiacutetulos nos sirven para entender baacutesicamente cuaacuteles podriacutean ser las aplicaciones de Data Mining el tercer capiacutetulo Aplicaciones de Data Mining nos da varios ejemplos de doacutende y coacutemo puede ser utilizado este proceso y cuaacuteles son sus ventajas en estas aacutereas de aplicacioacuten (principalmente en nivel empresarial)

El capiacutetulo nuacutemero cuatro Extensiones de Data Mining abordamos dos temas complementarios que tambieacuten se utilizan como procesos de Data Mining a saber el Web Mining y el Text Mining Estos temas tambieacuten los podriacuteamos ver como una aplicacioacuten de Data Mining sin embargo los hemos colocado en un capiacutetulo aparte ya que estaacuten considerados como un campo diferente esto es aplicaciones vistas como un meta Data Mining

Finalmente el uacuteltimo capiacutetulo Conclusiones y perspectivas damos nuestras conclusiones y algunos puntos de vista particulares mencionamos cuaacuteles son las oportunidades que existen para trabajar en proyectos de este tipo y queacute es lo que se espera de Data Mining en los proacuteximos antildeos

Hemos incluido tambieacuten un Resumen de todo lo abordado durante nuestro documento que contempla los aspectos maacutes importantes aquiacute tratados En la bibliografiacutea podraacute encontrar las direcciones http de donde se tomaron muchos de los aspectos mencionados en el transcurso de este trabajo cuando coloquemos un nuacutemero por ejemplo [2] al final de un paacuterrafo o cualquier sentencia estamos haciendo referencia al nuacutemero de artiacuteculo de internet mencionado en la bibliografiacutea de donde fue tomado dicho paacuterrafo o sentencia

CAPITULO I

PANORAMA GENERAL DE DATA MINING

En este capiacutetulo abordamos los conceptos fundamentales relacionados con Data Mining que nos ayudaraacuten a tener sobre todo una idea general de eacutel y ademaacutes nos auxiliaraacuten para entender los siguientes capiacutetulos Comenzamos con un ejemplo introductorio en la seccioacuten 11 Ejemplo de un problema asociado a Data Mining donde pretendemos dar a conocer una aplicacioacuten muy simple de Data Mining Continuamos con el apartado 12 Data Warehouse Un paso antes de Data Mining ya que creemos conveniente tener las nociones adecuadas de este tema que se relaciona fuertemente con Data Mining y del cuaacutel haremos mencioacuten en el resto de este trabajo Finalmente en la seccioacuten 13 iquestQueacute es Data Mining explicamos de la forma que creiacutemos uacutetil el concepto real de Data Mining sus objetivos y una forma breve de coacutemo y doacutende se trabaja con eacutel

15

11 Ejemplo de un problema asociado a Data Mining [18]

Para poder generar una idea general del significado y aplicacioacuten de Data Mining consideremos el siguiente problema

Suponga que usted es el gerente de mercadeo para una compantildeiacutea de telefoniacutea celular El problema considera lo siguiente La desercioacuten de clientes es muy alta La produccioacuten(despueacutes de que el contrato expira) es del 40 Los clientes reciben un teleacutefono de regalo con el contrato Usted paga una comisioacuten de ventas por contrato Se le da un teleacutefono nuevo a cada persona cuyo contrato ha expirado lo cual

es muy caro y por ende poco rentable para la compantildeiacutea Traer de regreso a un cliente despueacutes de que se va es difiacutecil y caro

111 Posible solucioacuten al problema de ejemplo

Se debe predecir queacute clientes abandonaraacuten la compantildeiacutea tres meses antes de que el contrato expire

Si queremos conservar a un cliente que creamos abandonaraacute la empresa se le deberiacutea ofrecer un nuevo teleacutefono

No hay que prestarle atencioacuten a los clientes que tienen altas posibilidades de quedarse en la empresa

Si hay clientes que no deseamos conservar simplemente no hacemos nada

Pues bien es muy faacutecil pretender hacer todo lo mencionado antes pero ahora la pregunta es iquestcoacutemo lo hacemos No podemos tomar decisiones a la ligera ni tomar medidas de las cuales estamos seguros que fallaraacuten por ejemplo suena absurdo en cuestiones como eacutestas recurrir a la lectura del Tarot La solucioacuten debe basarse en algo maacutes formal y coherente y una de esas alternativas es Data Mining

112 Solucioacuten del problema ejemplo a traveacutes de Data Mining

La solucioacuten que puede dar Data Mining al ejemplo del problema mencionado en esta seccioacuten considera lo siguiente

Interactuar dinaacutemicamente con el cliente Trabajar hacia delante y no hacia atraacutes Mejorar la calidad de la interaccioacuten iquestEl cliente quiere interactuar

o La liacutenea de ganancias se salva Optimizar el tiempo de interaccioacuten

o Aumentar el valor del cliente constantemente o Aumentar el valor de vida del cliente

En esta seccioacuten hemos visto solo un ejemplo introductoria en las secciones subsecuentes trataremos otros casos e iremos explicando como es que Data Mining ofrece soluciones a problemas de empresas

12 Data Warehouse Un paso antes de Data Mining

16

Antes de dar a conocer claramente lo que significa Data Mining es preciso dejar en claro lo que es un Data Warehouse que en principio lo podemos ver como un concepto que esta antes de Data Mining y es la base de este (aunque no siempre es asiacute) por ello el objetivo de esta seccioacuten es dar una idea general a este concepto no entraremos en muchos detalles pero daremos a conocer lo maacutes relevante para que en las secciones siguientes cuando hablemos de Data Warehouse o Data Warehousing no haya dudas sobre lo que nos estamos refiriendo

Las Bases de Datos (BD) de una empresa utilizan los ordenadores como medio para organizar sus datos de forma que sean comprensibles para las personas Este proceso es conocido como Data Warehousing La comprensioacuten de los datos almacenados es esencial para cualquier organizacioacuten ya que constituye un elemento baacutesico en la toma de decisiones

Un Data Warehouse es un almaceacuten o repositorio de datos categorizados que concentra un gran volumen de informacioacuten de intereacutes para toda una organizacioacuten la cual se distribuye por medio de diversas herramientas de consulta y de creacioacuten de informes orientadas a la toma de decisiones El objetivo del Data Warehouse (DW) es agrupar los datos con el propoacutesito de facilitar su posterior anaacutelisis de forma que sean faacuteciles de acceder y posteriormente analizar informacioacuten sobre la propia empresa A este tipo de datos se les conoce como informativos Los sistemas que manejan estos datos se denominan OLAP (Online Analytical Processing) Existe muchas definiciones formales de DW de distintos autores pero una de las mas famosas puede ser la dada por Inmon en 1992 Un Data Warehouse es una coleccioacuten de datos orientados a temas integrados no-volaacutetiles y variante en el tiempo organizados para soportar necesidades empresariales Los Data Warehouses a menudo almacenan gran cantidad de informacioacuten la cual estaacute a veces subdividida en pequentildeas unidades loacutegicas Perioacutedicamente se importan estos datos de otros sistemas de informacioacuten dentro del Data Warehouse para realizar sobre ellos un procesamiento posterior Un Data Warehouse se diferencia de una Base de Datos operacional de una empresa diremos que un Data Warehouse puede derivarse de la Base de Datos corporativa mediante la importacioacuten de informacioacuten pero el DW no es esa BD operacional[7]

Muchos de los datos de una empresa se utilizan como soporte a los negocios por eso a este tipo de datos se les denomina operacionales Los sistemas usados con el fin de recogerlos reciben el nombre de OLTP (Online Transaction Processing)[10]

Las principales caracteriacutesticas o propiedades de un DW son las siguientes

El DW estaacute orientado a la toma de decisiones Un buen disentildeo de la base de datos favorece el anaacutelisis y la recuperacioacuten de datos para obtener una ventaja estrateacutegica y para facilitar las decisiones de marketing

El DW almacena datos categorizaacutendolos o estructuraacutendolos de forma que favorezcan el anaacutelisis de los datos y puedan proporcionar anaacutelisis histoacutericos

El DW no estaacute orientado a procesos relacionados con la operativa de la empresa es decir que solo esta destinado a funcionar como un almaceacuten de datos

El DW estaacute preparado para ser explotado mediante herramientas especiacuteficas que permiten la extraccioacuten de informacioacuten significativa y patrones de

17

comportamiento que permanecen ocultos en un enorme repositorio de datos Esta explotacioacuten de los datos se suele realizar con herramientas de Data Mining

121 Software para un Data Warehouse[10]

La informacioacuten estrateacutegica se almacena en Gigabytes(tal vez maacutes) de datos de marketing En este caso se necesita software especializado que permita capturar los datos relevantes en forma raacutepida El software no deberiacutea limitarse uacutenicamente al acceso a los datos sino tambieacuten al anaacutelisis significativo de los datos esto es transformar los datos de la informacioacuten cruda o no procesada en informacioacuten uacutetil para la empresa

El software o herramientas de negocios inteligentes se colocan sobre la plataforma Data Warehousing y proveen este servicio Debido a que son el punto principal de contacto entre la aplicacioacuten del depoacutesito y la gente que lo usa estas herramientas pueden constituir la diferencia entre el eacutexito o fracaso de un depoacutesito Las herramientas de negocio inteligentes se han convertido en los sucesores de los sistemas de soporte de decisioacuten pero tienen un alcance maacutes amplio No solamente ayudan en las decisiones de soporte sino en muchos casos estas herramientas soportan muchas funciones operacionales y de misioacuten-criacutetica de la compantildeiacutea Sin embargo estos productos no son infalibles ya que soacutelo se consigue el maacuteximo provecho del Data Warehouse si eligen las herramientas adecuadas a las necesidades de cada usuario final Una de estas herramientas es Data Mining sin embargo hay otras que no mencionaremos ya que se encuentran fuera de los objetivos de este trabajo El proceso de Data Mining extrae los conocimientos guardados o informacioacuten predictiva desde el Data Warehouse sin requerir pedidos o preguntas especiacuteficas Data Mining usa algunas de las teacutecnicas de computacioacuten maacutes avanzadas para generar modelos y asociaciones como redes neurales deteccioacuten de desviacioacuten modelado predictivo y programacioacuten geneacutetica

122 Ventajas y Desventajas del Data Warehouse

La utilizacioacuten de Data Warehouse proporciona una serie de ventajas

Proporciona un gran poder de procesamiento de informacioacuten Permite una mayor flexibilidad y rapidez en el acceso a la informacioacuten Facilita la toma de decisiones en los negocios Las empresas obtienen un aumento de la productividad Proporciona una comunicacioacuten fiable entre todos los departamentos de la

empresa Mejora las relaciones con los proveedores y los clientes Permite conocer queacute estaacute pasando en el negocio es decir estar siempre

enterado de los buenos y malos resultados Transforma los datos en informacioacuten y la informacioacuten en conocimiento Permite hacer planes de forma maacutes efectiva Reduce los tiempos de respuesta y los costes de operacioacuten

Resumiendo el Data Warehouse proporciona una informacioacuten de gestioacuten accesible correcta uniforme y actualizada Proporciona un menor coste en la toma de

18

decisiones una mayor flexibilidad ante el entorno un mejor servicio al cliente y permite el redisentildeo de los procesos

Pero los Data Warehouse tambieacuten tienen algunas desventajas

Requieren una revisioacuten del modelo de datos objetos transacciones y ademaacutes del almacenamiento

Tienen un disentildeo complejo y multidisciplinar Requieren una reestructuracioacuten de los sistemas operacionales Tienen un alto coste Requieren sistemas aplicaciones y almacenamiento especiacutefico

Por uacuteltimo cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versioacuten maacutes reducida de un Data Warehouse a menudo conteniendo informacioacuten especiacutefica de alguacuten departamento como marketing finanzas o mantenimiento de la red Idealmente el Data Marts deberiacutea ser un subconjunto del Data Warehouse a fin de mantener consistencia en las praacutecticas de administracioacuten de datos corporativos y para mantener la seguridad y la integridad de la informacioacuten cruda que se estaacute usando Para las grandes compantildeiacuteas el Data Marts usualmente contiene una docena de gigabytes de datos Ahora podemos continuar y dar una explicacioacuten de lo que en realidad es Data Mining a pesar de que en este apartado hemos dado una definicioacuten de manera somera

13 iquestQueacute es Data Mining[14]

Cada diacutea generamos una gran cantidad de informacioacuten algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos Nos damos cuenta de que generamos informacioacuten cuando registramos nuestra entrada en el trabajo cuando entramos en un servidor para ver nuestro correo cuando pagamos con una tarjeta de creacutedito o cuando reservamos un boleto de avioacuten Otras veces no nos damos cuenta de que generamos informacioacuten como cuando conducimos por una viacutea donde estaacuten contabilizando el nuacutemero de automoacuteviles que pasan por minuto cuando se sigue nuestra navegacioacuten por Internet o cuando nos sacan una fotografiacutea del rostro al haber pasado cerca de una oficina gubernamental iquestCon queacute finalidad queremos generar informacioacuten Son muchos los motivos que nos llevan a generar informacioacuten ya que nos pueden ayudar a controlar optimizar administrar examinar investigar planificar predecir someter negociar o tomar decisiones de cualquier aacutembito seguacuten el dominio en que nos desarrollemos La informacioacuten por siacute misma estaacute considerada un bien patrimonial De esta forma si una empresa tiene una peacuterdida total o parcial de informacioacuten provoca bastantes perjuicios Es evidente que la informacioacuten debe ser protegida pero tambieacuten explotada

iquestQueacute nos ha permitido poder generar tanta informacioacuten En los uacuteltimos antildeos debido al desarrollo tecnoloacutegico a niveles exponenciales tanto en el aacuterea de coacutemputo como en la de transmisioacuten de datos ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacioacuten Sin duda existen cuatro factores importantes que nos han llevado a este suceso

19

1 El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente

2 El incremento de las velocidades de coacutemputo en los procesadores 3 Las mejoras en la confiabilidad y aumento de la velocidad en la transmisioacuten

de datos 4 El desarrollo de sistemas administradores de bases de datos maacutes poderosos

Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacioacuten en las bases de datos Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura ya que soacutelo se guarda (o escribe) en el disco duro pero nunca se hace uso de eacutel Generalmente todas las empresas usan un dato llamado dato-escritura-lectura que utilizan para hacer consultas dirigidas Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-anaacutelisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones Es necesario contar con tecnologiacuteas que nos ayuden a explotar el potencial de este tipo de datos La cantidad de informacioacuten que nos llega cada diacutea es tan inmensa que nos resulta difiacutecil asimilarla Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171769416 sitios donde nos pueden decir algo al respecto Suponiendo que nos tomemos un minuto para ver el contenido de cada paacutegina tardariacuteamos entonces 326 antildeos en visitarlas todas Esto es imposible y por lo tanto existe una clara necesidad de disponer de tecnologiacuteas que nos ayuden en nuestros procesos de buacutesqueda y auacuten maacutes de tecnologiacuteas que nos ayuden a comprender su contenido Como bien sabemos algunos sistemas producen una cantidad inmensa de datos estos datos con frecuencia contienen valiosa informacioacuten que puede resultar muy uacutetil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacioacuten Las dimensiones de las base de datos grandes (montantildeas) y sus velocidades de crecimiento hacen muy difiacutecil para un humano su anaacutelisis y la extraccioacuten de alguna informacioacuten importante (oro) Auacuten con el uso de herramientas estadiacutesticas claacutesicas esta tarea es casi imposible El Data Mining surge como una tecnologiacutea que intenta ayudar a comprender el contenido de una base de datos De forma general los datos son la materia prima bruta en el momento que el usuario les atribuye alguacuten significado especial pasan a convertirse en informacioacuten Cuando los especialistas elaboran o encuentran un modelo haciendo que la interpretacioacuten del confronto entre la informacioacuten y ese modelo represente un valor agregado entonces nos referimos al conocimiento En la figura 11 se ilustra la jerarquiacutea que existe en una base de datos entre dato informacioacuten y conocimiento Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquiacutea El aacuterea interna dentro del triaacutengulo representa los objetivos que se han propuesto La separacioacuten del triaacutengulo representa la estrecha unioacuten entre dato e informacioacuten no asiacute entre la informacioacuten y el conocimiento El Data Mining trabaja en el nivel superior buscando patrones comportamientos agrupaciones secuencias tendencias o asociaciones que puedan generar alguacuten modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisioacuten

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 12: Clase 6 Data Mining

12

siglas en ingleacutes) pero vayamos maacutes haya iquestqueacute sucederiacutea si adoptamos herramientas o teacutecnicas de bases de datos que nos digan queacute hacer seguacuten las informacioacuten que ellas presentan esto nos conduce a hablar de Data Mining o Mineriacutea de Datos Mientras que la innovacioacuten y la originalidad son habilidades fundamentales para la supervivencia de las empresas su eacutexito y prosperidad depende tambieacuten de decisiones eficientes y competitivas que deben ser tomadas en cortos intervalos de tiempo Para tomar decisiones es fundamental contar con informacioacuten de calidad Hoy en diacutea el nivel gerencial cuenta con una eficaz herramienta para lograr ese objetivo las teacutecnicas de Data Mining Con respecto a los nuevos usos de las bases de datos el Data Mining aparece como uno de los maacutes prometedores unido y fuertemente relacionado con los problemas asociados a los grandes almacenes de datos llamados Data Warehouses La relacioacuten entre el costo de los ordenadores y la atencioacuten humana ha cambiado sustancialmente El recurso maacutes precioso es el factor humano y los ordenadores deben potenciarlo Esto plantea una nueva filosofiacutea de acceso a la informacioacuten donde los ordenadores deben analizar los datos resumirlos organizarlos y resolver cuestiones mucho maacutes complejas que las actuales ofreciendo al usuario la informacioacuten que realmente le interesa Este proceso como se veraacute a lo largo de este trabajo esta muy ligado a cuestiones de Data Mining y Data Warehause Por el momento solo diremos que Data Mining es la integracioacuten de un conjunto de aacutereas que tienen como propoacutesito la identificacioacuten de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisiones en el transcurso de este trabajo detallaremos esto y seraacute de una forma maacutes comprensible Las teacutecnicas de Data Mining son el resultado de un largo proceso de investigacioacuten y desarrollo de productos Esta evolucioacuten comenzoacute cuando los datos de negocios fueron almacenados por primera vez en computadoras y continuoacute con mejoras en el acceso a los datos y maacutes recientemente con tecnologiacuteas generadas para permitir a los usuarios navegar a traveacutes de los datos en tiempo real Data Mining toma este proceso de evolucioacuten maacutes allaacute del acceso y navegacioacuten retrospectiva de los datos hacia la entrega de informacioacuten prospectiva y proactiva Data Mining estaacute listo para su aplicacioacuten en la comunidad de negocios porque estaacute soportado por tres tecnologiacuteas que ya estaacuten suficientemente maduras

Recoleccioacuten masiva de datos Potentes computadoras con multiprocesadores Algoritmos de Data Mining

Las bases de datos comerciales estaacuten creciendo a un ritmo sin precedentes Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontroacute que el 19 de los que contestaron estaacuten por encima del nivel de los 50 Gigabytes En algunas industrias tales como ventas al por menor (retail) estos nuacutemeros pueden ser auacuten mayores MCI Telecommunications Corp cuenta con una base de datos de 3 terabytes + 1 terabyte de iacutendices y overhead corriendo en MVS sobre IBM SP2 La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma maacutes costo-efectiva con tecnologiacutea de computadoras con multiprocesamiento paralelo Los algoritmos de Data Mining

13

utilizan teacutecnicas que han existido por lo menos desde hace 10 antildeos pero que soacutelo han sido implementadas recientemente como herramientas maduras confiables entendibles que consistentemente son maacutes performantes que meacutetodos estadiacutesticos claacutesicos En la evolucioacuten desde los datos de negocios a informacioacuten de negocios cada nuevo paso se basa en el previo Por ejemplo el acceso a datos dinaacutemicos es criacutetico para las aplicaciones de navegacioacuten de datos (drill through applications) y la habilidad para almacenar grandes bases de datos es criacutetica para Data Mining Los componentes esenciales de la tecnologiacutea de Data Mining han estado bajo desarrollo por deacutecadas en aacutereas de investigacioacuten como estadiacutesticas inteligencia artificial y aprendizaje de maacutequinas Hoy la madurez de estas teacutecnicas junto con los motores de bases de datos relacionales de alta performance hicieron que estas tecnologiacuteas fueran praacutecticas para los entornos de Data Warehouse actuales La idea de Data Mining no es nueva Desde los antildeos sesenta los estadiacutesticos manejaban teacuterminos como Data Fishing Data Mining o Data Archaeology con la idea de encontrar correlaciones sin una hipoacutetesis previa en bases de datos con ruido A principios de los antildeos ochenta Rakesh Agrawal Gio Wiederhold Robert Blum y Gregory Piatetsky-Shapiro entre otros empezaron a consolidar los teacuterminos de Data Mining y KDD (Knowledge Discovery in Databases Descubrimiento de Conocimiento en Bases de Datos) A finales de los antildeos ochenta soacutelo existiacutean un par de empresas dedicadas a esta tecnologiacutea en 2002 ya habiacutea maacutes de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones Las listas de discusioacuten sobre este tema las forman investigadores de maacutes de ochenta paiacuteses Esta tecnologiacutea ha sido un buen punto de encuentro entre personas pertenecientes al aacutembito acadeacutemico y al de los negocios[20] El presente trabajo tiene como finalidad dar a conocer una perspectiva general acerca de todo lo referente a la teoriacutea de Data Mining existen teacutecnicas de implantacioacuten de Data Mining algoritmos reglas etc de las cuales no daremos mayor detalle ya que no se encuentran como un objetivo de este documento solo se mencionaraacuten como la base teoacuterica de la Mineriacutea de Datos Lo que siacute perseguimos de manera especiacutefica es dejar en claro queacute es el concepto de Data Mining sus expectativas o finalidades dar a conocer sus cimientos y a queacute nos llevan todos ellos sus posibles aplicaciones y coacutemo se esta usando actualmente en algunas aacutereas principalmente en el nivel empresarial Aquiacute cabe mencionar que Data Mining es un proceso utilizado frecuentemente en macro empresas sin embargo tambieacuten es utilizado en las llamadas Pymes (Pequentildeas Y Medianas EmpresaS) y ademaacutes a nivel cientiacutefico aunque con menor frecuencia es por ello que nos hemos enfocado sobre todo a la utilizacioacuten de dicho proceso en las empresas grandes y coacutemo es que funciona en ellas auacuten asiacute creiacutemos conveniente introducir algunos ejemplos de su uso en otros entornos El primer capiacutetulo Panorama general de Data Mining comienza con un ejemplo introductorio para dar una idea general del por queacute es necesario utilizar Data Mining en ciertos casos esto nos lleva a dar un paso previo antes de conocer exactamente queacute es Data Mining Data Warehouse un paso antes de Data Mining nos menciona queacute relacioacuten hay entre Data Warehouse y Data Mining es importante entender este concepto ya que podriacuteamos decir que es una de las

14

principales bases de la Mineriacutea de Datos finalmente el capiacutetulo nos dice lo que en realidad es Data Mining sus objetivos y algunas formas generales de su utilizacioacuten

La forma en queacute trabaja Data Mining el capiacutetulo nuacutemero dos menciona de forma muy general como es que estaacute constituido Data Mining cuaacutel es su arquitectura la forma en que se implementa y las fases que se siguen para una buena implantacioacuten de un proyecto de Data Mining como bien lo hemos mencionado anteriormente este no es un trabajo para describir detalladamente las teacutecnicas de la Mineriacutea de Datos por ello cabe aclarar que este capiacutetulo tiene un enfoque teoacuterico baacutesico

Los dos primeros capiacutetulos nos sirven para entender baacutesicamente cuaacuteles podriacutean ser las aplicaciones de Data Mining el tercer capiacutetulo Aplicaciones de Data Mining nos da varios ejemplos de doacutende y coacutemo puede ser utilizado este proceso y cuaacuteles son sus ventajas en estas aacutereas de aplicacioacuten (principalmente en nivel empresarial)

El capiacutetulo nuacutemero cuatro Extensiones de Data Mining abordamos dos temas complementarios que tambieacuten se utilizan como procesos de Data Mining a saber el Web Mining y el Text Mining Estos temas tambieacuten los podriacuteamos ver como una aplicacioacuten de Data Mining sin embargo los hemos colocado en un capiacutetulo aparte ya que estaacuten considerados como un campo diferente esto es aplicaciones vistas como un meta Data Mining

Finalmente el uacuteltimo capiacutetulo Conclusiones y perspectivas damos nuestras conclusiones y algunos puntos de vista particulares mencionamos cuaacuteles son las oportunidades que existen para trabajar en proyectos de este tipo y queacute es lo que se espera de Data Mining en los proacuteximos antildeos

Hemos incluido tambieacuten un Resumen de todo lo abordado durante nuestro documento que contempla los aspectos maacutes importantes aquiacute tratados En la bibliografiacutea podraacute encontrar las direcciones http de donde se tomaron muchos de los aspectos mencionados en el transcurso de este trabajo cuando coloquemos un nuacutemero por ejemplo [2] al final de un paacuterrafo o cualquier sentencia estamos haciendo referencia al nuacutemero de artiacuteculo de internet mencionado en la bibliografiacutea de donde fue tomado dicho paacuterrafo o sentencia

CAPITULO I

PANORAMA GENERAL DE DATA MINING

En este capiacutetulo abordamos los conceptos fundamentales relacionados con Data Mining que nos ayudaraacuten a tener sobre todo una idea general de eacutel y ademaacutes nos auxiliaraacuten para entender los siguientes capiacutetulos Comenzamos con un ejemplo introductorio en la seccioacuten 11 Ejemplo de un problema asociado a Data Mining donde pretendemos dar a conocer una aplicacioacuten muy simple de Data Mining Continuamos con el apartado 12 Data Warehouse Un paso antes de Data Mining ya que creemos conveniente tener las nociones adecuadas de este tema que se relaciona fuertemente con Data Mining y del cuaacutel haremos mencioacuten en el resto de este trabajo Finalmente en la seccioacuten 13 iquestQueacute es Data Mining explicamos de la forma que creiacutemos uacutetil el concepto real de Data Mining sus objetivos y una forma breve de coacutemo y doacutende se trabaja con eacutel

15

11 Ejemplo de un problema asociado a Data Mining [18]

Para poder generar una idea general del significado y aplicacioacuten de Data Mining consideremos el siguiente problema

Suponga que usted es el gerente de mercadeo para una compantildeiacutea de telefoniacutea celular El problema considera lo siguiente La desercioacuten de clientes es muy alta La produccioacuten(despueacutes de que el contrato expira) es del 40 Los clientes reciben un teleacutefono de regalo con el contrato Usted paga una comisioacuten de ventas por contrato Se le da un teleacutefono nuevo a cada persona cuyo contrato ha expirado lo cual

es muy caro y por ende poco rentable para la compantildeiacutea Traer de regreso a un cliente despueacutes de que se va es difiacutecil y caro

111 Posible solucioacuten al problema de ejemplo

Se debe predecir queacute clientes abandonaraacuten la compantildeiacutea tres meses antes de que el contrato expire

Si queremos conservar a un cliente que creamos abandonaraacute la empresa se le deberiacutea ofrecer un nuevo teleacutefono

No hay que prestarle atencioacuten a los clientes que tienen altas posibilidades de quedarse en la empresa

Si hay clientes que no deseamos conservar simplemente no hacemos nada

Pues bien es muy faacutecil pretender hacer todo lo mencionado antes pero ahora la pregunta es iquestcoacutemo lo hacemos No podemos tomar decisiones a la ligera ni tomar medidas de las cuales estamos seguros que fallaraacuten por ejemplo suena absurdo en cuestiones como eacutestas recurrir a la lectura del Tarot La solucioacuten debe basarse en algo maacutes formal y coherente y una de esas alternativas es Data Mining

112 Solucioacuten del problema ejemplo a traveacutes de Data Mining

La solucioacuten que puede dar Data Mining al ejemplo del problema mencionado en esta seccioacuten considera lo siguiente

Interactuar dinaacutemicamente con el cliente Trabajar hacia delante y no hacia atraacutes Mejorar la calidad de la interaccioacuten iquestEl cliente quiere interactuar

o La liacutenea de ganancias se salva Optimizar el tiempo de interaccioacuten

o Aumentar el valor del cliente constantemente o Aumentar el valor de vida del cliente

En esta seccioacuten hemos visto solo un ejemplo introductoria en las secciones subsecuentes trataremos otros casos e iremos explicando como es que Data Mining ofrece soluciones a problemas de empresas

12 Data Warehouse Un paso antes de Data Mining

16

Antes de dar a conocer claramente lo que significa Data Mining es preciso dejar en claro lo que es un Data Warehouse que en principio lo podemos ver como un concepto que esta antes de Data Mining y es la base de este (aunque no siempre es asiacute) por ello el objetivo de esta seccioacuten es dar una idea general a este concepto no entraremos en muchos detalles pero daremos a conocer lo maacutes relevante para que en las secciones siguientes cuando hablemos de Data Warehouse o Data Warehousing no haya dudas sobre lo que nos estamos refiriendo

Las Bases de Datos (BD) de una empresa utilizan los ordenadores como medio para organizar sus datos de forma que sean comprensibles para las personas Este proceso es conocido como Data Warehousing La comprensioacuten de los datos almacenados es esencial para cualquier organizacioacuten ya que constituye un elemento baacutesico en la toma de decisiones

Un Data Warehouse es un almaceacuten o repositorio de datos categorizados que concentra un gran volumen de informacioacuten de intereacutes para toda una organizacioacuten la cual se distribuye por medio de diversas herramientas de consulta y de creacioacuten de informes orientadas a la toma de decisiones El objetivo del Data Warehouse (DW) es agrupar los datos con el propoacutesito de facilitar su posterior anaacutelisis de forma que sean faacuteciles de acceder y posteriormente analizar informacioacuten sobre la propia empresa A este tipo de datos se les conoce como informativos Los sistemas que manejan estos datos se denominan OLAP (Online Analytical Processing) Existe muchas definiciones formales de DW de distintos autores pero una de las mas famosas puede ser la dada por Inmon en 1992 Un Data Warehouse es una coleccioacuten de datos orientados a temas integrados no-volaacutetiles y variante en el tiempo organizados para soportar necesidades empresariales Los Data Warehouses a menudo almacenan gran cantidad de informacioacuten la cual estaacute a veces subdividida en pequentildeas unidades loacutegicas Perioacutedicamente se importan estos datos de otros sistemas de informacioacuten dentro del Data Warehouse para realizar sobre ellos un procesamiento posterior Un Data Warehouse se diferencia de una Base de Datos operacional de una empresa diremos que un Data Warehouse puede derivarse de la Base de Datos corporativa mediante la importacioacuten de informacioacuten pero el DW no es esa BD operacional[7]

Muchos de los datos de una empresa se utilizan como soporte a los negocios por eso a este tipo de datos se les denomina operacionales Los sistemas usados con el fin de recogerlos reciben el nombre de OLTP (Online Transaction Processing)[10]

Las principales caracteriacutesticas o propiedades de un DW son las siguientes

El DW estaacute orientado a la toma de decisiones Un buen disentildeo de la base de datos favorece el anaacutelisis y la recuperacioacuten de datos para obtener una ventaja estrateacutegica y para facilitar las decisiones de marketing

El DW almacena datos categorizaacutendolos o estructuraacutendolos de forma que favorezcan el anaacutelisis de los datos y puedan proporcionar anaacutelisis histoacutericos

El DW no estaacute orientado a procesos relacionados con la operativa de la empresa es decir que solo esta destinado a funcionar como un almaceacuten de datos

El DW estaacute preparado para ser explotado mediante herramientas especiacuteficas que permiten la extraccioacuten de informacioacuten significativa y patrones de

17

comportamiento que permanecen ocultos en un enorme repositorio de datos Esta explotacioacuten de los datos se suele realizar con herramientas de Data Mining

121 Software para un Data Warehouse[10]

La informacioacuten estrateacutegica se almacena en Gigabytes(tal vez maacutes) de datos de marketing En este caso se necesita software especializado que permita capturar los datos relevantes en forma raacutepida El software no deberiacutea limitarse uacutenicamente al acceso a los datos sino tambieacuten al anaacutelisis significativo de los datos esto es transformar los datos de la informacioacuten cruda o no procesada en informacioacuten uacutetil para la empresa

El software o herramientas de negocios inteligentes se colocan sobre la plataforma Data Warehousing y proveen este servicio Debido a que son el punto principal de contacto entre la aplicacioacuten del depoacutesito y la gente que lo usa estas herramientas pueden constituir la diferencia entre el eacutexito o fracaso de un depoacutesito Las herramientas de negocio inteligentes se han convertido en los sucesores de los sistemas de soporte de decisioacuten pero tienen un alcance maacutes amplio No solamente ayudan en las decisiones de soporte sino en muchos casos estas herramientas soportan muchas funciones operacionales y de misioacuten-criacutetica de la compantildeiacutea Sin embargo estos productos no son infalibles ya que soacutelo se consigue el maacuteximo provecho del Data Warehouse si eligen las herramientas adecuadas a las necesidades de cada usuario final Una de estas herramientas es Data Mining sin embargo hay otras que no mencionaremos ya que se encuentran fuera de los objetivos de este trabajo El proceso de Data Mining extrae los conocimientos guardados o informacioacuten predictiva desde el Data Warehouse sin requerir pedidos o preguntas especiacuteficas Data Mining usa algunas de las teacutecnicas de computacioacuten maacutes avanzadas para generar modelos y asociaciones como redes neurales deteccioacuten de desviacioacuten modelado predictivo y programacioacuten geneacutetica

122 Ventajas y Desventajas del Data Warehouse

La utilizacioacuten de Data Warehouse proporciona una serie de ventajas

Proporciona un gran poder de procesamiento de informacioacuten Permite una mayor flexibilidad y rapidez en el acceso a la informacioacuten Facilita la toma de decisiones en los negocios Las empresas obtienen un aumento de la productividad Proporciona una comunicacioacuten fiable entre todos los departamentos de la

empresa Mejora las relaciones con los proveedores y los clientes Permite conocer queacute estaacute pasando en el negocio es decir estar siempre

enterado de los buenos y malos resultados Transforma los datos en informacioacuten y la informacioacuten en conocimiento Permite hacer planes de forma maacutes efectiva Reduce los tiempos de respuesta y los costes de operacioacuten

Resumiendo el Data Warehouse proporciona una informacioacuten de gestioacuten accesible correcta uniforme y actualizada Proporciona un menor coste en la toma de

18

decisiones una mayor flexibilidad ante el entorno un mejor servicio al cliente y permite el redisentildeo de los procesos

Pero los Data Warehouse tambieacuten tienen algunas desventajas

Requieren una revisioacuten del modelo de datos objetos transacciones y ademaacutes del almacenamiento

Tienen un disentildeo complejo y multidisciplinar Requieren una reestructuracioacuten de los sistemas operacionales Tienen un alto coste Requieren sistemas aplicaciones y almacenamiento especiacutefico

Por uacuteltimo cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versioacuten maacutes reducida de un Data Warehouse a menudo conteniendo informacioacuten especiacutefica de alguacuten departamento como marketing finanzas o mantenimiento de la red Idealmente el Data Marts deberiacutea ser un subconjunto del Data Warehouse a fin de mantener consistencia en las praacutecticas de administracioacuten de datos corporativos y para mantener la seguridad y la integridad de la informacioacuten cruda que se estaacute usando Para las grandes compantildeiacuteas el Data Marts usualmente contiene una docena de gigabytes de datos Ahora podemos continuar y dar una explicacioacuten de lo que en realidad es Data Mining a pesar de que en este apartado hemos dado una definicioacuten de manera somera

13 iquestQueacute es Data Mining[14]

Cada diacutea generamos una gran cantidad de informacioacuten algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos Nos damos cuenta de que generamos informacioacuten cuando registramos nuestra entrada en el trabajo cuando entramos en un servidor para ver nuestro correo cuando pagamos con una tarjeta de creacutedito o cuando reservamos un boleto de avioacuten Otras veces no nos damos cuenta de que generamos informacioacuten como cuando conducimos por una viacutea donde estaacuten contabilizando el nuacutemero de automoacuteviles que pasan por minuto cuando se sigue nuestra navegacioacuten por Internet o cuando nos sacan una fotografiacutea del rostro al haber pasado cerca de una oficina gubernamental iquestCon queacute finalidad queremos generar informacioacuten Son muchos los motivos que nos llevan a generar informacioacuten ya que nos pueden ayudar a controlar optimizar administrar examinar investigar planificar predecir someter negociar o tomar decisiones de cualquier aacutembito seguacuten el dominio en que nos desarrollemos La informacioacuten por siacute misma estaacute considerada un bien patrimonial De esta forma si una empresa tiene una peacuterdida total o parcial de informacioacuten provoca bastantes perjuicios Es evidente que la informacioacuten debe ser protegida pero tambieacuten explotada

iquestQueacute nos ha permitido poder generar tanta informacioacuten En los uacuteltimos antildeos debido al desarrollo tecnoloacutegico a niveles exponenciales tanto en el aacuterea de coacutemputo como en la de transmisioacuten de datos ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacioacuten Sin duda existen cuatro factores importantes que nos han llevado a este suceso

19

1 El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente

2 El incremento de las velocidades de coacutemputo en los procesadores 3 Las mejoras en la confiabilidad y aumento de la velocidad en la transmisioacuten

de datos 4 El desarrollo de sistemas administradores de bases de datos maacutes poderosos

Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacioacuten en las bases de datos Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura ya que soacutelo se guarda (o escribe) en el disco duro pero nunca se hace uso de eacutel Generalmente todas las empresas usan un dato llamado dato-escritura-lectura que utilizan para hacer consultas dirigidas Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-anaacutelisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones Es necesario contar con tecnologiacuteas que nos ayuden a explotar el potencial de este tipo de datos La cantidad de informacioacuten que nos llega cada diacutea es tan inmensa que nos resulta difiacutecil asimilarla Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171769416 sitios donde nos pueden decir algo al respecto Suponiendo que nos tomemos un minuto para ver el contenido de cada paacutegina tardariacuteamos entonces 326 antildeos en visitarlas todas Esto es imposible y por lo tanto existe una clara necesidad de disponer de tecnologiacuteas que nos ayuden en nuestros procesos de buacutesqueda y auacuten maacutes de tecnologiacuteas que nos ayuden a comprender su contenido Como bien sabemos algunos sistemas producen una cantidad inmensa de datos estos datos con frecuencia contienen valiosa informacioacuten que puede resultar muy uacutetil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacioacuten Las dimensiones de las base de datos grandes (montantildeas) y sus velocidades de crecimiento hacen muy difiacutecil para un humano su anaacutelisis y la extraccioacuten de alguna informacioacuten importante (oro) Auacuten con el uso de herramientas estadiacutesticas claacutesicas esta tarea es casi imposible El Data Mining surge como una tecnologiacutea que intenta ayudar a comprender el contenido de una base de datos De forma general los datos son la materia prima bruta en el momento que el usuario les atribuye alguacuten significado especial pasan a convertirse en informacioacuten Cuando los especialistas elaboran o encuentran un modelo haciendo que la interpretacioacuten del confronto entre la informacioacuten y ese modelo represente un valor agregado entonces nos referimos al conocimiento En la figura 11 se ilustra la jerarquiacutea que existe en una base de datos entre dato informacioacuten y conocimiento Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquiacutea El aacuterea interna dentro del triaacutengulo representa los objetivos que se han propuesto La separacioacuten del triaacutengulo representa la estrecha unioacuten entre dato e informacioacuten no asiacute entre la informacioacuten y el conocimiento El Data Mining trabaja en el nivel superior buscando patrones comportamientos agrupaciones secuencias tendencias o asociaciones que puedan generar alguacuten modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisioacuten

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 13: Clase 6 Data Mining

13

utilizan teacutecnicas que han existido por lo menos desde hace 10 antildeos pero que soacutelo han sido implementadas recientemente como herramientas maduras confiables entendibles que consistentemente son maacutes performantes que meacutetodos estadiacutesticos claacutesicos En la evolucioacuten desde los datos de negocios a informacioacuten de negocios cada nuevo paso se basa en el previo Por ejemplo el acceso a datos dinaacutemicos es criacutetico para las aplicaciones de navegacioacuten de datos (drill through applications) y la habilidad para almacenar grandes bases de datos es criacutetica para Data Mining Los componentes esenciales de la tecnologiacutea de Data Mining han estado bajo desarrollo por deacutecadas en aacutereas de investigacioacuten como estadiacutesticas inteligencia artificial y aprendizaje de maacutequinas Hoy la madurez de estas teacutecnicas junto con los motores de bases de datos relacionales de alta performance hicieron que estas tecnologiacuteas fueran praacutecticas para los entornos de Data Warehouse actuales La idea de Data Mining no es nueva Desde los antildeos sesenta los estadiacutesticos manejaban teacuterminos como Data Fishing Data Mining o Data Archaeology con la idea de encontrar correlaciones sin una hipoacutetesis previa en bases de datos con ruido A principios de los antildeos ochenta Rakesh Agrawal Gio Wiederhold Robert Blum y Gregory Piatetsky-Shapiro entre otros empezaron a consolidar los teacuterminos de Data Mining y KDD (Knowledge Discovery in Databases Descubrimiento de Conocimiento en Bases de Datos) A finales de los antildeos ochenta soacutelo existiacutean un par de empresas dedicadas a esta tecnologiacutea en 2002 ya habiacutea maacutes de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones Las listas de discusioacuten sobre este tema las forman investigadores de maacutes de ochenta paiacuteses Esta tecnologiacutea ha sido un buen punto de encuentro entre personas pertenecientes al aacutembito acadeacutemico y al de los negocios[20] El presente trabajo tiene como finalidad dar a conocer una perspectiva general acerca de todo lo referente a la teoriacutea de Data Mining existen teacutecnicas de implantacioacuten de Data Mining algoritmos reglas etc de las cuales no daremos mayor detalle ya que no se encuentran como un objetivo de este documento solo se mencionaraacuten como la base teoacuterica de la Mineriacutea de Datos Lo que siacute perseguimos de manera especiacutefica es dejar en claro queacute es el concepto de Data Mining sus expectativas o finalidades dar a conocer sus cimientos y a queacute nos llevan todos ellos sus posibles aplicaciones y coacutemo se esta usando actualmente en algunas aacutereas principalmente en el nivel empresarial Aquiacute cabe mencionar que Data Mining es un proceso utilizado frecuentemente en macro empresas sin embargo tambieacuten es utilizado en las llamadas Pymes (Pequentildeas Y Medianas EmpresaS) y ademaacutes a nivel cientiacutefico aunque con menor frecuencia es por ello que nos hemos enfocado sobre todo a la utilizacioacuten de dicho proceso en las empresas grandes y coacutemo es que funciona en ellas auacuten asiacute creiacutemos conveniente introducir algunos ejemplos de su uso en otros entornos El primer capiacutetulo Panorama general de Data Mining comienza con un ejemplo introductorio para dar una idea general del por queacute es necesario utilizar Data Mining en ciertos casos esto nos lleva a dar un paso previo antes de conocer exactamente queacute es Data Mining Data Warehouse un paso antes de Data Mining nos menciona queacute relacioacuten hay entre Data Warehouse y Data Mining es importante entender este concepto ya que podriacuteamos decir que es una de las

14

principales bases de la Mineriacutea de Datos finalmente el capiacutetulo nos dice lo que en realidad es Data Mining sus objetivos y algunas formas generales de su utilizacioacuten

La forma en queacute trabaja Data Mining el capiacutetulo nuacutemero dos menciona de forma muy general como es que estaacute constituido Data Mining cuaacutel es su arquitectura la forma en que se implementa y las fases que se siguen para una buena implantacioacuten de un proyecto de Data Mining como bien lo hemos mencionado anteriormente este no es un trabajo para describir detalladamente las teacutecnicas de la Mineriacutea de Datos por ello cabe aclarar que este capiacutetulo tiene un enfoque teoacuterico baacutesico

Los dos primeros capiacutetulos nos sirven para entender baacutesicamente cuaacuteles podriacutean ser las aplicaciones de Data Mining el tercer capiacutetulo Aplicaciones de Data Mining nos da varios ejemplos de doacutende y coacutemo puede ser utilizado este proceso y cuaacuteles son sus ventajas en estas aacutereas de aplicacioacuten (principalmente en nivel empresarial)

El capiacutetulo nuacutemero cuatro Extensiones de Data Mining abordamos dos temas complementarios que tambieacuten se utilizan como procesos de Data Mining a saber el Web Mining y el Text Mining Estos temas tambieacuten los podriacuteamos ver como una aplicacioacuten de Data Mining sin embargo los hemos colocado en un capiacutetulo aparte ya que estaacuten considerados como un campo diferente esto es aplicaciones vistas como un meta Data Mining

Finalmente el uacuteltimo capiacutetulo Conclusiones y perspectivas damos nuestras conclusiones y algunos puntos de vista particulares mencionamos cuaacuteles son las oportunidades que existen para trabajar en proyectos de este tipo y queacute es lo que se espera de Data Mining en los proacuteximos antildeos

Hemos incluido tambieacuten un Resumen de todo lo abordado durante nuestro documento que contempla los aspectos maacutes importantes aquiacute tratados En la bibliografiacutea podraacute encontrar las direcciones http de donde se tomaron muchos de los aspectos mencionados en el transcurso de este trabajo cuando coloquemos un nuacutemero por ejemplo [2] al final de un paacuterrafo o cualquier sentencia estamos haciendo referencia al nuacutemero de artiacuteculo de internet mencionado en la bibliografiacutea de donde fue tomado dicho paacuterrafo o sentencia

CAPITULO I

PANORAMA GENERAL DE DATA MINING

En este capiacutetulo abordamos los conceptos fundamentales relacionados con Data Mining que nos ayudaraacuten a tener sobre todo una idea general de eacutel y ademaacutes nos auxiliaraacuten para entender los siguientes capiacutetulos Comenzamos con un ejemplo introductorio en la seccioacuten 11 Ejemplo de un problema asociado a Data Mining donde pretendemos dar a conocer una aplicacioacuten muy simple de Data Mining Continuamos con el apartado 12 Data Warehouse Un paso antes de Data Mining ya que creemos conveniente tener las nociones adecuadas de este tema que se relaciona fuertemente con Data Mining y del cuaacutel haremos mencioacuten en el resto de este trabajo Finalmente en la seccioacuten 13 iquestQueacute es Data Mining explicamos de la forma que creiacutemos uacutetil el concepto real de Data Mining sus objetivos y una forma breve de coacutemo y doacutende se trabaja con eacutel

15

11 Ejemplo de un problema asociado a Data Mining [18]

Para poder generar una idea general del significado y aplicacioacuten de Data Mining consideremos el siguiente problema

Suponga que usted es el gerente de mercadeo para una compantildeiacutea de telefoniacutea celular El problema considera lo siguiente La desercioacuten de clientes es muy alta La produccioacuten(despueacutes de que el contrato expira) es del 40 Los clientes reciben un teleacutefono de regalo con el contrato Usted paga una comisioacuten de ventas por contrato Se le da un teleacutefono nuevo a cada persona cuyo contrato ha expirado lo cual

es muy caro y por ende poco rentable para la compantildeiacutea Traer de regreso a un cliente despueacutes de que se va es difiacutecil y caro

111 Posible solucioacuten al problema de ejemplo

Se debe predecir queacute clientes abandonaraacuten la compantildeiacutea tres meses antes de que el contrato expire

Si queremos conservar a un cliente que creamos abandonaraacute la empresa se le deberiacutea ofrecer un nuevo teleacutefono

No hay que prestarle atencioacuten a los clientes que tienen altas posibilidades de quedarse en la empresa

Si hay clientes que no deseamos conservar simplemente no hacemos nada

Pues bien es muy faacutecil pretender hacer todo lo mencionado antes pero ahora la pregunta es iquestcoacutemo lo hacemos No podemos tomar decisiones a la ligera ni tomar medidas de las cuales estamos seguros que fallaraacuten por ejemplo suena absurdo en cuestiones como eacutestas recurrir a la lectura del Tarot La solucioacuten debe basarse en algo maacutes formal y coherente y una de esas alternativas es Data Mining

112 Solucioacuten del problema ejemplo a traveacutes de Data Mining

La solucioacuten que puede dar Data Mining al ejemplo del problema mencionado en esta seccioacuten considera lo siguiente

Interactuar dinaacutemicamente con el cliente Trabajar hacia delante y no hacia atraacutes Mejorar la calidad de la interaccioacuten iquestEl cliente quiere interactuar

o La liacutenea de ganancias se salva Optimizar el tiempo de interaccioacuten

o Aumentar el valor del cliente constantemente o Aumentar el valor de vida del cliente

En esta seccioacuten hemos visto solo un ejemplo introductoria en las secciones subsecuentes trataremos otros casos e iremos explicando como es que Data Mining ofrece soluciones a problemas de empresas

12 Data Warehouse Un paso antes de Data Mining

16

Antes de dar a conocer claramente lo que significa Data Mining es preciso dejar en claro lo que es un Data Warehouse que en principio lo podemos ver como un concepto que esta antes de Data Mining y es la base de este (aunque no siempre es asiacute) por ello el objetivo de esta seccioacuten es dar una idea general a este concepto no entraremos en muchos detalles pero daremos a conocer lo maacutes relevante para que en las secciones siguientes cuando hablemos de Data Warehouse o Data Warehousing no haya dudas sobre lo que nos estamos refiriendo

Las Bases de Datos (BD) de una empresa utilizan los ordenadores como medio para organizar sus datos de forma que sean comprensibles para las personas Este proceso es conocido como Data Warehousing La comprensioacuten de los datos almacenados es esencial para cualquier organizacioacuten ya que constituye un elemento baacutesico en la toma de decisiones

Un Data Warehouse es un almaceacuten o repositorio de datos categorizados que concentra un gran volumen de informacioacuten de intereacutes para toda una organizacioacuten la cual se distribuye por medio de diversas herramientas de consulta y de creacioacuten de informes orientadas a la toma de decisiones El objetivo del Data Warehouse (DW) es agrupar los datos con el propoacutesito de facilitar su posterior anaacutelisis de forma que sean faacuteciles de acceder y posteriormente analizar informacioacuten sobre la propia empresa A este tipo de datos se les conoce como informativos Los sistemas que manejan estos datos se denominan OLAP (Online Analytical Processing) Existe muchas definiciones formales de DW de distintos autores pero una de las mas famosas puede ser la dada por Inmon en 1992 Un Data Warehouse es una coleccioacuten de datos orientados a temas integrados no-volaacutetiles y variante en el tiempo organizados para soportar necesidades empresariales Los Data Warehouses a menudo almacenan gran cantidad de informacioacuten la cual estaacute a veces subdividida en pequentildeas unidades loacutegicas Perioacutedicamente se importan estos datos de otros sistemas de informacioacuten dentro del Data Warehouse para realizar sobre ellos un procesamiento posterior Un Data Warehouse se diferencia de una Base de Datos operacional de una empresa diremos que un Data Warehouse puede derivarse de la Base de Datos corporativa mediante la importacioacuten de informacioacuten pero el DW no es esa BD operacional[7]

Muchos de los datos de una empresa se utilizan como soporte a los negocios por eso a este tipo de datos se les denomina operacionales Los sistemas usados con el fin de recogerlos reciben el nombre de OLTP (Online Transaction Processing)[10]

Las principales caracteriacutesticas o propiedades de un DW son las siguientes

El DW estaacute orientado a la toma de decisiones Un buen disentildeo de la base de datos favorece el anaacutelisis y la recuperacioacuten de datos para obtener una ventaja estrateacutegica y para facilitar las decisiones de marketing

El DW almacena datos categorizaacutendolos o estructuraacutendolos de forma que favorezcan el anaacutelisis de los datos y puedan proporcionar anaacutelisis histoacutericos

El DW no estaacute orientado a procesos relacionados con la operativa de la empresa es decir que solo esta destinado a funcionar como un almaceacuten de datos

El DW estaacute preparado para ser explotado mediante herramientas especiacuteficas que permiten la extraccioacuten de informacioacuten significativa y patrones de

17

comportamiento que permanecen ocultos en un enorme repositorio de datos Esta explotacioacuten de los datos se suele realizar con herramientas de Data Mining

121 Software para un Data Warehouse[10]

La informacioacuten estrateacutegica se almacena en Gigabytes(tal vez maacutes) de datos de marketing En este caso se necesita software especializado que permita capturar los datos relevantes en forma raacutepida El software no deberiacutea limitarse uacutenicamente al acceso a los datos sino tambieacuten al anaacutelisis significativo de los datos esto es transformar los datos de la informacioacuten cruda o no procesada en informacioacuten uacutetil para la empresa

El software o herramientas de negocios inteligentes se colocan sobre la plataforma Data Warehousing y proveen este servicio Debido a que son el punto principal de contacto entre la aplicacioacuten del depoacutesito y la gente que lo usa estas herramientas pueden constituir la diferencia entre el eacutexito o fracaso de un depoacutesito Las herramientas de negocio inteligentes se han convertido en los sucesores de los sistemas de soporte de decisioacuten pero tienen un alcance maacutes amplio No solamente ayudan en las decisiones de soporte sino en muchos casos estas herramientas soportan muchas funciones operacionales y de misioacuten-criacutetica de la compantildeiacutea Sin embargo estos productos no son infalibles ya que soacutelo se consigue el maacuteximo provecho del Data Warehouse si eligen las herramientas adecuadas a las necesidades de cada usuario final Una de estas herramientas es Data Mining sin embargo hay otras que no mencionaremos ya que se encuentran fuera de los objetivos de este trabajo El proceso de Data Mining extrae los conocimientos guardados o informacioacuten predictiva desde el Data Warehouse sin requerir pedidos o preguntas especiacuteficas Data Mining usa algunas de las teacutecnicas de computacioacuten maacutes avanzadas para generar modelos y asociaciones como redes neurales deteccioacuten de desviacioacuten modelado predictivo y programacioacuten geneacutetica

122 Ventajas y Desventajas del Data Warehouse

La utilizacioacuten de Data Warehouse proporciona una serie de ventajas

Proporciona un gran poder de procesamiento de informacioacuten Permite una mayor flexibilidad y rapidez en el acceso a la informacioacuten Facilita la toma de decisiones en los negocios Las empresas obtienen un aumento de la productividad Proporciona una comunicacioacuten fiable entre todos los departamentos de la

empresa Mejora las relaciones con los proveedores y los clientes Permite conocer queacute estaacute pasando en el negocio es decir estar siempre

enterado de los buenos y malos resultados Transforma los datos en informacioacuten y la informacioacuten en conocimiento Permite hacer planes de forma maacutes efectiva Reduce los tiempos de respuesta y los costes de operacioacuten

Resumiendo el Data Warehouse proporciona una informacioacuten de gestioacuten accesible correcta uniforme y actualizada Proporciona un menor coste en la toma de

18

decisiones una mayor flexibilidad ante el entorno un mejor servicio al cliente y permite el redisentildeo de los procesos

Pero los Data Warehouse tambieacuten tienen algunas desventajas

Requieren una revisioacuten del modelo de datos objetos transacciones y ademaacutes del almacenamiento

Tienen un disentildeo complejo y multidisciplinar Requieren una reestructuracioacuten de los sistemas operacionales Tienen un alto coste Requieren sistemas aplicaciones y almacenamiento especiacutefico

Por uacuteltimo cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versioacuten maacutes reducida de un Data Warehouse a menudo conteniendo informacioacuten especiacutefica de alguacuten departamento como marketing finanzas o mantenimiento de la red Idealmente el Data Marts deberiacutea ser un subconjunto del Data Warehouse a fin de mantener consistencia en las praacutecticas de administracioacuten de datos corporativos y para mantener la seguridad y la integridad de la informacioacuten cruda que se estaacute usando Para las grandes compantildeiacuteas el Data Marts usualmente contiene una docena de gigabytes de datos Ahora podemos continuar y dar una explicacioacuten de lo que en realidad es Data Mining a pesar de que en este apartado hemos dado una definicioacuten de manera somera

13 iquestQueacute es Data Mining[14]

Cada diacutea generamos una gran cantidad de informacioacuten algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos Nos damos cuenta de que generamos informacioacuten cuando registramos nuestra entrada en el trabajo cuando entramos en un servidor para ver nuestro correo cuando pagamos con una tarjeta de creacutedito o cuando reservamos un boleto de avioacuten Otras veces no nos damos cuenta de que generamos informacioacuten como cuando conducimos por una viacutea donde estaacuten contabilizando el nuacutemero de automoacuteviles que pasan por minuto cuando se sigue nuestra navegacioacuten por Internet o cuando nos sacan una fotografiacutea del rostro al haber pasado cerca de una oficina gubernamental iquestCon queacute finalidad queremos generar informacioacuten Son muchos los motivos que nos llevan a generar informacioacuten ya que nos pueden ayudar a controlar optimizar administrar examinar investigar planificar predecir someter negociar o tomar decisiones de cualquier aacutembito seguacuten el dominio en que nos desarrollemos La informacioacuten por siacute misma estaacute considerada un bien patrimonial De esta forma si una empresa tiene una peacuterdida total o parcial de informacioacuten provoca bastantes perjuicios Es evidente que la informacioacuten debe ser protegida pero tambieacuten explotada

iquestQueacute nos ha permitido poder generar tanta informacioacuten En los uacuteltimos antildeos debido al desarrollo tecnoloacutegico a niveles exponenciales tanto en el aacuterea de coacutemputo como en la de transmisioacuten de datos ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacioacuten Sin duda existen cuatro factores importantes que nos han llevado a este suceso

19

1 El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente

2 El incremento de las velocidades de coacutemputo en los procesadores 3 Las mejoras en la confiabilidad y aumento de la velocidad en la transmisioacuten

de datos 4 El desarrollo de sistemas administradores de bases de datos maacutes poderosos

Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacioacuten en las bases de datos Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura ya que soacutelo se guarda (o escribe) en el disco duro pero nunca se hace uso de eacutel Generalmente todas las empresas usan un dato llamado dato-escritura-lectura que utilizan para hacer consultas dirigidas Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-anaacutelisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones Es necesario contar con tecnologiacuteas que nos ayuden a explotar el potencial de este tipo de datos La cantidad de informacioacuten que nos llega cada diacutea es tan inmensa que nos resulta difiacutecil asimilarla Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171769416 sitios donde nos pueden decir algo al respecto Suponiendo que nos tomemos un minuto para ver el contenido de cada paacutegina tardariacuteamos entonces 326 antildeos en visitarlas todas Esto es imposible y por lo tanto existe una clara necesidad de disponer de tecnologiacuteas que nos ayuden en nuestros procesos de buacutesqueda y auacuten maacutes de tecnologiacuteas que nos ayuden a comprender su contenido Como bien sabemos algunos sistemas producen una cantidad inmensa de datos estos datos con frecuencia contienen valiosa informacioacuten que puede resultar muy uacutetil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacioacuten Las dimensiones de las base de datos grandes (montantildeas) y sus velocidades de crecimiento hacen muy difiacutecil para un humano su anaacutelisis y la extraccioacuten de alguna informacioacuten importante (oro) Auacuten con el uso de herramientas estadiacutesticas claacutesicas esta tarea es casi imposible El Data Mining surge como una tecnologiacutea que intenta ayudar a comprender el contenido de una base de datos De forma general los datos son la materia prima bruta en el momento que el usuario les atribuye alguacuten significado especial pasan a convertirse en informacioacuten Cuando los especialistas elaboran o encuentran un modelo haciendo que la interpretacioacuten del confronto entre la informacioacuten y ese modelo represente un valor agregado entonces nos referimos al conocimiento En la figura 11 se ilustra la jerarquiacutea que existe en una base de datos entre dato informacioacuten y conocimiento Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquiacutea El aacuterea interna dentro del triaacutengulo representa los objetivos que se han propuesto La separacioacuten del triaacutengulo representa la estrecha unioacuten entre dato e informacioacuten no asiacute entre la informacioacuten y el conocimiento El Data Mining trabaja en el nivel superior buscando patrones comportamientos agrupaciones secuencias tendencias o asociaciones que puedan generar alguacuten modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisioacuten

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 14: Clase 6 Data Mining

14

principales bases de la Mineriacutea de Datos finalmente el capiacutetulo nos dice lo que en realidad es Data Mining sus objetivos y algunas formas generales de su utilizacioacuten

La forma en queacute trabaja Data Mining el capiacutetulo nuacutemero dos menciona de forma muy general como es que estaacute constituido Data Mining cuaacutel es su arquitectura la forma en que se implementa y las fases que se siguen para una buena implantacioacuten de un proyecto de Data Mining como bien lo hemos mencionado anteriormente este no es un trabajo para describir detalladamente las teacutecnicas de la Mineriacutea de Datos por ello cabe aclarar que este capiacutetulo tiene un enfoque teoacuterico baacutesico

Los dos primeros capiacutetulos nos sirven para entender baacutesicamente cuaacuteles podriacutean ser las aplicaciones de Data Mining el tercer capiacutetulo Aplicaciones de Data Mining nos da varios ejemplos de doacutende y coacutemo puede ser utilizado este proceso y cuaacuteles son sus ventajas en estas aacutereas de aplicacioacuten (principalmente en nivel empresarial)

El capiacutetulo nuacutemero cuatro Extensiones de Data Mining abordamos dos temas complementarios que tambieacuten se utilizan como procesos de Data Mining a saber el Web Mining y el Text Mining Estos temas tambieacuten los podriacuteamos ver como una aplicacioacuten de Data Mining sin embargo los hemos colocado en un capiacutetulo aparte ya que estaacuten considerados como un campo diferente esto es aplicaciones vistas como un meta Data Mining

Finalmente el uacuteltimo capiacutetulo Conclusiones y perspectivas damos nuestras conclusiones y algunos puntos de vista particulares mencionamos cuaacuteles son las oportunidades que existen para trabajar en proyectos de este tipo y queacute es lo que se espera de Data Mining en los proacuteximos antildeos

Hemos incluido tambieacuten un Resumen de todo lo abordado durante nuestro documento que contempla los aspectos maacutes importantes aquiacute tratados En la bibliografiacutea podraacute encontrar las direcciones http de donde se tomaron muchos de los aspectos mencionados en el transcurso de este trabajo cuando coloquemos un nuacutemero por ejemplo [2] al final de un paacuterrafo o cualquier sentencia estamos haciendo referencia al nuacutemero de artiacuteculo de internet mencionado en la bibliografiacutea de donde fue tomado dicho paacuterrafo o sentencia

CAPITULO I

PANORAMA GENERAL DE DATA MINING

En este capiacutetulo abordamos los conceptos fundamentales relacionados con Data Mining que nos ayudaraacuten a tener sobre todo una idea general de eacutel y ademaacutes nos auxiliaraacuten para entender los siguientes capiacutetulos Comenzamos con un ejemplo introductorio en la seccioacuten 11 Ejemplo de un problema asociado a Data Mining donde pretendemos dar a conocer una aplicacioacuten muy simple de Data Mining Continuamos con el apartado 12 Data Warehouse Un paso antes de Data Mining ya que creemos conveniente tener las nociones adecuadas de este tema que se relaciona fuertemente con Data Mining y del cuaacutel haremos mencioacuten en el resto de este trabajo Finalmente en la seccioacuten 13 iquestQueacute es Data Mining explicamos de la forma que creiacutemos uacutetil el concepto real de Data Mining sus objetivos y una forma breve de coacutemo y doacutende se trabaja con eacutel

15

11 Ejemplo de un problema asociado a Data Mining [18]

Para poder generar una idea general del significado y aplicacioacuten de Data Mining consideremos el siguiente problema

Suponga que usted es el gerente de mercadeo para una compantildeiacutea de telefoniacutea celular El problema considera lo siguiente La desercioacuten de clientes es muy alta La produccioacuten(despueacutes de que el contrato expira) es del 40 Los clientes reciben un teleacutefono de regalo con el contrato Usted paga una comisioacuten de ventas por contrato Se le da un teleacutefono nuevo a cada persona cuyo contrato ha expirado lo cual

es muy caro y por ende poco rentable para la compantildeiacutea Traer de regreso a un cliente despueacutes de que se va es difiacutecil y caro

111 Posible solucioacuten al problema de ejemplo

Se debe predecir queacute clientes abandonaraacuten la compantildeiacutea tres meses antes de que el contrato expire

Si queremos conservar a un cliente que creamos abandonaraacute la empresa se le deberiacutea ofrecer un nuevo teleacutefono

No hay que prestarle atencioacuten a los clientes que tienen altas posibilidades de quedarse en la empresa

Si hay clientes que no deseamos conservar simplemente no hacemos nada

Pues bien es muy faacutecil pretender hacer todo lo mencionado antes pero ahora la pregunta es iquestcoacutemo lo hacemos No podemos tomar decisiones a la ligera ni tomar medidas de las cuales estamos seguros que fallaraacuten por ejemplo suena absurdo en cuestiones como eacutestas recurrir a la lectura del Tarot La solucioacuten debe basarse en algo maacutes formal y coherente y una de esas alternativas es Data Mining

112 Solucioacuten del problema ejemplo a traveacutes de Data Mining

La solucioacuten que puede dar Data Mining al ejemplo del problema mencionado en esta seccioacuten considera lo siguiente

Interactuar dinaacutemicamente con el cliente Trabajar hacia delante y no hacia atraacutes Mejorar la calidad de la interaccioacuten iquestEl cliente quiere interactuar

o La liacutenea de ganancias se salva Optimizar el tiempo de interaccioacuten

o Aumentar el valor del cliente constantemente o Aumentar el valor de vida del cliente

En esta seccioacuten hemos visto solo un ejemplo introductoria en las secciones subsecuentes trataremos otros casos e iremos explicando como es que Data Mining ofrece soluciones a problemas de empresas

12 Data Warehouse Un paso antes de Data Mining

16

Antes de dar a conocer claramente lo que significa Data Mining es preciso dejar en claro lo que es un Data Warehouse que en principio lo podemos ver como un concepto que esta antes de Data Mining y es la base de este (aunque no siempre es asiacute) por ello el objetivo de esta seccioacuten es dar una idea general a este concepto no entraremos en muchos detalles pero daremos a conocer lo maacutes relevante para que en las secciones siguientes cuando hablemos de Data Warehouse o Data Warehousing no haya dudas sobre lo que nos estamos refiriendo

Las Bases de Datos (BD) de una empresa utilizan los ordenadores como medio para organizar sus datos de forma que sean comprensibles para las personas Este proceso es conocido como Data Warehousing La comprensioacuten de los datos almacenados es esencial para cualquier organizacioacuten ya que constituye un elemento baacutesico en la toma de decisiones

Un Data Warehouse es un almaceacuten o repositorio de datos categorizados que concentra un gran volumen de informacioacuten de intereacutes para toda una organizacioacuten la cual se distribuye por medio de diversas herramientas de consulta y de creacioacuten de informes orientadas a la toma de decisiones El objetivo del Data Warehouse (DW) es agrupar los datos con el propoacutesito de facilitar su posterior anaacutelisis de forma que sean faacuteciles de acceder y posteriormente analizar informacioacuten sobre la propia empresa A este tipo de datos se les conoce como informativos Los sistemas que manejan estos datos se denominan OLAP (Online Analytical Processing) Existe muchas definiciones formales de DW de distintos autores pero una de las mas famosas puede ser la dada por Inmon en 1992 Un Data Warehouse es una coleccioacuten de datos orientados a temas integrados no-volaacutetiles y variante en el tiempo organizados para soportar necesidades empresariales Los Data Warehouses a menudo almacenan gran cantidad de informacioacuten la cual estaacute a veces subdividida en pequentildeas unidades loacutegicas Perioacutedicamente se importan estos datos de otros sistemas de informacioacuten dentro del Data Warehouse para realizar sobre ellos un procesamiento posterior Un Data Warehouse se diferencia de una Base de Datos operacional de una empresa diremos que un Data Warehouse puede derivarse de la Base de Datos corporativa mediante la importacioacuten de informacioacuten pero el DW no es esa BD operacional[7]

Muchos de los datos de una empresa se utilizan como soporte a los negocios por eso a este tipo de datos se les denomina operacionales Los sistemas usados con el fin de recogerlos reciben el nombre de OLTP (Online Transaction Processing)[10]

Las principales caracteriacutesticas o propiedades de un DW son las siguientes

El DW estaacute orientado a la toma de decisiones Un buen disentildeo de la base de datos favorece el anaacutelisis y la recuperacioacuten de datos para obtener una ventaja estrateacutegica y para facilitar las decisiones de marketing

El DW almacena datos categorizaacutendolos o estructuraacutendolos de forma que favorezcan el anaacutelisis de los datos y puedan proporcionar anaacutelisis histoacutericos

El DW no estaacute orientado a procesos relacionados con la operativa de la empresa es decir que solo esta destinado a funcionar como un almaceacuten de datos

El DW estaacute preparado para ser explotado mediante herramientas especiacuteficas que permiten la extraccioacuten de informacioacuten significativa y patrones de

17

comportamiento que permanecen ocultos en un enorme repositorio de datos Esta explotacioacuten de los datos se suele realizar con herramientas de Data Mining

121 Software para un Data Warehouse[10]

La informacioacuten estrateacutegica se almacena en Gigabytes(tal vez maacutes) de datos de marketing En este caso se necesita software especializado que permita capturar los datos relevantes en forma raacutepida El software no deberiacutea limitarse uacutenicamente al acceso a los datos sino tambieacuten al anaacutelisis significativo de los datos esto es transformar los datos de la informacioacuten cruda o no procesada en informacioacuten uacutetil para la empresa

El software o herramientas de negocios inteligentes se colocan sobre la plataforma Data Warehousing y proveen este servicio Debido a que son el punto principal de contacto entre la aplicacioacuten del depoacutesito y la gente que lo usa estas herramientas pueden constituir la diferencia entre el eacutexito o fracaso de un depoacutesito Las herramientas de negocio inteligentes se han convertido en los sucesores de los sistemas de soporte de decisioacuten pero tienen un alcance maacutes amplio No solamente ayudan en las decisiones de soporte sino en muchos casos estas herramientas soportan muchas funciones operacionales y de misioacuten-criacutetica de la compantildeiacutea Sin embargo estos productos no son infalibles ya que soacutelo se consigue el maacuteximo provecho del Data Warehouse si eligen las herramientas adecuadas a las necesidades de cada usuario final Una de estas herramientas es Data Mining sin embargo hay otras que no mencionaremos ya que se encuentran fuera de los objetivos de este trabajo El proceso de Data Mining extrae los conocimientos guardados o informacioacuten predictiva desde el Data Warehouse sin requerir pedidos o preguntas especiacuteficas Data Mining usa algunas de las teacutecnicas de computacioacuten maacutes avanzadas para generar modelos y asociaciones como redes neurales deteccioacuten de desviacioacuten modelado predictivo y programacioacuten geneacutetica

122 Ventajas y Desventajas del Data Warehouse

La utilizacioacuten de Data Warehouse proporciona una serie de ventajas

Proporciona un gran poder de procesamiento de informacioacuten Permite una mayor flexibilidad y rapidez en el acceso a la informacioacuten Facilita la toma de decisiones en los negocios Las empresas obtienen un aumento de la productividad Proporciona una comunicacioacuten fiable entre todos los departamentos de la

empresa Mejora las relaciones con los proveedores y los clientes Permite conocer queacute estaacute pasando en el negocio es decir estar siempre

enterado de los buenos y malos resultados Transforma los datos en informacioacuten y la informacioacuten en conocimiento Permite hacer planes de forma maacutes efectiva Reduce los tiempos de respuesta y los costes de operacioacuten

Resumiendo el Data Warehouse proporciona una informacioacuten de gestioacuten accesible correcta uniforme y actualizada Proporciona un menor coste en la toma de

18

decisiones una mayor flexibilidad ante el entorno un mejor servicio al cliente y permite el redisentildeo de los procesos

Pero los Data Warehouse tambieacuten tienen algunas desventajas

Requieren una revisioacuten del modelo de datos objetos transacciones y ademaacutes del almacenamiento

Tienen un disentildeo complejo y multidisciplinar Requieren una reestructuracioacuten de los sistemas operacionales Tienen un alto coste Requieren sistemas aplicaciones y almacenamiento especiacutefico

Por uacuteltimo cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versioacuten maacutes reducida de un Data Warehouse a menudo conteniendo informacioacuten especiacutefica de alguacuten departamento como marketing finanzas o mantenimiento de la red Idealmente el Data Marts deberiacutea ser un subconjunto del Data Warehouse a fin de mantener consistencia en las praacutecticas de administracioacuten de datos corporativos y para mantener la seguridad y la integridad de la informacioacuten cruda que se estaacute usando Para las grandes compantildeiacuteas el Data Marts usualmente contiene una docena de gigabytes de datos Ahora podemos continuar y dar una explicacioacuten de lo que en realidad es Data Mining a pesar de que en este apartado hemos dado una definicioacuten de manera somera

13 iquestQueacute es Data Mining[14]

Cada diacutea generamos una gran cantidad de informacioacuten algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos Nos damos cuenta de que generamos informacioacuten cuando registramos nuestra entrada en el trabajo cuando entramos en un servidor para ver nuestro correo cuando pagamos con una tarjeta de creacutedito o cuando reservamos un boleto de avioacuten Otras veces no nos damos cuenta de que generamos informacioacuten como cuando conducimos por una viacutea donde estaacuten contabilizando el nuacutemero de automoacuteviles que pasan por minuto cuando se sigue nuestra navegacioacuten por Internet o cuando nos sacan una fotografiacutea del rostro al haber pasado cerca de una oficina gubernamental iquestCon queacute finalidad queremos generar informacioacuten Son muchos los motivos que nos llevan a generar informacioacuten ya que nos pueden ayudar a controlar optimizar administrar examinar investigar planificar predecir someter negociar o tomar decisiones de cualquier aacutembito seguacuten el dominio en que nos desarrollemos La informacioacuten por siacute misma estaacute considerada un bien patrimonial De esta forma si una empresa tiene una peacuterdida total o parcial de informacioacuten provoca bastantes perjuicios Es evidente que la informacioacuten debe ser protegida pero tambieacuten explotada

iquestQueacute nos ha permitido poder generar tanta informacioacuten En los uacuteltimos antildeos debido al desarrollo tecnoloacutegico a niveles exponenciales tanto en el aacuterea de coacutemputo como en la de transmisioacuten de datos ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacioacuten Sin duda existen cuatro factores importantes que nos han llevado a este suceso

19

1 El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente

2 El incremento de las velocidades de coacutemputo en los procesadores 3 Las mejoras en la confiabilidad y aumento de la velocidad en la transmisioacuten

de datos 4 El desarrollo de sistemas administradores de bases de datos maacutes poderosos

Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacioacuten en las bases de datos Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura ya que soacutelo se guarda (o escribe) en el disco duro pero nunca se hace uso de eacutel Generalmente todas las empresas usan un dato llamado dato-escritura-lectura que utilizan para hacer consultas dirigidas Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-anaacutelisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones Es necesario contar con tecnologiacuteas que nos ayuden a explotar el potencial de este tipo de datos La cantidad de informacioacuten que nos llega cada diacutea es tan inmensa que nos resulta difiacutecil asimilarla Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171769416 sitios donde nos pueden decir algo al respecto Suponiendo que nos tomemos un minuto para ver el contenido de cada paacutegina tardariacuteamos entonces 326 antildeos en visitarlas todas Esto es imposible y por lo tanto existe una clara necesidad de disponer de tecnologiacuteas que nos ayuden en nuestros procesos de buacutesqueda y auacuten maacutes de tecnologiacuteas que nos ayuden a comprender su contenido Como bien sabemos algunos sistemas producen una cantidad inmensa de datos estos datos con frecuencia contienen valiosa informacioacuten que puede resultar muy uacutetil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacioacuten Las dimensiones de las base de datos grandes (montantildeas) y sus velocidades de crecimiento hacen muy difiacutecil para un humano su anaacutelisis y la extraccioacuten de alguna informacioacuten importante (oro) Auacuten con el uso de herramientas estadiacutesticas claacutesicas esta tarea es casi imposible El Data Mining surge como una tecnologiacutea que intenta ayudar a comprender el contenido de una base de datos De forma general los datos son la materia prima bruta en el momento que el usuario les atribuye alguacuten significado especial pasan a convertirse en informacioacuten Cuando los especialistas elaboran o encuentran un modelo haciendo que la interpretacioacuten del confronto entre la informacioacuten y ese modelo represente un valor agregado entonces nos referimos al conocimiento En la figura 11 se ilustra la jerarquiacutea que existe en una base de datos entre dato informacioacuten y conocimiento Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquiacutea El aacuterea interna dentro del triaacutengulo representa los objetivos que se han propuesto La separacioacuten del triaacutengulo representa la estrecha unioacuten entre dato e informacioacuten no asiacute entre la informacioacuten y el conocimiento El Data Mining trabaja en el nivel superior buscando patrones comportamientos agrupaciones secuencias tendencias o asociaciones que puedan generar alguacuten modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisioacuten

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 15: Clase 6 Data Mining

15

11 Ejemplo de un problema asociado a Data Mining [18]

Para poder generar una idea general del significado y aplicacioacuten de Data Mining consideremos el siguiente problema

Suponga que usted es el gerente de mercadeo para una compantildeiacutea de telefoniacutea celular El problema considera lo siguiente La desercioacuten de clientes es muy alta La produccioacuten(despueacutes de que el contrato expira) es del 40 Los clientes reciben un teleacutefono de regalo con el contrato Usted paga una comisioacuten de ventas por contrato Se le da un teleacutefono nuevo a cada persona cuyo contrato ha expirado lo cual

es muy caro y por ende poco rentable para la compantildeiacutea Traer de regreso a un cliente despueacutes de que se va es difiacutecil y caro

111 Posible solucioacuten al problema de ejemplo

Se debe predecir queacute clientes abandonaraacuten la compantildeiacutea tres meses antes de que el contrato expire

Si queremos conservar a un cliente que creamos abandonaraacute la empresa se le deberiacutea ofrecer un nuevo teleacutefono

No hay que prestarle atencioacuten a los clientes que tienen altas posibilidades de quedarse en la empresa

Si hay clientes que no deseamos conservar simplemente no hacemos nada

Pues bien es muy faacutecil pretender hacer todo lo mencionado antes pero ahora la pregunta es iquestcoacutemo lo hacemos No podemos tomar decisiones a la ligera ni tomar medidas de las cuales estamos seguros que fallaraacuten por ejemplo suena absurdo en cuestiones como eacutestas recurrir a la lectura del Tarot La solucioacuten debe basarse en algo maacutes formal y coherente y una de esas alternativas es Data Mining

112 Solucioacuten del problema ejemplo a traveacutes de Data Mining

La solucioacuten que puede dar Data Mining al ejemplo del problema mencionado en esta seccioacuten considera lo siguiente

Interactuar dinaacutemicamente con el cliente Trabajar hacia delante y no hacia atraacutes Mejorar la calidad de la interaccioacuten iquestEl cliente quiere interactuar

o La liacutenea de ganancias se salva Optimizar el tiempo de interaccioacuten

o Aumentar el valor del cliente constantemente o Aumentar el valor de vida del cliente

En esta seccioacuten hemos visto solo un ejemplo introductoria en las secciones subsecuentes trataremos otros casos e iremos explicando como es que Data Mining ofrece soluciones a problemas de empresas

12 Data Warehouse Un paso antes de Data Mining

16

Antes de dar a conocer claramente lo que significa Data Mining es preciso dejar en claro lo que es un Data Warehouse que en principio lo podemos ver como un concepto que esta antes de Data Mining y es la base de este (aunque no siempre es asiacute) por ello el objetivo de esta seccioacuten es dar una idea general a este concepto no entraremos en muchos detalles pero daremos a conocer lo maacutes relevante para que en las secciones siguientes cuando hablemos de Data Warehouse o Data Warehousing no haya dudas sobre lo que nos estamos refiriendo

Las Bases de Datos (BD) de una empresa utilizan los ordenadores como medio para organizar sus datos de forma que sean comprensibles para las personas Este proceso es conocido como Data Warehousing La comprensioacuten de los datos almacenados es esencial para cualquier organizacioacuten ya que constituye un elemento baacutesico en la toma de decisiones

Un Data Warehouse es un almaceacuten o repositorio de datos categorizados que concentra un gran volumen de informacioacuten de intereacutes para toda una organizacioacuten la cual se distribuye por medio de diversas herramientas de consulta y de creacioacuten de informes orientadas a la toma de decisiones El objetivo del Data Warehouse (DW) es agrupar los datos con el propoacutesito de facilitar su posterior anaacutelisis de forma que sean faacuteciles de acceder y posteriormente analizar informacioacuten sobre la propia empresa A este tipo de datos se les conoce como informativos Los sistemas que manejan estos datos se denominan OLAP (Online Analytical Processing) Existe muchas definiciones formales de DW de distintos autores pero una de las mas famosas puede ser la dada por Inmon en 1992 Un Data Warehouse es una coleccioacuten de datos orientados a temas integrados no-volaacutetiles y variante en el tiempo organizados para soportar necesidades empresariales Los Data Warehouses a menudo almacenan gran cantidad de informacioacuten la cual estaacute a veces subdividida en pequentildeas unidades loacutegicas Perioacutedicamente se importan estos datos de otros sistemas de informacioacuten dentro del Data Warehouse para realizar sobre ellos un procesamiento posterior Un Data Warehouse se diferencia de una Base de Datos operacional de una empresa diremos que un Data Warehouse puede derivarse de la Base de Datos corporativa mediante la importacioacuten de informacioacuten pero el DW no es esa BD operacional[7]

Muchos de los datos de una empresa se utilizan como soporte a los negocios por eso a este tipo de datos se les denomina operacionales Los sistemas usados con el fin de recogerlos reciben el nombre de OLTP (Online Transaction Processing)[10]

Las principales caracteriacutesticas o propiedades de un DW son las siguientes

El DW estaacute orientado a la toma de decisiones Un buen disentildeo de la base de datos favorece el anaacutelisis y la recuperacioacuten de datos para obtener una ventaja estrateacutegica y para facilitar las decisiones de marketing

El DW almacena datos categorizaacutendolos o estructuraacutendolos de forma que favorezcan el anaacutelisis de los datos y puedan proporcionar anaacutelisis histoacutericos

El DW no estaacute orientado a procesos relacionados con la operativa de la empresa es decir que solo esta destinado a funcionar como un almaceacuten de datos

El DW estaacute preparado para ser explotado mediante herramientas especiacuteficas que permiten la extraccioacuten de informacioacuten significativa y patrones de

17

comportamiento que permanecen ocultos en un enorme repositorio de datos Esta explotacioacuten de los datos se suele realizar con herramientas de Data Mining

121 Software para un Data Warehouse[10]

La informacioacuten estrateacutegica se almacena en Gigabytes(tal vez maacutes) de datos de marketing En este caso se necesita software especializado que permita capturar los datos relevantes en forma raacutepida El software no deberiacutea limitarse uacutenicamente al acceso a los datos sino tambieacuten al anaacutelisis significativo de los datos esto es transformar los datos de la informacioacuten cruda o no procesada en informacioacuten uacutetil para la empresa

El software o herramientas de negocios inteligentes se colocan sobre la plataforma Data Warehousing y proveen este servicio Debido a que son el punto principal de contacto entre la aplicacioacuten del depoacutesito y la gente que lo usa estas herramientas pueden constituir la diferencia entre el eacutexito o fracaso de un depoacutesito Las herramientas de negocio inteligentes se han convertido en los sucesores de los sistemas de soporte de decisioacuten pero tienen un alcance maacutes amplio No solamente ayudan en las decisiones de soporte sino en muchos casos estas herramientas soportan muchas funciones operacionales y de misioacuten-criacutetica de la compantildeiacutea Sin embargo estos productos no son infalibles ya que soacutelo se consigue el maacuteximo provecho del Data Warehouse si eligen las herramientas adecuadas a las necesidades de cada usuario final Una de estas herramientas es Data Mining sin embargo hay otras que no mencionaremos ya que se encuentran fuera de los objetivos de este trabajo El proceso de Data Mining extrae los conocimientos guardados o informacioacuten predictiva desde el Data Warehouse sin requerir pedidos o preguntas especiacuteficas Data Mining usa algunas de las teacutecnicas de computacioacuten maacutes avanzadas para generar modelos y asociaciones como redes neurales deteccioacuten de desviacioacuten modelado predictivo y programacioacuten geneacutetica

122 Ventajas y Desventajas del Data Warehouse

La utilizacioacuten de Data Warehouse proporciona una serie de ventajas

Proporciona un gran poder de procesamiento de informacioacuten Permite una mayor flexibilidad y rapidez en el acceso a la informacioacuten Facilita la toma de decisiones en los negocios Las empresas obtienen un aumento de la productividad Proporciona una comunicacioacuten fiable entre todos los departamentos de la

empresa Mejora las relaciones con los proveedores y los clientes Permite conocer queacute estaacute pasando en el negocio es decir estar siempre

enterado de los buenos y malos resultados Transforma los datos en informacioacuten y la informacioacuten en conocimiento Permite hacer planes de forma maacutes efectiva Reduce los tiempos de respuesta y los costes de operacioacuten

Resumiendo el Data Warehouse proporciona una informacioacuten de gestioacuten accesible correcta uniforme y actualizada Proporciona un menor coste en la toma de

18

decisiones una mayor flexibilidad ante el entorno un mejor servicio al cliente y permite el redisentildeo de los procesos

Pero los Data Warehouse tambieacuten tienen algunas desventajas

Requieren una revisioacuten del modelo de datos objetos transacciones y ademaacutes del almacenamiento

Tienen un disentildeo complejo y multidisciplinar Requieren una reestructuracioacuten de los sistemas operacionales Tienen un alto coste Requieren sistemas aplicaciones y almacenamiento especiacutefico

Por uacuteltimo cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versioacuten maacutes reducida de un Data Warehouse a menudo conteniendo informacioacuten especiacutefica de alguacuten departamento como marketing finanzas o mantenimiento de la red Idealmente el Data Marts deberiacutea ser un subconjunto del Data Warehouse a fin de mantener consistencia en las praacutecticas de administracioacuten de datos corporativos y para mantener la seguridad y la integridad de la informacioacuten cruda que se estaacute usando Para las grandes compantildeiacuteas el Data Marts usualmente contiene una docena de gigabytes de datos Ahora podemos continuar y dar una explicacioacuten de lo que en realidad es Data Mining a pesar de que en este apartado hemos dado una definicioacuten de manera somera

13 iquestQueacute es Data Mining[14]

Cada diacutea generamos una gran cantidad de informacioacuten algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos Nos damos cuenta de que generamos informacioacuten cuando registramos nuestra entrada en el trabajo cuando entramos en un servidor para ver nuestro correo cuando pagamos con una tarjeta de creacutedito o cuando reservamos un boleto de avioacuten Otras veces no nos damos cuenta de que generamos informacioacuten como cuando conducimos por una viacutea donde estaacuten contabilizando el nuacutemero de automoacuteviles que pasan por minuto cuando se sigue nuestra navegacioacuten por Internet o cuando nos sacan una fotografiacutea del rostro al haber pasado cerca de una oficina gubernamental iquestCon queacute finalidad queremos generar informacioacuten Son muchos los motivos que nos llevan a generar informacioacuten ya que nos pueden ayudar a controlar optimizar administrar examinar investigar planificar predecir someter negociar o tomar decisiones de cualquier aacutembito seguacuten el dominio en que nos desarrollemos La informacioacuten por siacute misma estaacute considerada un bien patrimonial De esta forma si una empresa tiene una peacuterdida total o parcial de informacioacuten provoca bastantes perjuicios Es evidente que la informacioacuten debe ser protegida pero tambieacuten explotada

iquestQueacute nos ha permitido poder generar tanta informacioacuten En los uacuteltimos antildeos debido al desarrollo tecnoloacutegico a niveles exponenciales tanto en el aacuterea de coacutemputo como en la de transmisioacuten de datos ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacioacuten Sin duda existen cuatro factores importantes que nos han llevado a este suceso

19

1 El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente

2 El incremento de las velocidades de coacutemputo en los procesadores 3 Las mejoras en la confiabilidad y aumento de la velocidad en la transmisioacuten

de datos 4 El desarrollo de sistemas administradores de bases de datos maacutes poderosos

Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacioacuten en las bases de datos Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura ya que soacutelo se guarda (o escribe) en el disco duro pero nunca se hace uso de eacutel Generalmente todas las empresas usan un dato llamado dato-escritura-lectura que utilizan para hacer consultas dirigidas Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-anaacutelisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones Es necesario contar con tecnologiacuteas que nos ayuden a explotar el potencial de este tipo de datos La cantidad de informacioacuten que nos llega cada diacutea es tan inmensa que nos resulta difiacutecil asimilarla Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171769416 sitios donde nos pueden decir algo al respecto Suponiendo que nos tomemos un minuto para ver el contenido de cada paacutegina tardariacuteamos entonces 326 antildeos en visitarlas todas Esto es imposible y por lo tanto existe una clara necesidad de disponer de tecnologiacuteas que nos ayuden en nuestros procesos de buacutesqueda y auacuten maacutes de tecnologiacuteas que nos ayuden a comprender su contenido Como bien sabemos algunos sistemas producen una cantidad inmensa de datos estos datos con frecuencia contienen valiosa informacioacuten que puede resultar muy uacutetil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacioacuten Las dimensiones de las base de datos grandes (montantildeas) y sus velocidades de crecimiento hacen muy difiacutecil para un humano su anaacutelisis y la extraccioacuten de alguna informacioacuten importante (oro) Auacuten con el uso de herramientas estadiacutesticas claacutesicas esta tarea es casi imposible El Data Mining surge como una tecnologiacutea que intenta ayudar a comprender el contenido de una base de datos De forma general los datos son la materia prima bruta en el momento que el usuario les atribuye alguacuten significado especial pasan a convertirse en informacioacuten Cuando los especialistas elaboran o encuentran un modelo haciendo que la interpretacioacuten del confronto entre la informacioacuten y ese modelo represente un valor agregado entonces nos referimos al conocimiento En la figura 11 se ilustra la jerarquiacutea que existe en una base de datos entre dato informacioacuten y conocimiento Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquiacutea El aacuterea interna dentro del triaacutengulo representa los objetivos que se han propuesto La separacioacuten del triaacutengulo representa la estrecha unioacuten entre dato e informacioacuten no asiacute entre la informacioacuten y el conocimiento El Data Mining trabaja en el nivel superior buscando patrones comportamientos agrupaciones secuencias tendencias o asociaciones que puedan generar alguacuten modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisioacuten

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 16: Clase 6 Data Mining

16

Antes de dar a conocer claramente lo que significa Data Mining es preciso dejar en claro lo que es un Data Warehouse que en principio lo podemos ver como un concepto que esta antes de Data Mining y es la base de este (aunque no siempre es asiacute) por ello el objetivo de esta seccioacuten es dar una idea general a este concepto no entraremos en muchos detalles pero daremos a conocer lo maacutes relevante para que en las secciones siguientes cuando hablemos de Data Warehouse o Data Warehousing no haya dudas sobre lo que nos estamos refiriendo

Las Bases de Datos (BD) de una empresa utilizan los ordenadores como medio para organizar sus datos de forma que sean comprensibles para las personas Este proceso es conocido como Data Warehousing La comprensioacuten de los datos almacenados es esencial para cualquier organizacioacuten ya que constituye un elemento baacutesico en la toma de decisiones

Un Data Warehouse es un almaceacuten o repositorio de datos categorizados que concentra un gran volumen de informacioacuten de intereacutes para toda una organizacioacuten la cual se distribuye por medio de diversas herramientas de consulta y de creacioacuten de informes orientadas a la toma de decisiones El objetivo del Data Warehouse (DW) es agrupar los datos con el propoacutesito de facilitar su posterior anaacutelisis de forma que sean faacuteciles de acceder y posteriormente analizar informacioacuten sobre la propia empresa A este tipo de datos se les conoce como informativos Los sistemas que manejan estos datos se denominan OLAP (Online Analytical Processing) Existe muchas definiciones formales de DW de distintos autores pero una de las mas famosas puede ser la dada por Inmon en 1992 Un Data Warehouse es una coleccioacuten de datos orientados a temas integrados no-volaacutetiles y variante en el tiempo organizados para soportar necesidades empresariales Los Data Warehouses a menudo almacenan gran cantidad de informacioacuten la cual estaacute a veces subdividida en pequentildeas unidades loacutegicas Perioacutedicamente se importan estos datos de otros sistemas de informacioacuten dentro del Data Warehouse para realizar sobre ellos un procesamiento posterior Un Data Warehouse se diferencia de una Base de Datos operacional de una empresa diremos que un Data Warehouse puede derivarse de la Base de Datos corporativa mediante la importacioacuten de informacioacuten pero el DW no es esa BD operacional[7]

Muchos de los datos de una empresa se utilizan como soporte a los negocios por eso a este tipo de datos se les denomina operacionales Los sistemas usados con el fin de recogerlos reciben el nombre de OLTP (Online Transaction Processing)[10]

Las principales caracteriacutesticas o propiedades de un DW son las siguientes

El DW estaacute orientado a la toma de decisiones Un buen disentildeo de la base de datos favorece el anaacutelisis y la recuperacioacuten de datos para obtener una ventaja estrateacutegica y para facilitar las decisiones de marketing

El DW almacena datos categorizaacutendolos o estructuraacutendolos de forma que favorezcan el anaacutelisis de los datos y puedan proporcionar anaacutelisis histoacutericos

El DW no estaacute orientado a procesos relacionados con la operativa de la empresa es decir que solo esta destinado a funcionar como un almaceacuten de datos

El DW estaacute preparado para ser explotado mediante herramientas especiacuteficas que permiten la extraccioacuten de informacioacuten significativa y patrones de

17

comportamiento que permanecen ocultos en un enorme repositorio de datos Esta explotacioacuten de los datos se suele realizar con herramientas de Data Mining

121 Software para un Data Warehouse[10]

La informacioacuten estrateacutegica se almacena en Gigabytes(tal vez maacutes) de datos de marketing En este caso se necesita software especializado que permita capturar los datos relevantes en forma raacutepida El software no deberiacutea limitarse uacutenicamente al acceso a los datos sino tambieacuten al anaacutelisis significativo de los datos esto es transformar los datos de la informacioacuten cruda o no procesada en informacioacuten uacutetil para la empresa

El software o herramientas de negocios inteligentes se colocan sobre la plataforma Data Warehousing y proveen este servicio Debido a que son el punto principal de contacto entre la aplicacioacuten del depoacutesito y la gente que lo usa estas herramientas pueden constituir la diferencia entre el eacutexito o fracaso de un depoacutesito Las herramientas de negocio inteligentes se han convertido en los sucesores de los sistemas de soporte de decisioacuten pero tienen un alcance maacutes amplio No solamente ayudan en las decisiones de soporte sino en muchos casos estas herramientas soportan muchas funciones operacionales y de misioacuten-criacutetica de la compantildeiacutea Sin embargo estos productos no son infalibles ya que soacutelo se consigue el maacuteximo provecho del Data Warehouse si eligen las herramientas adecuadas a las necesidades de cada usuario final Una de estas herramientas es Data Mining sin embargo hay otras que no mencionaremos ya que se encuentran fuera de los objetivos de este trabajo El proceso de Data Mining extrae los conocimientos guardados o informacioacuten predictiva desde el Data Warehouse sin requerir pedidos o preguntas especiacuteficas Data Mining usa algunas de las teacutecnicas de computacioacuten maacutes avanzadas para generar modelos y asociaciones como redes neurales deteccioacuten de desviacioacuten modelado predictivo y programacioacuten geneacutetica

122 Ventajas y Desventajas del Data Warehouse

La utilizacioacuten de Data Warehouse proporciona una serie de ventajas

Proporciona un gran poder de procesamiento de informacioacuten Permite una mayor flexibilidad y rapidez en el acceso a la informacioacuten Facilita la toma de decisiones en los negocios Las empresas obtienen un aumento de la productividad Proporciona una comunicacioacuten fiable entre todos los departamentos de la

empresa Mejora las relaciones con los proveedores y los clientes Permite conocer queacute estaacute pasando en el negocio es decir estar siempre

enterado de los buenos y malos resultados Transforma los datos en informacioacuten y la informacioacuten en conocimiento Permite hacer planes de forma maacutes efectiva Reduce los tiempos de respuesta y los costes de operacioacuten

Resumiendo el Data Warehouse proporciona una informacioacuten de gestioacuten accesible correcta uniforme y actualizada Proporciona un menor coste en la toma de

18

decisiones una mayor flexibilidad ante el entorno un mejor servicio al cliente y permite el redisentildeo de los procesos

Pero los Data Warehouse tambieacuten tienen algunas desventajas

Requieren una revisioacuten del modelo de datos objetos transacciones y ademaacutes del almacenamiento

Tienen un disentildeo complejo y multidisciplinar Requieren una reestructuracioacuten de los sistemas operacionales Tienen un alto coste Requieren sistemas aplicaciones y almacenamiento especiacutefico

Por uacuteltimo cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versioacuten maacutes reducida de un Data Warehouse a menudo conteniendo informacioacuten especiacutefica de alguacuten departamento como marketing finanzas o mantenimiento de la red Idealmente el Data Marts deberiacutea ser un subconjunto del Data Warehouse a fin de mantener consistencia en las praacutecticas de administracioacuten de datos corporativos y para mantener la seguridad y la integridad de la informacioacuten cruda que se estaacute usando Para las grandes compantildeiacuteas el Data Marts usualmente contiene una docena de gigabytes de datos Ahora podemos continuar y dar una explicacioacuten de lo que en realidad es Data Mining a pesar de que en este apartado hemos dado una definicioacuten de manera somera

13 iquestQueacute es Data Mining[14]

Cada diacutea generamos una gran cantidad de informacioacuten algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos Nos damos cuenta de que generamos informacioacuten cuando registramos nuestra entrada en el trabajo cuando entramos en un servidor para ver nuestro correo cuando pagamos con una tarjeta de creacutedito o cuando reservamos un boleto de avioacuten Otras veces no nos damos cuenta de que generamos informacioacuten como cuando conducimos por una viacutea donde estaacuten contabilizando el nuacutemero de automoacuteviles que pasan por minuto cuando se sigue nuestra navegacioacuten por Internet o cuando nos sacan una fotografiacutea del rostro al haber pasado cerca de una oficina gubernamental iquestCon queacute finalidad queremos generar informacioacuten Son muchos los motivos que nos llevan a generar informacioacuten ya que nos pueden ayudar a controlar optimizar administrar examinar investigar planificar predecir someter negociar o tomar decisiones de cualquier aacutembito seguacuten el dominio en que nos desarrollemos La informacioacuten por siacute misma estaacute considerada un bien patrimonial De esta forma si una empresa tiene una peacuterdida total o parcial de informacioacuten provoca bastantes perjuicios Es evidente que la informacioacuten debe ser protegida pero tambieacuten explotada

iquestQueacute nos ha permitido poder generar tanta informacioacuten En los uacuteltimos antildeos debido al desarrollo tecnoloacutegico a niveles exponenciales tanto en el aacuterea de coacutemputo como en la de transmisioacuten de datos ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacioacuten Sin duda existen cuatro factores importantes que nos han llevado a este suceso

19

1 El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente

2 El incremento de las velocidades de coacutemputo en los procesadores 3 Las mejoras en la confiabilidad y aumento de la velocidad en la transmisioacuten

de datos 4 El desarrollo de sistemas administradores de bases de datos maacutes poderosos

Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacioacuten en las bases de datos Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura ya que soacutelo se guarda (o escribe) en el disco duro pero nunca se hace uso de eacutel Generalmente todas las empresas usan un dato llamado dato-escritura-lectura que utilizan para hacer consultas dirigidas Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-anaacutelisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones Es necesario contar con tecnologiacuteas que nos ayuden a explotar el potencial de este tipo de datos La cantidad de informacioacuten que nos llega cada diacutea es tan inmensa que nos resulta difiacutecil asimilarla Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171769416 sitios donde nos pueden decir algo al respecto Suponiendo que nos tomemos un minuto para ver el contenido de cada paacutegina tardariacuteamos entonces 326 antildeos en visitarlas todas Esto es imposible y por lo tanto existe una clara necesidad de disponer de tecnologiacuteas que nos ayuden en nuestros procesos de buacutesqueda y auacuten maacutes de tecnologiacuteas que nos ayuden a comprender su contenido Como bien sabemos algunos sistemas producen una cantidad inmensa de datos estos datos con frecuencia contienen valiosa informacioacuten que puede resultar muy uacutetil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacioacuten Las dimensiones de las base de datos grandes (montantildeas) y sus velocidades de crecimiento hacen muy difiacutecil para un humano su anaacutelisis y la extraccioacuten de alguna informacioacuten importante (oro) Auacuten con el uso de herramientas estadiacutesticas claacutesicas esta tarea es casi imposible El Data Mining surge como una tecnologiacutea que intenta ayudar a comprender el contenido de una base de datos De forma general los datos son la materia prima bruta en el momento que el usuario les atribuye alguacuten significado especial pasan a convertirse en informacioacuten Cuando los especialistas elaboran o encuentran un modelo haciendo que la interpretacioacuten del confronto entre la informacioacuten y ese modelo represente un valor agregado entonces nos referimos al conocimiento En la figura 11 se ilustra la jerarquiacutea que existe en una base de datos entre dato informacioacuten y conocimiento Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquiacutea El aacuterea interna dentro del triaacutengulo representa los objetivos que se han propuesto La separacioacuten del triaacutengulo representa la estrecha unioacuten entre dato e informacioacuten no asiacute entre la informacioacuten y el conocimiento El Data Mining trabaja en el nivel superior buscando patrones comportamientos agrupaciones secuencias tendencias o asociaciones que puedan generar alguacuten modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisioacuten

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 17: Clase 6 Data Mining

17

comportamiento que permanecen ocultos en un enorme repositorio de datos Esta explotacioacuten de los datos se suele realizar con herramientas de Data Mining

121 Software para un Data Warehouse[10]

La informacioacuten estrateacutegica se almacena en Gigabytes(tal vez maacutes) de datos de marketing En este caso se necesita software especializado que permita capturar los datos relevantes en forma raacutepida El software no deberiacutea limitarse uacutenicamente al acceso a los datos sino tambieacuten al anaacutelisis significativo de los datos esto es transformar los datos de la informacioacuten cruda o no procesada en informacioacuten uacutetil para la empresa

El software o herramientas de negocios inteligentes se colocan sobre la plataforma Data Warehousing y proveen este servicio Debido a que son el punto principal de contacto entre la aplicacioacuten del depoacutesito y la gente que lo usa estas herramientas pueden constituir la diferencia entre el eacutexito o fracaso de un depoacutesito Las herramientas de negocio inteligentes se han convertido en los sucesores de los sistemas de soporte de decisioacuten pero tienen un alcance maacutes amplio No solamente ayudan en las decisiones de soporte sino en muchos casos estas herramientas soportan muchas funciones operacionales y de misioacuten-criacutetica de la compantildeiacutea Sin embargo estos productos no son infalibles ya que soacutelo se consigue el maacuteximo provecho del Data Warehouse si eligen las herramientas adecuadas a las necesidades de cada usuario final Una de estas herramientas es Data Mining sin embargo hay otras que no mencionaremos ya que se encuentran fuera de los objetivos de este trabajo El proceso de Data Mining extrae los conocimientos guardados o informacioacuten predictiva desde el Data Warehouse sin requerir pedidos o preguntas especiacuteficas Data Mining usa algunas de las teacutecnicas de computacioacuten maacutes avanzadas para generar modelos y asociaciones como redes neurales deteccioacuten de desviacioacuten modelado predictivo y programacioacuten geneacutetica

122 Ventajas y Desventajas del Data Warehouse

La utilizacioacuten de Data Warehouse proporciona una serie de ventajas

Proporciona un gran poder de procesamiento de informacioacuten Permite una mayor flexibilidad y rapidez en el acceso a la informacioacuten Facilita la toma de decisiones en los negocios Las empresas obtienen un aumento de la productividad Proporciona una comunicacioacuten fiable entre todos los departamentos de la

empresa Mejora las relaciones con los proveedores y los clientes Permite conocer queacute estaacute pasando en el negocio es decir estar siempre

enterado de los buenos y malos resultados Transforma los datos en informacioacuten y la informacioacuten en conocimiento Permite hacer planes de forma maacutes efectiva Reduce los tiempos de respuesta y los costes de operacioacuten

Resumiendo el Data Warehouse proporciona una informacioacuten de gestioacuten accesible correcta uniforme y actualizada Proporciona un menor coste en la toma de

18

decisiones una mayor flexibilidad ante el entorno un mejor servicio al cliente y permite el redisentildeo de los procesos

Pero los Data Warehouse tambieacuten tienen algunas desventajas

Requieren una revisioacuten del modelo de datos objetos transacciones y ademaacutes del almacenamiento

Tienen un disentildeo complejo y multidisciplinar Requieren una reestructuracioacuten de los sistemas operacionales Tienen un alto coste Requieren sistemas aplicaciones y almacenamiento especiacutefico

Por uacuteltimo cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versioacuten maacutes reducida de un Data Warehouse a menudo conteniendo informacioacuten especiacutefica de alguacuten departamento como marketing finanzas o mantenimiento de la red Idealmente el Data Marts deberiacutea ser un subconjunto del Data Warehouse a fin de mantener consistencia en las praacutecticas de administracioacuten de datos corporativos y para mantener la seguridad y la integridad de la informacioacuten cruda que se estaacute usando Para las grandes compantildeiacuteas el Data Marts usualmente contiene una docena de gigabytes de datos Ahora podemos continuar y dar una explicacioacuten de lo que en realidad es Data Mining a pesar de que en este apartado hemos dado una definicioacuten de manera somera

13 iquestQueacute es Data Mining[14]

Cada diacutea generamos una gran cantidad de informacioacuten algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos Nos damos cuenta de que generamos informacioacuten cuando registramos nuestra entrada en el trabajo cuando entramos en un servidor para ver nuestro correo cuando pagamos con una tarjeta de creacutedito o cuando reservamos un boleto de avioacuten Otras veces no nos damos cuenta de que generamos informacioacuten como cuando conducimos por una viacutea donde estaacuten contabilizando el nuacutemero de automoacuteviles que pasan por minuto cuando se sigue nuestra navegacioacuten por Internet o cuando nos sacan una fotografiacutea del rostro al haber pasado cerca de una oficina gubernamental iquestCon queacute finalidad queremos generar informacioacuten Son muchos los motivos que nos llevan a generar informacioacuten ya que nos pueden ayudar a controlar optimizar administrar examinar investigar planificar predecir someter negociar o tomar decisiones de cualquier aacutembito seguacuten el dominio en que nos desarrollemos La informacioacuten por siacute misma estaacute considerada un bien patrimonial De esta forma si una empresa tiene una peacuterdida total o parcial de informacioacuten provoca bastantes perjuicios Es evidente que la informacioacuten debe ser protegida pero tambieacuten explotada

iquestQueacute nos ha permitido poder generar tanta informacioacuten En los uacuteltimos antildeos debido al desarrollo tecnoloacutegico a niveles exponenciales tanto en el aacuterea de coacutemputo como en la de transmisioacuten de datos ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacioacuten Sin duda existen cuatro factores importantes que nos han llevado a este suceso

19

1 El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente

2 El incremento de las velocidades de coacutemputo en los procesadores 3 Las mejoras en la confiabilidad y aumento de la velocidad en la transmisioacuten

de datos 4 El desarrollo de sistemas administradores de bases de datos maacutes poderosos

Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacioacuten en las bases de datos Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura ya que soacutelo se guarda (o escribe) en el disco duro pero nunca se hace uso de eacutel Generalmente todas las empresas usan un dato llamado dato-escritura-lectura que utilizan para hacer consultas dirigidas Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-anaacutelisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones Es necesario contar con tecnologiacuteas que nos ayuden a explotar el potencial de este tipo de datos La cantidad de informacioacuten que nos llega cada diacutea es tan inmensa que nos resulta difiacutecil asimilarla Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171769416 sitios donde nos pueden decir algo al respecto Suponiendo que nos tomemos un minuto para ver el contenido de cada paacutegina tardariacuteamos entonces 326 antildeos en visitarlas todas Esto es imposible y por lo tanto existe una clara necesidad de disponer de tecnologiacuteas que nos ayuden en nuestros procesos de buacutesqueda y auacuten maacutes de tecnologiacuteas que nos ayuden a comprender su contenido Como bien sabemos algunos sistemas producen una cantidad inmensa de datos estos datos con frecuencia contienen valiosa informacioacuten que puede resultar muy uacutetil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacioacuten Las dimensiones de las base de datos grandes (montantildeas) y sus velocidades de crecimiento hacen muy difiacutecil para un humano su anaacutelisis y la extraccioacuten de alguna informacioacuten importante (oro) Auacuten con el uso de herramientas estadiacutesticas claacutesicas esta tarea es casi imposible El Data Mining surge como una tecnologiacutea que intenta ayudar a comprender el contenido de una base de datos De forma general los datos son la materia prima bruta en el momento que el usuario les atribuye alguacuten significado especial pasan a convertirse en informacioacuten Cuando los especialistas elaboran o encuentran un modelo haciendo que la interpretacioacuten del confronto entre la informacioacuten y ese modelo represente un valor agregado entonces nos referimos al conocimiento En la figura 11 se ilustra la jerarquiacutea que existe en una base de datos entre dato informacioacuten y conocimiento Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquiacutea El aacuterea interna dentro del triaacutengulo representa los objetivos que se han propuesto La separacioacuten del triaacutengulo representa la estrecha unioacuten entre dato e informacioacuten no asiacute entre la informacioacuten y el conocimiento El Data Mining trabaja en el nivel superior buscando patrones comportamientos agrupaciones secuencias tendencias o asociaciones que puedan generar alguacuten modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisioacuten

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 18: Clase 6 Data Mining

18

decisiones una mayor flexibilidad ante el entorno un mejor servicio al cliente y permite el redisentildeo de los procesos

Pero los Data Warehouse tambieacuten tienen algunas desventajas

Requieren una revisioacuten del modelo de datos objetos transacciones y ademaacutes del almacenamiento

Tienen un disentildeo complejo y multidisciplinar Requieren una reestructuracioacuten de los sistemas operacionales Tienen un alto coste Requieren sistemas aplicaciones y almacenamiento especiacutefico

Por uacuteltimo cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versioacuten maacutes reducida de un Data Warehouse a menudo conteniendo informacioacuten especiacutefica de alguacuten departamento como marketing finanzas o mantenimiento de la red Idealmente el Data Marts deberiacutea ser un subconjunto del Data Warehouse a fin de mantener consistencia en las praacutecticas de administracioacuten de datos corporativos y para mantener la seguridad y la integridad de la informacioacuten cruda que se estaacute usando Para las grandes compantildeiacuteas el Data Marts usualmente contiene una docena de gigabytes de datos Ahora podemos continuar y dar una explicacioacuten de lo que en realidad es Data Mining a pesar de que en este apartado hemos dado una definicioacuten de manera somera

13 iquestQueacute es Data Mining[14]

Cada diacutea generamos una gran cantidad de informacioacuten algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos Nos damos cuenta de que generamos informacioacuten cuando registramos nuestra entrada en el trabajo cuando entramos en un servidor para ver nuestro correo cuando pagamos con una tarjeta de creacutedito o cuando reservamos un boleto de avioacuten Otras veces no nos damos cuenta de que generamos informacioacuten como cuando conducimos por una viacutea donde estaacuten contabilizando el nuacutemero de automoacuteviles que pasan por minuto cuando se sigue nuestra navegacioacuten por Internet o cuando nos sacan una fotografiacutea del rostro al haber pasado cerca de una oficina gubernamental iquestCon queacute finalidad queremos generar informacioacuten Son muchos los motivos que nos llevan a generar informacioacuten ya que nos pueden ayudar a controlar optimizar administrar examinar investigar planificar predecir someter negociar o tomar decisiones de cualquier aacutembito seguacuten el dominio en que nos desarrollemos La informacioacuten por siacute misma estaacute considerada un bien patrimonial De esta forma si una empresa tiene una peacuterdida total o parcial de informacioacuten provoca bastantes perjuicios Es evidente que la informacioacuten debe ser protegida pero tambieacuten explotada

iquestQueacute nos ha permitido poder generar tanta informacioacuten En los uacuteltimos antildeos debido al desarrollo tecnoloacutegico a niveles exponenciales tanto en el aacuterea de coacutemputo como en la de transmisioacuten de datos ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacioacuten Sin duda existen cuatro factores importantes que nos han llevado a este suceso

19

1 El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente

2 El incremento de las velocidades de coacutemputo en los procesadores 3 Las mejoras en la confiabilidad y aumento de la velocidad en la transmisioacuten

de datos 4 El desarrollo de sistemas administradores de bases de datos maacutes poderosos

Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacioacuten en las bases de datos Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura ya que soacutelo se guarda (o escribe) en el disco duro pero nunca se hace uso de eacutel Generalmente todas las empresas usan un dato llamado dato-escritura-lectura que utilizan para hacer consultas dirigidas Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-anaacutelisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones Es necesario contar con tecnologiacuteas que nos ayuden a explotar el potencial de este tipo de datos La cantidad de informacioacuten que nos llega cada diacutea es tan inmensa que nos resulta difiacutecil asimilarla Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171769416 sitios donde nos pueden decir algo al respecto Suponiendo que nos tomemos un minuto para ver el contenido de cada paacutegina tardariacuteamos entonces 326 antildeos en visitarlas todas Esto es imposible y por lo tanto existe una clara necesidad de disponer de tecnologiacuteas que nos ayuden en nuestros procesos de buacutesqueda y auacuten maacutes de tecnologiacuteas que nos ayuden a comprender su contenido Como bien sabemos algunos sistemas producen una cantidad inmensa de datos estos datos con frecuencia contienen valiosa informacioacuten que puede resultar muy uacutetil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacioacuten Las dimensiones de las base de datos grandes (montantildeas) y sus velocidades de crecimiento hacen muy difiacutecil para un humano su anaacutelisis y la extraccioacuten de alguna informacioacuten importante (oro) Auacuten con el uso de herramientas estadiacutesticas claacutesicas esta tarea es casi imposible El Data Mining surge como una tecnologiacutea que intenta ayudar a comprender el contenido de una base de datos De forma general los datos son la materia prima bruta en el momento que el usuario les atribuye alguacuten significado especial pasan a convertirse en informacioacuten Cuando los especialistas elaboran o encuentran un modelo haciendo que la interpretacioacuten del confronto entre la informacioacuten y ese modelo represente un valor agregado entonces nos referimos al conocimiento En la figura 11 se ilustra la jerarquiacutea que existe en una base de datos entre dato informacioacuten y conocimiento Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquiacutea El aacuterea interna dentro del triaacutengulo representa los objetivos que se han propuesto La separacioacuten del triaacutengulo representa la estrecha unioacuten entre dato e informacioacuten no asiacute entre la informacioacuten y el conocimiento El Data Mining trabaja en el nivel superior buscando patrones comportamientos agrupaciones secuencias tendencias o asociaciones que puedan generar alguacuten modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisioacuten

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 19: Clase 6 Data Mining

19

1 El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente

2 El incremento de las velocidades de coacutemputo en los procesadores 3 Las mejoras en la confiabilidad y aumento de la velocidad en la transmisioacuten

de datos 4 El desarrollo de sistemas administradores de bases de datos maacutes poderosos

Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacioacuten en las bases de datos Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura ya que soacutelo se guarda (o escribe) en el disco duro pero nunca se hace uso de eacutel Generalmente todas las empresas usan un dato llamado dato-escritura-lectura que utilizan para hacer consultas dirigidas Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-anaacutelisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones Es necesario contar con tecnologiacuteas que nos ayuden a explotar el potencial de este tipo de datos La cantidad de informacioacuten que nos llega cada diacutea es tan inmensa que nos resulta difiacutecil asimilarla Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171769416 sitios donde nos pueden decir algo al respecto Suponiendo que nos tomemos un minuto para ver el contenido de cada paacutegina tardariacuteamos entonces 326 antildeos en visitarlas todas Esto es imposible y por lo tanto existe una clara necesidad de disponer de tecnologiacuteas que nos ayuden en nuestros procesos de buacutesqueda y auacuten maacutes de tecnologiacuteas que nos ayuden a comprender su contenido Como bien sabemos algunos sistemas producen una cantidad inmensa de datos estos datos con frecuencia contienen valiosa informacioacuten que puede resultar muy uacutetil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacioacuten Las dimensiones de las base de datos grandes (montantildeas) y sus velocidades de crecimiento hacen muy difiacutecil para un humano su anaacutelisis y la extraccioacuten de alguna informacioacuten importante (oro) Auacuten con el uso de herramientas estadiacutesticas claacutesicas esta tarea es casi imposible El Data Mining surge como una tecnologiacutea que intenta ayudar a comprender el contenido de una base de datos De forma general los datos son la materia prima bruta en el momento que el usuario les atribuye alguacuten significado especial pasan a convertirse en informacioacuten Cuando los especialistas elaboran o encuentran un modelo haciendo que la interpretacioacuten del confronto entre la informacioacuten y ese modelo represente un valor agregado entonces nos referimos al conocimiento En la figura 11 se ilustra la jerarquiacutea que existe en una base de datos entre dato informacioacuten y conocimiento Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquiacutea El aacuterea interna dentro del triaacutengulo representa los objetivos que se han propuesto La separacioacuten del triaacutengulo representa la estrecha unioacuten entre dato e informacioacuten no asiacute entre la informacioacuten y el conocimiento El Data Mining trabaja en el nivel superior buscando patrones comportamientos agrupaciones secuencias tendencias o asociaciones que puedan generar alguacuten modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisioacuten

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 20: Clase 6 Data Mining

20

Figura 11 Relacioacuten entre Dato Informacioacuten y conocimiento

El descubrimiento de conocimiento en base de datos (KDD de Knowledge Discovery in Databases) combina las teacutecnicas tradicionales con numerosos recursos desarrollados en el aacuterea de la inteligencia artificial En estas aplicaciones el teacutermino Mineriacutea de Datos (Data Mining) ha tenido maacutes aceptacioacuten En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas no del todo comprendidas y carentes de un soporte teoacuterico formal Pero en este caso el objetivo es tan valioso que los resultados praacutecticos han rebasado a la elegancia acadeacutemica

Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacioacuten interesante y potencialmente uacutetiles inmersos en una gran base de datos en la que se interactuacutea constantemente Data Mining es una combinacioacuten de procesos como

Extraccioacuten de datos Limpieza de datos Seleccioacuten de caracteriacutesticas Algoritmos Anaacutelisis de resultados

Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande y mediante su anaacutelisis predicen posibles tendencias o comportamientos futuros entro de una empresa permitiendo al experto tomar decisiones en los negocios de una forma raacutepida y utilizando un conocimiento que de otra forma no habriacutea encontrado Mediante la utilizacioacuten de estas herramientas se pueden generar nuevas oportunidades de negocio Algunas posibilidades que ofrecen estas herramientas son

Prediccioacuten automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos desconocidos Descubrimiento de anomaliacuteas y acciones fraudulentas por parte de clientes

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 21: Clase 6 Data Mining

21

Este producto esta fuertemente relacionado con anaacutelisis estadiacutesticos el objetivo de generar hipoacutetesis potenciales de intereacutes que son posteriormente verificadas (Vea la figura 12)

Figura 12

Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organizacioacuten

Otra definicioacuten que se puede dar de Data Mining y que es muy comuacuten encontrar dice Una actividad de extraccioacuten cuyo objetivo es el de descubrir hechos contenidos en las bases de datos En la mayoriacutea de los casos se refiere a un trabajo automatizado Si hay alguna intervencioacuten humana a lo largo del proceso este no es considerado como mineriacutea de datos por parte algunas personas La palabra descubrimiento estaacute relacionada con el hecho de que mucha de la informacioacuten valiosa es desconocida con anterioridad En todo caso estas teacutecnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto En cuanto a los hechos escondidos estos estaraacuten principalmente bajo la forma de reglas las cuales nos ayudaraacuten a entender el modelo del sistema relacionado con los datos observados Por otra parte las reglas tambieacuten pueden ser usadas en la prediccioacuten de ciertos estado del sistema (lo que se busca) Desde un punto de vista acadeacutemico el teacutermino Data Mining es una etapa dentro de un proceso mayor llamado KDD Lo que en verdad hace el Data Mining es reunir las ventajas de varias aacutereas como la Estadiacutestica la Inteligencia Artificial la Computacioacuten Graacutefica las Bases de Datos y el Procesamiento Masivo principalmente usando como materia prima las bases de datos

El Data Mining es una tecnologiacutea compuesta por etapas que integra varias aacutereas y que no se debe confundir con un gran software Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadiacutesticas de visualizacioacuten de datos o de inteligencia artificial principalmente Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfiacuten de utileriacuteas que facilitan el

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 22: Clase 6 Data Mining

22

desarrollo de un proyecto Sin embargo casi siempre acaban complementaacutendose con otra herramienta[19]

131 iquestDoacutende se utiliza Data Mining

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos Sistemas parcialmente desconocidos Si el modelo del sistema que

produce los datos es bien conocido entonces no necesitamos de la mineriacutea de datos ya que todas las variables son de alguna manera predecibles Este no es el caso del comercio electroacutenico debido a los efectos del comportamiento humano el clima y de decisiones poliacuteticas entre otros En estos casos habraacute una parte del sistema que es conocida y habraacute una parte aparentemente de naturaleza aleatoria Bajo ciertas circunstancias a partir de una gran cantidad de datos asociada con el sistema existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo

Enorme cantidad de datos Al contar con mucha informacioacuten en algunas bases de datos es importante para una empresa encontrar la forma de analizar montantildeas de informacioacuten (lo que para un humano seriacutea imposible) y que ello le produzca alguacuten tipo de beneficio

Potente hardware y software Muchas de las herramientas presentes en la mineriacutea de datos estaacuten basadas en el uso intensivo de la computacioacuten en consecuencia un equipo conveniente y un software eficiente con el cual cuente una compantildeiacutea aumentaraacute el desempentildeo del proceso de buscar y analizar informacioacuten el cual a veces debe veacuterselas con producciones de datos del orden de los Gbyteshora (repetimos algo humanamente imposible) Por ejemplo las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse(veacutease la seccioacuten 12) El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como iquestcuales clientes tienen mas probabilidad de responder al proacuteximo enviacuteo de correo promocional y por queacute y presentar los resultados en formas de tablas con graacuteficas reportes texto hipertexto etc Un ejemplo trivial de mineriacutea de datos es su uso en un departamento de ventas Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda el sistema de Data Mining haraacute una correlacioacuten entre ese cliente y las camisas de seda El departamento de compras miraraacute la informacioacuten y realizaraacute enviacuteos de informacioacuten sobre camisas de seda a ese cliente o a todos los clientes que sigan ese modelo obtenido En este caso el sistema de Data Mining es usado para recoger o extraer informacioacuten nueva sobre los clientes la cual estaba oculta anteriormente

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 23: Clase 6 Data Mining

23

El Data Mining tambieacuten es fundamental en la investigacioacuten cientiacutefica y teacutecnica como herramienta de anaacutelisis y descubrimiento de conocimiento a partir de datos de observacioacuten o de resultados de experimentos

132 Los objetivos principales de Data Mining

Data Mining persigue ciertos objetivos de manera especifica a saber

Descripcioacuten El principal producto del proceso de la mineriacutea de datos es el descubrimiento de reglas Estas mostraraacuten nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso Ello enriqueceraacute el anaacutelisis y la descripcioacuten de la forma en que trabaja una compantildeiacutea y ayudaraacute en la planificacioacuten y en el disentildeo de futuros cambios Es posible que algunas de las reglas descubiertas no puedan ser cambiadas pero si resulte posible realizar modificaciones apropiadas en la organizacioacuten con el propoacutesito de mejorar su desempentildeo

Prediccioacuten (Forecasting) Una vez descubiertas reglas importantes estas pueden ser utilizadas pera estimar algunas variables de salida Puede ser en el caso de secuencias en el tiempo o bien en la identificacioacuten e interrupcioacuten a tiempo de una futura mala experiencia de creacutedito En esta tarea se complementan las teacutecnicas estadiacutesticas tradicionales con aquellas provenientes de la inteligencia artificial Conceptos adaptativos como los algoritmos geneacuteticos y las redes neuronales permiten realizar predicciones maacutes acertadas especialmente en casos de gran complejidad y con relaciones internas

133 Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial

Redes Neuronales (Neural Networks) Grupo de unidades interconectadas y organizadas por capas Estas pueden ser funciones matemaacuteticas y nuacutemeros almacenados en computadoras digitales pero pueden ser elaboradas tambieacuten mediante dispositivos analoacutegicos como los transistores a efecto de campo A pesar del incremento en velocidad y de la escala de integracioacuten en los semiconductores la mejor contribucioacuten de las redes neuronales tendraacute que esperar por computadoras maacutes raacutepidas masivas y paralelas

Mapas caracteriacutesticos de Kohonen (Self-organizing Maps) Es una

red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes Una vez entrenada es capaz de identificar tales patrones en nuevos datos

Reconocimiento de patrones (Pattern Recognition) Se trata de un grupo de teacutecnicas orientadas a evaluar la similitud y las diferencias entre sentildeales Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier

K-nearest neibor Un procedimiento para clasificar a los records de un archivo mediante la identificacioacuten de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records

Algoritmo Geneacutetico (Genetic Algorithm) Imitando la evolucioacuten de las especies mediante la mutacioacuten reproduccioacuten y seleccioacuten estos algoritmos

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 24: Clase 6 Data Mining

24

proporcionan programas y optimizaciones que pueden ser utilizados en la construccioacuten y entrenamiento de otras estructuras como las redes neuronales

CAPITULO II

LA FORMA EN QUE SE TRABAJA CON DATA MINING

El presente capiacutetulo esta enfocado como lo dice su nombre a la forma en que se trabaja con Data Mining es decir veremos coacutemo es la arquitectura de Data Mining y su relacioacuten estrecha con un Data Warehouse esto en la seccioacuten 21 La Arquitectura de Data Mining y abordaremos en el apartado 22 Fases para la creacioacuten de un proyecto Data Mining las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining por supuesto que no es nuestra intencioacuten dar una guiacutea detallada para poder realizar algo de esta naturaleza pero siacute una referencia adecuada ya que en la realidad construir un proyecto de tal naturaleza y en siacute un proyecto de cualquier tipo depende mucho de las circunstancias reales a la cuales nos estemos enfrentando

21 La Arquitectura de Data Mining [19]

Dadas bases de datos de suficiente tamantildeo y calidad la tecnologiacutea de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades

Prediccioacuten automatizada de tendencias y comportamientos Data Mining automatiza el proceso de encontrar informacioacuten predecible en grandes bases de datos Preguntas que tradicionalmente requeriacutean un intenso anaacutelisis manual ahora pueden ser contestadas directa y raacutepidamente desde los datos Un tiacutepico ejemplo de problema predecible es el marketing Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversioacuten en futuros anuncios Otros problemas predecibles incluyen pronoacutesticos de problemas financieros futuros o identificar segmentos de poblacioacuten que probablemente respondan similarmente a eventos dados (por ejemplo anuncios de televisioacuten)

Descubrimiento automatizado de modelos previamente desconocidos Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un soacutelo paso Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de creacuteditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos

Las teacutecnicas de Data Mining pueden redituar los beneficios de automatizacioacuten en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento) pueden analizar bases de datos masivas en minutos Procesamiento maacutes raacutepido significa que los usuarios pueden automaacuteticamente experimentar con maacutes modelos para entender datos complejos La alta velocidad hace que sea praacutectico para los usuarios analizar inmensas cantidades de datos Grandes bases de datos a su vez producen mejores predicciones

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 25: Clase 6 Data Mining

25

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

Maacutes columnas Los analistas muchas veces deben limitar el nuacutemero de variables a examinar cuando realizan anaacutelisis manuales debido a limitaciones de tiempo Sin embargo variables que son descartadas porque parecen sin importancia pueden proveer informacioacuten acerca de modelos desconocidos Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos sin preseleccionar un subconjunto de variables

Maacutes filas Muestras mayores producen menos errores de estimacioacuten y desviacuteos y permite a los usuarios hacer inferencias acerca de pequentildeos pero importantes segmentos de poblacioacuten

211 Los Modelos de Data Mining

iquestCuaacuten exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar La teacutecnica usada para realizar estas hazantildeas en Data Mining se llama Modelado Modelado es simplemente el acto de construir un modelo en una situacioacuten donde usted conoce la respuesta y luego la aplica en otra situacioacuten de la cual desconoce la respuesta Por ejemplo si busca un galeoacuten espantildeol hundido en los mares lo primero que podriacutea hacer es investigar otros tesoros espantildeoles que ya fueron encontrados en el pasado Notariacutea que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caracteriacutesticas respecto de las corrientes oceaacutenicas y ciertas rutas que probablemente tomaraacute el capitaacuten del barco en esa eacutepoca Usted nota esas similitudes y arma un modelo que incluye las caracteriacutesticas comunes a todos los sitios de estos tesoros hundidos Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo maacutes probabilidad de darse una situacioacuten similar Con un poco de esperanza si tiene un buen modelo probablemente encontraraacute el tesoro Este acto de construccioacuten de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo seguramente desde antes del auge de las computadoras y de la tecnologiacutea de Data Mining Lo que ocurre en las computadoras no es muy diferente de la manera en que la gente construye modelos Las computadoras son cargadas con mucha informacioacuten acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a traveacutes de los datos y distinguir las caracteriacutesticas de los datos que llevaraacuten al modelo Una vez que el modelo se construyoacute puede ser usado en situaciones similares donde usted no conoce la respuesta

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes iquestCoacutemo puede saber si es realmente un buen modelo La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta Con Data Mining la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining Una vez que el proceso estaacute completo los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo Si el modelo funciona las observaciones deben mantenerse para los datos excluidos

212 Data Mining dentro de una arquitectura Data Warehousing

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 26: Clase 6 Data Mining

26

Las teacutecnicas de Data Mining son utilizadas habitualmente para el anaacutelisis y explotacioacuten de datos de un Data Warehouse El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos datos de seguimiento de clientes datos externos de mercado datos sobre la actividad de competidores etc es una poderosa tecnologiacutea nueva con gran potencial para ayudar a las compantildeiacuteas a concentrarse en la informacioacuten maacutes importante de su base de informacioacuten (Data Warehouse)

Para aplicar mejor teacutecnicas avanzadas de Data Mining eacutestas deben estar totalmente integradas con el Data Warehouse asiacute como con herramientas flexibles e interactivas para el anaacutelisis de negocios Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse requiriendo pasos extra para extraer importar y analizar los datos Ademaacutes cuando nuevos conceptos requieren implementacioacuten operacional la integracioacuten con el Warehouse simplifica la aplicacioacuten de los resultados desde Data Mining El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organizacioacuten en aacutereas tales como manejo de campantildeas promocionales deteccioacuten de fraudes lanzamiento de nuevos productos etc

El punto de inicio ideal es un Data Warehouse que contenga una combinacioacuten de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores Informacioacuten histoacuterica sobre potenciales clientes tambieacuten provee una excelente base para la prediccioacuten de tendencias Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y raacutepido

Las soluciones que aporta el Data Mining estaacuten basadas en la implementacioacuten a traveacutes de la programacioacuten de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploracioacuten y organizacioacuten de los datos Estos algoritmos apoyan la identificacioacuten de patrones relaciones y anomaliacuteas de intereacutes potencial para los que toman las decisiones en los negocios Ademaacutes de implementar estos algoritmos en un meacutetodo accesible para el usuario la tecnologiacutea del Data Mining requiere una comprensioacuten de varias bases de datos e implementacioacuten de soluciones de Data Mining para aprovechar las caracteriacutesticas de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean maacutes eficientes en grandes voluacutemenes de datos Ademaacutes de las implementaciones de algoritmos consideraciones claves relativas al Data Mining seriacutean la preparacioacuten de datos y el asegurar la escalabilidad y rendimiento en grandes voluacutemenes de datos

22 Creacioacuten de un proyecto Data Mining

La creacioacuten de un proyecto de Data Mining pasa por diferentes fases estas variacutean de autor en autor y tambieacuten dependen de doacutende se vaya a implantar dicho proyecto aquiacute presentamos una forma general para la creacioacuten de un proyecto de DM y una forma maacutes especiacutefica estas fases sirven como una guiacutea parcial para elegir una buena forma de implantar un proyecto de este tipo al final de esta seccioacuten

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 27: Clase 6 Data Mining

27

presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo

221 Fases generales para la creacioacuten de un proyecto Data Mining[6]

En esta parte se emplean cuatro fases independientemente de la teacutecnica especiacutefica de extraccioacuten de conocimiento usada

1 Filtrado de datos 2 Seleccioacuten de Variables 3 Extraccioacuten de Conocimiento 4 Interpretacioacuten y Evaluacioacuten

Estas fases las explicamos enseguida

Filtrado de datos El formato de los datos contenidos en la fuente de datos nunca es el idoacuteneo y la mayoriacutea de las veces no es posible utilizar ninguacuten algoritmo de mineriacutea Mediante el preprocesado se filtran los datos (se eliminan valores incorrectos no vaacutelidos desconocidos etc) se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso) o se reducen el nuacutemero de valores posibles (mediante redondeo agrupamiento etc)

Seleccioacuten de variables Auacuten despueacutes de haber sido preprocesados se sigue teniendo una cantidad ingente de datos La seleccioacuten de caracteriacutesticas reduce el tamantildeo de los datos eligiendo las variables maacutes influyentes en el problema sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de mineriacutea Los meacutetodos para la seleccioacuten de caracteriacutesticas son dos

1 Los basados en la eleccioacuten de los mejores atributos del problema 2 Los que buscan variables independientes mediante tests de sensibilidad

algoritmos de distancia o heuriacutesticos

Extraccioacuten de Conocimiento Mediante una teacutecnica se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacioacuten entre dichas variables Tambieacuten pueden usarse varias teacutecnicas a la vez para generar distintos modelos

Interpretacioacuten y evaluacioacuten Finalmente se procede a su validacioacuten comprobando que las conclusiones son vaacutelidas y satisfactorias En el caso de haber obtenido varios modelos mediante el uso de distintas teacutecnicas se deben comparar los modelos en busca de aquel que se ajuste mejor al problema Si ninguno de los modelos alcanza los resultados esperados se alteraraacute alguno de los procesos anteriores en busca de nuevos modelos

222 Las Fases para la creacioacuten de un proyecto DM seguacuten Joseacute Emilio Gondar Nores[11]

Joseacute Emilio Gondar Nores nos dice que las fases que se siguen para la creacioacuten de un proyecto DM son las siguientes

Fase I Disentildear una estrategia para el proyecto DM

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 28: Clase 6 Data Mining

28

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Fase III Creacioacuten aplicaciones inteligentes del modelo Data Mining Fase IV Formacioacuten del equipo humano fijo de Data Mining Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y

correccioacuten de los errores del modelo de DM

Estas fases son un tanto maacutes especiacuteficas que las que veremos posteriormente su explicacioacuten es la siguiente

Fase I Disentildear una estrategia para el proyecto DM Durante esta fase se debe disentildear lo mejor posible una estrategia y una metodologiacutea ademaacutes de adaptar la situacioacuten del entorno a un plan para la creacioacuten de un proyecto de Data Mining como recordaraacute al inicio de este capiacutetulo hicimos mencioacuten del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra iacutendole su planificacioacuten y la forma en que deba trabajarse dependeraacute en gran medida de las circunstancias a las cuales nos estemos enfrentando debemos apegarnos a lo que el usuario o cliente nos solicite no entregar maacutes pero tampoco menos otro de los factores clave tambieacuten es el considerar los recursos econoacutemicos con los cuales se cuente para trabar un proyecto de Data Mining Otro de los puntos a establecer es el tiempo liacutemite en el cual se deberaacute trabajar con un proyecto de este tipo

Fase II Construccioacuten y disentildeo de una BD Data Warehouse y OLAP Se considera la implementacioacuten del almaceacuten de datos (Data Warehouse) Las 4 etapas tiacutepicas de construccioacuten y modelado de un DW son las siguientes

a Indicadores y Dimensiones del Negocio b Identificacioacuten del origen de datos c Pruebas e Implementacioacuten d Evaluacioacuten y Explotacioacuten

Para Bases de Datos se emplean entre otros el software Oracle y Microsoft

La implementacioacuten del OLAP tiene 4 fases

Fusioacuten de Datos Depurar los Datos Agregar los Datos Organizar los Datos

Para OLAP se emplean entre otros el software Microsoft y Microstrategy

Fase III Creacioacuten de Aplicaciones Inteligentes del Modelo de DM Esta fase integra los siguientes puntos

1 Creacioacuten de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM creacioacuten p ej de patrones reglas de asociacioacuten aacuterboles de decisioacuten etc

2 Integracioacuten de todas las BD (es decir de toda la informacioacuten del DW)

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 29: Clase 6 Data Mining

29

3 Creacioacuten de un uacutenico fichero de datos ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones sujetos y acciones ocultas o incompletas)

4 Planteamiento de un DM (Metodologiacuteas o estrategias) Hay dos tipos de planteamientos

SEMMA (SAS)

o S Samplig Muestreo o E Exploration Exploracioacuten de las Bases de datos o M Modification Modificacioacuten o transformacioacuten de variables para

crear (en su caso) variables maacutes aptas para los anaacutelisis o M Modelling Modelado estadiacutestico o A Assessment Evaluacioacuten del DM medido en coeficiente

CRISP-DM (SPSS)

o Comprensioacuten del negocio o Compresioacuten de los datos o Preparacioacuten de los datos o Modelado o Evaluacioacuten o Lanzamiento

Fase IV Formacioacuten del equipo humano fijo de Data Mining La formacioacuten del staff de disentildeo desarrollo y mantenimiento del DM considera a 5 personas fijas o Jefe de proyecto o Coordinador de DM o Analista de DM o Disentildeador de DW o Ayudante de DM

En esta fase se debe realizar la explicacioacuten a este equipo de la loacutegica de sistema y del funcionamiento de la aplicacioacuten del DM y la seleccioacuten del staff Se plantean en esta fase dos posibles situaciones

1 El cliente crea su propio equipo y eacuteste mantiene el DM Se ayuda a crear este equipo para que trabaje de modo autoacutenomo del creador

2 El cliente subcontrata un servicio de Outsourcing En este caso se debe plantear una oferta de servicio de apoyo y consultariacutea constante Post-hoc (posterior a la implantacioacuten de la solucioacuten de DM) Esto da lugar a viajes estancia y gastos

Fase V Lanzamiento del modelo de DM evaluacioacuten de la calidad y correccioacuten de los errores del modelo de DM La evaluacioacuten y correccioacuten de los errores del modelo de DM afecta a la gestioacuten y control de calidad del modelo DM Hay tres tipos de tareas

1 Estudiar posibles errores y detectarlos en el funcionamiento de la aplicacioacuten

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 30: Clase 6 Data Mining

30

2 Plantear posibles correcciones o soluciones a dichos errores 3 Evaluar la calidad del sistema o aplicacioacuten del DM construido

223 Recomendaciones para la creacioacuten de un proyecto Data Mining[15]

Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining

Analice sus necesidades de informacioacuten Sea realista con ellas y contemple los futuros crecimientos Evite que en poco tiempo su sistema se quede pequentildeo o poco operativo

No tenga complejos teacutecnicos por no ser un experto Usted es quien mejor conoce su empresa y a sus clientes

Pida asesoramiento externo La visioacuten de alguien experto en procesos y ajeno a la compantildeiacutea introduciraacute un soplo de aire fresco y una visioacuten maacutes rica del problema

No mate moscas a cantildeonazos No implante sistemas que no necesita Ademaacutes de caros seraacuten un obstaacuteculo y una hipoteca para futuros crecimientos

Si pide una valoracioacuten externa de sus sistemas y procesos elija con cuidado Si invita a Ferrari le venderaacuten un Ferrari aunque lo que usted necesite sea una furgoneta

Contraste opiniones Utilice la situacioacuten para proponer mejoras en los procesos en las rutinas y en la forma de trabajar Puede ser un excelente pretexto para revisar procedimientos y recortar costes En cualquier caso no informatice el caos

No implante nada que no necesite de verdad Si lo implanta mantenga una visioacuten a medio-largo plazo

Utilice las herramientas y los recursos de los que ya dispone Contratar un proyecto o un sistema maacutes caro no va a hacer que aumente su rentabilidad

Comentarios

Agregar un comentario

Trabajos relacionados Ciberneacutetica

Historia de la ciberneacutetica El hombre y la ciberneacutetica La praxeologiacutea Sistemas ciberneacuteticos Sistema

prospectivo deter

Corrosioacuten en un cloroducto

Peacuterdidas directas e indirectas iquestQueacute es la corrosioacuten Proceso de la corrosioacuten Sistemas

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA

Page 31: Clase 6 Data Mining

31

electroquiacutemicos Pilas galvaacutenic

El aire acondicionado automotor

La historia del aire acondicionado automotor Partes de un sistema de aire acondicionado automotor

Compresor Condensad

Ver mas trabajos de Tecnologia

Nota al lector es posible que esta paacutegina no contenga todos los componentes del trabajo original (pies de paacutegina avanzadas

formulas matemaacuteticas esquemas o tablas complejas etc) Recuerde que para ver el trabajo en su versioacuten original completa puede

descargarlo en formato DOC desde el menuacute superior

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografiascom

El objetivo de Monografiascom es poner el conocimiento a disposicioacuten de toda su comunidad Queda bajo la responsabilidad de

cada lector el eventual uso que se le de a esta informacioacuten Asimismo es obligatoria la cita del autor del contenido y de

Monografiascom como fuentes de informacioacuten El Centro de Tesis Documentos Publicaciones y Recursos Educativos maacutes amplio de la Red

Teacuterminos y Condiciones | Haga publicidad en Monografiacuteascom | Contaacutectenos

copy 1997 Monografiascom SA