dataarehouse >informefinal

70
FACULTAD DE INGENIER ´ IA ESCUELA DE SISTEMAS Trabajo Final de Data Warehouse y Data Mining: Creaci´ on de un Datawarehouse usando la Metodolog´ ıa Hefesto y An´ alisis de datos mediante WEKA: Predicci´on, clasificaci´on, clustering y asociaci´on Realizado por: Juan Carlos Lojano U. Profesor: Ing. V´ ıctor Saquicela

Upload: juanito-lojano

Post on 20-Feb-2016

220 views

Category:

Documents


0 download

DESCRIPTION

DataareHouse >InformeFinalDataareHouse >InformeFinalDataareHouse >InformeFinal

TRANSCRIPT

Page 1: DataareHouse >InformeFinal

FACULTAD DE INGENIERIA

ESCUELA DE SISTEMAS

Trabajo Final de Data Warehouse y Data Mining:

Creacion de un Datawarehouse usando la

Metodologıa Hefesto y Analisis de datos mediante

WEKA: Prediccion, clasificacion, clustering y

asociacion

Realizado por: Juan Carlos Lojano U.

Profesor:Ing. Vıctor Saquicela

Page 2: DataareHouse >InformeFinal

Indice general

Lista de figuras 5

Lista de tablas 7

1. Introduccion 11.1. Problema planteado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Descripcion de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2. M. Hefeso 52.1. Analisis de requerimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.1. Identificar preguntas. Accidentes de carretera . . . . . . . . . . . . 52.1.2. Identificar indicadores y perspectivas. . . . . . . . . . . . . . . . . . 62.1.3. Modelo Conceptual . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2. Analisis de los OLTP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.1. Conformar Indicadores . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.2. Establecer Correspondencias . . . . . . . . . . . . . . . . . . . . . . 122.2.3. Nivel de Granularidad . . . . . . . . . . . . . . . . . . . . . . . . . 162.2.4. Modelo Conceptual Ampliado . . . . . . . . . . . . . . . . . . . . . 18

2.3. Modelo Logico del DW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.3.1. Tipo de Modelo Logico del DW . . . . . . . . . . . . . . . . . . . . 182.3.2. Tablas de dimensiones . . . . . . . . . . . . . . . . . . . . . . . . . 182.3.3. Tablas de hechos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.3.4. Uniones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.4. Integracion de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.4.1. Carga Inicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.4.2. Actualizacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.4.3. Creacion de cubos multidimensionales . . . . . . . . . . . . . . . . . 292.4.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3. Minerıa de Datos 353.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.3. Problematia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.4. Prediccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2

Page 3: DataareHouse >InformeFinal

INDICE GENERAL INDICE GENERAL

3.4.1. Marco Teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.4.2. Definicion del problema . . . . . . . . . . . . . . . . . . . . . . . . 373.4.3. Obtencion de los datos para el analisis . . . . . . . . . . . . . . . . 373.4.4. Eleccion del algoritmo para el analisis de los datos . . . . . . . . . . 373.4.5. Aplicacion de los algoritmos a los datos . . . . . . . . . . . . . . . . 383.4.6. Seleccion del modelo en base al MAPE (Mean Absolute Percentage

Error) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.4.7. Analisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.5. Clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.5.1. Marco Teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.5.2. Definicion del problema . . . . . . . . . . . . . . . . . . . . . . . . 443.5.3. Obtencion de los datos para el analisis . . . . . . . . . . . . . . . . 443.5.4. Eleccion del algoritmo para el analisis de los datos . . . . . . . . . . 453.5.5. Aplicacion del algoritmo a los datos . . . . . . . . . . . . . . . . . . 453.5.6. Seleccion del modelo en base al MAE (Mean Absolute Error) . . . . 463.5.7. Analisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.6. Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.6.1. Marco Teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.6.2. Definicion del problema . . . . . . . . . . . . . . . . . . . . . . . . 493.6.3. Obtencion de los datos para el analisis . . . . . . . . . . . . . . . . 493.6.4. Eleccion del algoritmo para el analisis de los datos . . . . . . . . . . 503.6.5. Aplicacion del algoritmo a los datos . . . . . . . . . . . . . . . . . . 503.6.6. Analisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.7. Asociacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.7.1. Marco Teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.7.2. Definicion del problema . . . . . . . . . . . . . . . . . . . . . . . . 543.7.3. Obtencion de los datos para el analisis . . . . . . . . . . . . . . . . 553.7.4. Eleccion del algoritmo para el analisis de los datos . . . . . . . . . . 563.7.5. Aplicacion del algoritmo a los datos . . . . . . . . . . . . . . . . . . 563.7.6. Analisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4. Conclusiones 58

A. Reporte usando Report Designer 60

Universidad de Cuenca 3 Ingenierıa de Sistemas

Page 4: DataareHouse >InformeFinal
Page 5: DataareHouse >InformeFinal

Indice de figuras

2.1. Modelo Conceptual de Accidentes de Carretera . . . . . . . . . . . . . . . 82.2. Modelo Conceptual de Accidentes Ferroviarios . . . . . . . . . . . . . . . . 92.3. Modelo Entidad Relacion Accidentes de Carretera . . . . . . . . . . . . . . 122.4. Modelo Entidad Relacion Accidentes de Carretera . . . . . . . . . . . . . . 132.5. Correspondencia entre el Modelo Conceptual de Accidentes de Carretera y

el Modelo Entidad Relacion . . . . . . . . . . . . . . . . . . . . . . . . . . 142.6. Correspondencia entre el Modelo Conceptual de Accidentes de Ferroviarios

y el Modelo Entidad Relacion . . . . . . . . . . . . . . . . . . . . . . . . . 152.7. Modelo Conceptual Ampliado de Accidentes de Carretera . . . . . . . . . . 192.8. Modelo Conceptual Ampliado de Accidentes de Ferrocarriles . . . . . . . . 202.9. Dimension Lugar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.10. Dimension Tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.11. Dimension Grupo Edad de Vıctima . . . . . . . . . . . . . . . . . . . . . . 212.12. Dimension Sexo de Vıctima . . . . . . . . . . . . . . . . . . . . . . . . . . 212.13. Dimension Grupo Tipo de Carretera . . . . . . . . . . . . . . . . . . . . . 222.14. Dimension Grupo Tipo Vıctima . . . . . . . . . . . . . . . . . . . . . . . . 222.15. Dimension Transporte de Mercaderıa Peligrosa . . . . . . . . . . . . . . . . 232.16. Dimension Suicidios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.17. Dimension Tipo Accidente Ferroviario . . . . . . . . . . . . . . . . . . . . 242.18. Tabla de hecho ACCIDENTE CARRETERA . . . . . . . . . . . . . . . . 242.19. Tabla de hecho ACCIDENTES FERROVIARIOS . . . . . . . . . . . . . . 252.20. Union ACCIDENTE DE CARRETERA . . . . . . . . . . . . . . . . . . . 252.21. Union ACCIDENTE FERROVIARIO . . . . . . . . . . . . . . . . . . . . . 262.22. Carga Inicial de Accidentes de carretera (1) . . . . . . . . . . . . . . . . . 272.23. Carga Inicial de Accidentes de carretera (2) . . . . . . . . . . . . . . . . . 272.24. Carga Inicial de Accidentes de carretera (3) . . . . . . . . . . . . . . . . . 282.25. Carga Inicial de Accidentes de carretera (4) . . . . . . . . . . . . . . . . . 292.26. CUBO DE ACCIDENTES DE CARRETERA . . . . . . . . . . . . . . . . 302.27. CUBO DE ACCIDENTES FERROVIARIOS . . . . . . . . . . . . . . . . 302.28. DIMENSIONES Y JERARQUIAS PARA CUBO DE CARRETERA . . . 312.29. DIMENSIONES Y JERARQUIAS PARA ACCIDENTES FERROVIARIOS 312.30. MEDIDAS PARA CUBO DE ACCIDENTES DE CARRETERA . . . . . 322.31. MEDIDAS PARA CUBO DE ACCIDENTES FERROVIARIOS . . . . . . 322.32. PUBLICACION DE LOS CUBOS . . . . . . . . . . . . . . . . . . . . . . . 32

5

Page 6: DataareHouse >InformeFinal

INDICE DE FIGURAS INDICE DE FIGURAS

2.33. Numero de vıctimas de accidentes de carretera por paıs y ano . . . . . . . 332.34. Numero de vıctimas de accidentes ferroviarios por paıs y ano . . . . . . . . 332.35. Cantidad de suicidios por paıs y ano . . . . . . . . . . . . . . . . . . . . . 342.36. Suicidios por paıs y ano, grafico . . . . . . . . . . . . . . . . . . . . . . . . 34

3.1. Datos para la prediccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.2. Analsis previo de los datos, para conductor . . . . . . . . . . . . . . . . . . 383.3. Configuracion del Mean Absolute Porcentaje Error . . . . . . . . . . . . . 383.4. Entrenamiento con Algoritmo Perceptron Multicapa . . . . . . . . . . . . . 393.5. Prediccion (grafica) con Algoritmo Perceptron Multicapa . . . . . . . . . . 393.6. Predicciones (numerica) con Algoritmo Perceptron Multicapa, para los

proximos 4 anos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.7. Entrenamiento con Algoritmo IBk . . . . . . . . . . . . . . . . . . . . . . . 403.8. Prediccion (grafica) con Algoritmo IBk . . . . . . . . . . . . . . . . . . . . 403.9. Predicciones (numerica) con Algoritmo IBk, para los proximos 4 anos . . . 413.10. Entrenamiento con Algoritmo Holt Winters . . . . . . . . . . . . . . . . . 413.11. Prediccion (grafica) con Algoritmo Holt Winters . . . . . . . . . . . . . . . 423.12. Predicciones (numerica) con Algoritmo Holt Winters, para los proximos 4

anos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.13. Resultados grafico de la prediccion para los proximos 4 anos . . . . . . . . 433.14. Datos para la clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.15. Opciones de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.16. Resultados. Matriz de Confusion . . . . . . . . . . . . . . . . . . . . . . . . 473.17. Resultados. Reglas generadas . . . . . . . . . . . . . . . . . . . . . . . . . 473.18. Variable para clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.19. Resultados del alfrotimo Naive Bayes . . . . . . . . . . . . . . . . . . . . . 483.20. Datos para la clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.21. Cluster mode, Use training set . . . . . . . . . . . . . . . . . . . . . . . . . 503.22. Resultados de Canopy, clustering . . . . . . . . . . . . . . . . . . . . . . . 513.23. Resultados graficos de algoritmo Canopy, clustering . . . . . . . . . . . . . 523.24. Resultados de Simple-K Means, clustering . . . . . . . . . . . . . . . . . . 523.25. Resultados graficos de algoritmo Simple-K Means, clustering . . . . . . . . 533.26. Algoritmo Simple-K Means, clustering . . . . . . . . . . . . . . . . . . . . 543.27. Set de datos para la asociacion . . . . . . . . . . . . . . . . . . . . . . . . . 553.28. Configuracion del numero de reglas para la asociacion . . . . . . . . . . . . 563.29. Mejores reglas de asociacion encontradas . . . . . . . . . . . . . . . . . . . 57

A.1. Vıctimas Jovenes y Adultos de Austria y Bulgaria . . . . . . . . . . . . . . 60A.2. Vıctimas Jovenes y Adultos de Austria y Bulgaria . . . . . . . . . . . . . . 61A.3. Vıctimas Jovenes y Adultos de Austria y Bulgaria . . . . . . . . . . . . . . 62

Universidad de Cuenca 6 Ingenierıa de Sistemas

Page 7: DataareHouse >InformeFinal

Indice de cuadros

3.1. Resultados de la prediccion para los proximos 4 anos . . . . . . . . . . . . 433.2. Resultados de la clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . 46

7

Page 8: DataareHouse >InformeFinal

Capıtulo 1

Introduccion

1.1. Problema planteado

Basicamente lo que se desea implementar es un Datawarehouse sobre accidentes de ca-rretera y accidentes ferroviarios (trenes), que ha ocurrido en paıses de Europa. Para esto seha tomado como referencia varias bases de datos de la EUROSTAT (http://ec.europa.eu),las mismas que contiene datos importantes sobre estos accidentes, como por ejemplo: elnumero de vıctimas, el tipo de accidente, el tipo de carretera donde ha sucedido el acciden-te, el tipo de vıctimas involucrados (pasajero, peaton, conductor), etc., esto respecto a loque son accidentes de carretera o de transito, y de la misma forma respecto a los accidentesque involucran trenes (numero de vıctimas, accidentes por transporte de material peli-groso en trenes, accidentes por incendios, etc). Todos estos datos son de paıses europeostomados de los anos 2004 a 2013. Para implementar este Datawarehouse se ha optado porseguir la metodologıa Hefesto, la misma que presenta pasos claros y concisos de desarrollo.

Basicamente se desea conocer la cantidad de accidentes que se han dado en un ciertoperiodo de tiempo, el tipo de accidentes que se han dado y en que lugar, el numero devıctimas, tipo de vıctimas, etc., todos estos puntos estan detallados mas adelante en elanalisis de requerimientos.

1.2. Descripcion de los datos

Los datos se encuentran en varios formatos, entre ellos estan los siguientes: formato.xlsx, .sql, .cvs, .txt, etc. Y lo que se busca es integrar todas estas fuentes de datos detal manera que se pueda responder a ciertas preguntas, las mismas que se describen en elsiguiente apartado.

Fuentes:Las siguientes son fuentes que contienen los datos respecto a los accidentes decarretera:

1

Page 9: DataareHouse >InformeFinal

1.2. DESCRIPCION DE LOS DATOS CAPITULO 1. INTRODUCCION

Fuente 1: Esta primera fuente esta en formato de una base de datos (.sql) y basicamentecontiene las estadısticas de las vıctimas de accidentes de trafico segun el tipo de usuarioque estuvo involucrado en el accidente, esto es conductor, pasajero, peaton.Los campos que contiene esta fuente son los siguientes:TIME: Ano: 2004 a 2013.GEO: Ubicacion o Paıs de Europa.UNIT: Se refiere a la unidad en la que esta la cantidad de vıctimas. Por defecto estacomo numero.ROADUSER: Tipo de vıctima (o usuario de vıa) involucrada en los accidentes: pasaje-ro, conductor o peaton.Value: Numero de vıctimas.Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.

Fuente 2: Esta segunda fuente esta en formato Excel (.xlsx) y basicamente contienelas estadısticas con el numero de accidentes y el numero de vıctimas segun el tipo decarretera en el que se dio el accidente.Los campos que contiene esta fuente son los siguientes:TIME: Ano: 2004 a 2013.GEO: Ubicacion o Paıs de Europa.UNIT: Se refiere a la unidad en la que esta la cantidad de vıctimas. Por defecto estacomo numero.TRA INFR: Tipo de carretera en donde se dio el accidente.Value: Numero de vıctimas.Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.

Fuente 3: Esta tercera fuente esta en formato .cvs y basicamente contiene las estadısti-cas de los pasajeros clasificados segun la edad de los mismos, no los involucrados en unaccidente, pero si el numero de pasajeros en un medio de tansporte en Europa, de acuerdoa la edad. Estos datos serviran para conocer que tipo de usuarios son los mas frecuentesen estos paıses, jovenes o adultos, para poder determinar si esto incide en los accidentes.Los campos que contiene esta fuente son los siguientes:TIME: Ano: 2004 a 2013.GEO: Ubicacion o Paıs de Europa.UNIT: Se refiere a la unidad en la que esta la cantidad de vıctimas. Por defecto estacomo numero.AGE: Rango de edad de los pasajeros, este campo contiene las edades de las vıctimasclasificadas por rangos.Value: Numero o cantidad de vıctimas.Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.

Fuente 4: Esta cuarta fuente esta en formato de un archivo de texto (.txt) y basica-

Universidad de Cuenca 2 Ingenierıa de Sistemas

Page 10: DataareHouse >InformeFinal

CAPITULO 1. INTRODUCCION 1.2. DESCRIPCION DE LOS DATOS

mente contiene las estadısticas de las vıctimas en accidentes, segun la edad. A diferenciade la fuente anterior en este caso si son personas que ya estuvieron involucradas en acci-dentes, y por ende son vıctimas.Los campos que contiene esta fuente son los siguientes:TIME: Ano: 2004 a 2013.GEO: Ubicacion o Paıs de Europa.UNIT: Se refiere a la unidad en la que esta la cantidad de vıctimas. Por defecto comonumeroAGE: Rango de edad de los pasajeros, este campo contiene las edades de las vıctimasclasificadas por rangos.Value: Numero de vıctimasFlag and Footnotes: Banderas y notas. Por defecto esta en blanco.

Fuente 5: Esta quinta fuente basicamente consumira un servicio web que devolvera elnumero de vıctimas clasificadas por sexo.Los campos que contiene esta fuente son los siguientes:TIME: Ano: 2004 a 2013.GEO: Ubicacion o Paıs de Europa.UNIT: Se refiere a la unidad en la que esta la cantidad de vıctimas. Por defecto comonumero.SEX: Sexo de la vctima.Value: Numero de vıctimas.Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.

Las siguientes son fuentes que contienen los datos respecto a los accidentesferroviarios:

Fuente 1: Esta primera fuente esta en formato de una base de datos (.sql) y basicamentecontiene las estadısticas de las vıctimas de accidentes de ferrocarriles. Lo particular deesta fuente es que las vıctimas son por suicidios en ferrocarriles, y que de alguna formaestuvo relacionado con algun accidente del mismo.Los campos que contiene esta fuente son los siguientes:TIME: Ano: 2004 a 2013.GEO: Ubicacion o Paıs de Europa.UNIT: Se refiere a la unidad en la que esta la cantidad de vıctimas. Por defecto estacomo numero.Value: Numero de vıctimas.Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.

Fuente 2: Esta segunda fuente esta en formato Excel (.cvs) y contiene las estadısti-cas con el numero de accidentes y el numero de vıctimas segun el tipo de accidente quese dio. Obviamente estos tipos son referentes a los ferrocarriles, por ejemplo: colisiones,

Universidad de Cuenca 3 Ingenierıa de Sistemas

Page 11: DataareHouse >InformeFinal

1.2. DESCRIPCION DE LOS DATOS CAPITULO 1. INTRODUCCION

incendios dentro del ferrocarril, descarrilamientos, etc.Los campos que contiene esta fuente son los siguientes:TIME: Ano: 2004 a 2013.GEO: Ubicacion o Paıs de Europa.UNIT: Se refiere a la unidad en la que esta la cantidad de vıctimas. Por defecto estacomo numero.ACCIDENT: Tipo de accidente que ha ocurrido.Value: Numero de vıctimas.Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.

Fuente 3: Esta tercera fuente esta en formato de un archivo de texto (.txt) y contie-ne las estadısticas de los accidentes ferroviarios que implican el transporte de mercancıaspeligrosas.Los campos que contiene esta fuente son los siguientes:TIME: Ano: 2004 a 2013.GEO: Ubicacion o Paıs de Europa.UNIT: Se refiere a la unidad en la que esta la cantidad de vıctimas. Por defecto comonumeroACCIDENT: Detalle del accidente y de la mercancıa peligrosa involucrada.Value: Numero de vıctimasFlag and Footnotes: Banderas y notas. Por defecto esta en blanco.

Algunos de estos campos contienen informacion que no presentan un gran aporte, porlo cual en el proceso de ETL se hara la limpieza de esta clase de datos.

Universidad de Cuenca 4 Ingenierıa de Sistemas

Page 12: DataareHouse >InformeFinal

Capıtulo 2

Desarrollo de la Metologıa Hefesto

2.1. Analisis de requerimientos

2.1.1. Identificar preguntas. Accidentes de carretera

¿Cuantos hombres adultos murieron en accidentes de carretera en un determinadopaıs de Europa y en un determinado ano?

¿Cuantas mujeres jovenes murieron en accidentes de carretera en un determinadopaıs de Europa y en un determinado ano?

¿Cuantos conductores hombres murieron en accidentes de carretera en un determi-nado ano y paıs de Europa?

¿Cuantos pasajeros (jovenes) murieron en accidentes de carretera en un determinadoano y paıs de Europa?

¿Cuantos peatones (mujeres) murieron en accidentes de carretera en un determinadoano y paıs de Europa?

¿Cuantos adultos murieron en accidentes de carreteras rural, en un determinado anoy paıs de Europa?

¿Cuantas mujeres murieron en accidentes de carreteras urbana, en un determinadoano y paıs de Europa?

¿Cuantos pasajeros (no vıctimas) jovenes existen, en un determinado ano y paıs deEuropa?

Identificar preguntas. Accidentes ferroviarios

¿Cuantos suicidos se dieron durante un accidente ferroviario en un determinado paısde Europa y en un determinado ano?

¿Cuantos accidentes involucraron el transporte de mercaderias peligrosas en un de-terminado paıs y en un determinado ano?

5

Page 13: DataareHouse >InformeFinal

2.1. ANALISIS DE REQUERIMIENTOS CAPITULO 2. M. HEFESO

¿Cuantos ferrocarriles se incendiaron en un determinado ano y paıs de Europa?

¿Cuantos accidentes de ferrocarriles por descarrilamientos sucedieron en un deter-minado ano y paıs de Europa?

¿Cuantos accidentes de ferrocarriles por material rodante sucedieron en un deter-minado ano y paıs de Europa?

2.1.2. Identificar indicadores y perspectivas.

Accidentes de carretera.

Numero de hombres adultos que murieron en accidentes de carretera en un deter-minado paıs de Europa y en un determinado ano.

Numero de mujeres jovenes que murieron en accidentes de carretera en un determi-nado paıs de Europa y en un determinado ano.

Numero de conductores que hombres murieron en accidentes de carretera en undeterminado ano y paıs de Europa.

Numero de pasajeros (jovenes) que murieron en accidentes de carretera en un de-terminado ano y paıs de Europa.

Numero de peatones (mujeres) que murieron en accidentes de carretera en un de-terminado ano y paıs de Europa.

Numero de adultos que murieron en accidentes de carreteras rural, en un determi-nado ano y paıs de Europa.

Numero de mujeres que murieron en accidentes de carreteras urbana, en un deter-minado ano y paıs de Europa.

Numero de pasajeros (no vıctimas) jovenes que existen, en un determinado ano ypaıs de Europa.

Identificar preguntas. Accidentes ferroviarios

Numero de suicidos se dieron durante un accidente ferroviario en un determinadopaıs de Europa y en un determinado ano.

Numero accidentes involucraron el transporte de mercaderias peligrosas en un de-terminado paıs y en un determinado ano.

Numero ferrocarriles se incendiaron en un determinado ano y paıs de Europa.

Numero accidentes de ferrocarriles por descarrilamientos sucedieron en un determi-nado ano y paıs de Europa.

Universidad de Cuenca 6 Ingenierıa de Sistemas

Page 14: DataareHouse >InformeFinal

CAPITULO 2. M. HEFESO 2.1. ANALISIS DE REQUERIMIENTOS

Numero accidentes de ferrocarriles por material rodante sucedieron en un determi-nado ano y paıs de Europa.

Perspectivas - Accidentes de carretera

Tiempo.En anos.

Lugar.Por paıs.

Edad de vıctima.Joven.Adulto.

Sexo de vıctima.Hombre.Mujer.

Tipo carretera del accidente.Autopista.Carretera Rural.Carretera Urbana.

Tipo de la vıctimaConductorPasajeroPeaton

Perspectivas - Accidentes ferroviarios

Tiempo.En anos.

Lugar.Por paıs.

Transporte de mercaderia peligrosa.Accidentes por mercaderias peligrosas.Mercaderias peligrosas que no se liberan.Mercaderias peligrosas que se liberan

Suicidios.Cantidad.

Universidad de Cuenca 7 Ingenierıa de Sistemas

Page 15: DataareHouse >InformeFinal

2.1. ANALISIS DE REQUERIMIENTOS CAPITULO 2. M. HEFESO

Tipo de accidente.Accidentes por material rodante.Accidentes por paso a nivel.Colisiones.Descarrillamientos.Incendios.

2.1.3. Modelo Conceptual

Se puede ver en la Figura 2.1 el modelo conceptual para los accidentes de carretera.

Figura 2.1: Modelo Conceptual de Accidentes de Carretera

Universidad de Cuenca 8 Ingenierıa de Sistemas

Page 16: DataareHouse >InformeFinal

CAPITULO 2. M. HEFESO 2.2. ANALISIS DE LOS OLTP

Se puede ver en la Figura 2.2 el modelo conceptual para los accidentes ferroviarios.

Figura 2.2: Modelo Conceptual de Accidentes Ferroviarios

2.2. Analisis de los OLTP

2.2.1. Conformar Indicadores

Los indicadores para los accidentes de carretera se calcularan de la siguiente manera:

“Hombres adultos muertos”Hechos: Numero de hombres adultos que murieron en accidentes de carretera.Funcion de sumarizacion: SUMAclaracion: El indicador numero de hombres adultos que murieron en accidentes de ca-rretera representa la sumatoria de los hombres que murieron en accidentes de carreteraen un determinado paıs de Europa y en un determinado ano.

“Mujeres jovenes muertas”Hechos: Numero de mujeres jovenes que murieron en accidentes de carretera.Funcion de sumarizacion: SUMAclaracion: El indicador numero de mujeres que murieron en accidentes de carreterarepresenta la sumatoria de las mujeres que murieron en accidentes de carretera en undeterminado paıs de Europa y en un determinado ano.

Universidad de Cuenca 9 Ingenierıa de Sistemas

Page 17: DataareHouse >InformeFinal

2.2. ANALISIS DE LOS OLTP CAPITULO 2. M. HEFESO

“Conductores hombres muertos”Hechos: Numero de conductores hombres, que murieron en accidentes de carretera.Funcion de sumarizacion: SUMAclaracion: El indicador numero de conductores que murieron en accidentes de carreterarepresenta la sumatoria de los conductores que murieron en accidentes de carretera en undeterminado paıs de Europa y en un determinado ano.

“Pasajeros jovenes muertos”Hechos: Numero de pasajeros ninos que murieron en accidentes de carretera.Funcion de sumarizacion: SUMAclaracion: El indicador numero de pasajeros que murieron en accidentes de carreterarepresenta la sumatoria de los pasajeros que eran ninos y que murieron en accidentes decarretera en un determinado paıs de Europa y en un determinado ano.

“Pasajeros mujeres en medios de transporte (no muertos)”Hechos: Numero de pasajeros en medios de transporteFuncion de sumarizacion: SUMAclaracion: El indicador numero de pasajeros representa la sumatoria de los pasajerosjovenes presentes en medios de transportes (no en accidentes) en un determinado paıs deEuropa y en un determinado ano.

“Peatones mujeres muertos”Hechos: Numero de peatones mujeres que murieron en accidentes de carretera.Funcion de sumarizacion: SUMAclaracion: El indicador numero de peatones que murieron representa la sumatoria depeatones que eran mujeres y que murieron en accidentes de carretera en un determinadopaıs de Europa y en un determinado ano.

“Vıctimas adultos en carretera rural”Hechos: Vıctimas ninos en carretera rural.Funcion de sumarizacion: SUMAclaracion: El indicador vıctimas ninos en accidentes de carretera representa la suma-toria de ninos que murieron en accidentes de carretera de tipo rural en un determinadopaıs de Europa y en un determinado ano.

“vıctimas mujeres en carretera urbana”Hechos: vıctimas mujeres en carretera urbana.Funcion de sumarizacion: SUMAclaracion: El indicador vıctimas mujeres representa la sumatoria de las mujeres quemurieron en accidentes de carretera de tipo urbana en un determinado paıs de Europa yen un determinado ano.

“Numero de pasajeros (no vıctimas) jovenes”Hechos: Numero de pasajeros (no vıctimas).

Universidad de Cuenca 10 Ingenierıa de Sistemas

Page 18: DataareHouse >InformeFinal

CAPITULO 2. M. HEFESO 2.2. ANALISIS DE LOS OLTP

Funcion de sumarizacion: SUMAclaracion: El indicador pasajeros representa la sumatoria de los pasajeros (no vıctimas)en un determinado paıs de Europa y en un determinado ano.

Los indicadores para los accidentes ferroviarios se calcularan de la siguien-te manera:“Numero de suicidos”Hechos: Numero de muertes por suicido.Funcion de sumarizacion: SUMAclaracion: El indicador numero de suicidos representa la sumatoria de las muertes porsuicidos y que involucran accidentes de carretera en un determinado paıs de Europa y enun determinado ano.

“Accidentes por transporte de mercaderias peligrosas”Hechos: Accidentes por transporte de mercaderias peligrosas.Funcion de sumarizacion: SUMAclaracion: El indicador Accidentes por transporte de mercaderias peligrosas representala sumatoria de este tipo de accidentes en un determinado paıs de Europa y en un deter-minado ano.

“Ferrocarriles incendiados”Hechos: Ferrocarriles incendiados.Funcion de sumarizacion: SUMAclaracion: El indicador Ferrocarriles incendiados representa la sumatoria de los acci-dentes que se dieron por incendios de ferrocarriles en un determinado paıs de Europa yen un determinado ano.

“Pasajeros jovenes muertos”Hechos: Numero de pasajeros ninos que murieron en accidentes de carretera.Funcion de sumarizacion: SUMAclaracion: El indicador numero de pasajeros que murieron en accidentes de carreterarepresenta la sumatoria de los pasajeros que eran ninos y que murieron en accidentes decarretera en un determinado paıs de Europa y en un determinado ano.

“Accidentes de ferrocarriles por descarrilamientos”Hechos: Accidentes de ferrocarriles por descarrilamientosFuncion de sumarizacion: SUMAclaracion: Este indicador representa la sumatoria de los accidentes de ferrocarriles pordescarrilamientos en un determinado paıs de Europa y en un determinado ano.

“Accidentes de ferrocarriles por material rodante”Hechos: Accidentes de ferrocarriles por material rodanteFuncion de sumarizacion: SUM

Universidad de Cuenca 11 Ingenierıa de Sistemas

Page 19: DataareHouse >InformeFinal

2.2. ANALISIS DE LOS OLTP CAPITULO 2. M. HEFESO

Figura 2.3: Modelo Entidad Relacion Accidentes de Carretera

Aclaracion: Este indicador representa la sumatoria de los accidentes de ferrocarriles pormaterial rodante en un determinado paıs de Europa y en un determinado ano.

2.2.2. Establecer Correspondencias

Se puede ver el modelo Entidad Relacion en la Figura 2.3 y 2.4.Y las correspondencias con los modelos conceptuales en las figuras 2.5 y 2.6

Las relaciones identificadas fueron las siguientes:

Accidentes de Carretera

La tabla Lugar se relaciona con la perspectiva Lugar.

La perspectiva Tiempo se relaciona con el campo fechaAccidente de la tabla Acci-dente.

La perspectiva Edad vıctima se relaciona con el campo Edad vıctima de la tablavıctima.

La perspectiva Sexo vıctima se relaciona con el campo Sexo vıctima de la tablavıctima.

Universidad de Cuenca 12 Ingenierıa de Sistemas

Page 20: DataareHouse >InformeFinal

CAPITULO 2. M. HEFESO 2.2. ANALISIS DE LOS OLTP

Figura 2.4: Modelo Entidad Relacion Accidentes de Carretera

La perspectiva Tipo Carretera del accidente se relaciona con la tabla Carretera.

La perspectiva Tipo de vıctima se relaciona con la tabla Tipo de vıctima.

El indicador vıctimas hombres se relaciona con el campo vıctimas hombres de latabla Accidente.

El indicador vıctimas mujeres se relaciona con el campo vıctimas mujeres de la tablaAccidente.

El indicador vıctimas conductores se relaciona con el campo vıctimas conductoresde la tabla Accidente.

El indicador vıctimas pasajeros se relaciona con el campo vıctimas pasajeros de latabla Accidente.

El indicador vıctimas peatones se relaciona con el campo vıctimas peatones de latabla Accidente.

Accidentes Ferroviarios

La tabla Lugar se relaciona con la perspectiva Lugar.

La perspectiva Tiempo se relaciona con el campo fechaAccidente de la tabla Acci-dente de Carretera.

Universidad de Cuenca 13 Ingenierıa de Sistemas

Page 21: DataareHouse >InformeFinal

2.2. ANALISIS DE LOS OLTP CAPITULO 2. M. HEFESO

Figura 2.5: Correspondencia entre el Modelo Conceptual de Accidentes de Carretera y elModelo Entidad Relacion

Universidad de Cuenca 14 Ingenierıa de Sistemas

Page 22: DataareHouse >InformeFinal

CAPITULO 2. M. HEFESO 2.2. ANALISIS DE LOS OLTP

Figura 2.6: Correspondencia entre el Modelo Conceptual de Accidentes de Ferroviarios yel Modelo Entidad Relacion

Universidad de Cuenca 15 Ingenierıa de Sistemas

Page 23: DataareHouse >InformeFinal

2.2. ANALISIS DE LOS OLTP CAPITULO 2. M. HEFESO

La perspectiva Edad vıctima se relaciona con el campo Edad vıctima de la tablavıctima.

La perspectiva Transporte de mercaderia peligrosa se relaciona con la tabla Merca-deria.

La perspectiva Suicidios se relaciona con el campo vıctimas por suicidios de la tablaAccidente Ferrroviarios.

La perspectiva Tipo de accidentes se relaciona con el campo tipo vıctimas de latabla Accidente Ferrroviarios.

El indicador numero de suicidios se relaciona con el campo vıctimas por suicidiosde la tabla AccidenteFerroviario.

El indicador numero de accidentes con mercaderia peligrosa se relacion con la tablamercaderia.

El indicador numero de ferrocarriles incendiados, ferrocarrilles descarrilados, pormaterial rodante se relaciona con el campo tipo de accidente de la tabla AccidentesFerroviarios.

2.2.3. Nivel de Granularidad

Con respecto a la perspectiva Lugar los datos disponibles son los siguientes:

IdLugar: Codigo del accidente

Ubicacion: Es el paıs donde se dio el accidente

Cantidad: Se refiere a la cantidad de vıctimas en el paıs

Con respecto a la perspectiva Tiempo los datos disponibles son los siguientes:

IdTiempo: Codigo del tiempo o fecha.

Ano: Ano en el que se dio el accidente.

Con respecto a la perspectiva Edad vıctima los datos disponibles son los siguientes:

Idcaracterıstica: Codigo de esta caracterıstica.

Grupos de edades de vıctimas: Se refiere a los grupos de edades: jovenes y adultosen los cuales estan clasificados las vıctimas de los accidentes.

Con respecto a la perspectiva Sexo vıctima los datos disponibles son los siguientes:

Idcaracterıstica: Codigo de esta caracterıstica.

Sexo vıctima: Se refiere al sexo de la vıctima: masculino o femenino

Universidad de Cuenca 16 Ingenierıa de Sistemas

Page 24: DataareHouse >InformeFinal

CAPITULO 2. M. HEFESO 2.2. ANALISIS DE LOS OLTP

Con respecto a la perspectiva Tipo de carretera los datos disponibles son los siguientes:

Idcaracterıstica: Codigo de esta caracterıstica.

Tipo de carretera: Se refiere al tipo de carretera donde se ha dado

el acciente: Autopista, Carretera Rural o Carretera Urbana

Con respecto a la perspectiva Tipo de vıctima los datos disponibles son los siguientes:

Idcaracterıstica: Codigo de esta caracterıstica.

Tipo de vıctima: Se refiere al tipo de vıctima presente en el acciente: conductor,pasajero o peaton.

Con respecto a la perspectiva Lugar de accidentes ferroviarios, los datos disponibles sonlos siguientes:

IdLugar: Codigo del accidente

Ubicacion: Es el paıs donde se dio el accidente

Cantidad: Se refiere a la cantidad de vıctimas en el paıs

Con respecto a la perspectiva Tiempo de accidentes ferroviarios, los datos disponibles sonlos siguientes:

IdTiempo: Codigo del tiempo o fecha.

Ano: Ano en el que se dio el accidente.

Con respecto a la perspectiva Transporte de mercaderia peligrosa, los datos disponiblesson los siguientes:

Idcaracterıstica: Codigo de esta caracterıstica.

Transporte de mercaderia peligrosa: Se refiere al tipo de acciente por transporte demercaderia peligrosa: Accidentes por mercaderias peligrosas, Mercaderias peligrosasque no se liberan o Mercaderias peligrosas que se liberan

Con respecto a la perspectiva Suicidios, los datos disponibles son los siguientes:

Idcaracterıstica: Codigo de esta caracterıstica.

Suicidios: Se refiere a la cantidad de suicidios que se han dado en un paıs determinadoy en un ano determinado

Con respecto a la perspectiva Tipo de accidente los datos disponibles son los siguientes:

Idcaracterıstica: Codigo de esta caracterıstica.

Tipo de accidente: Se refiere al tipo de accidente: Accidentes por material rodanteo Accidentes por paso a nivel o Colisioneso o Descarrillamientos.Incendios.

Universidad de Cuenca 17 Ingenierıa de Sistemas

Page 25: DataareHouse >InformeFinal

2.3. MODELO LOGICO DEL DW CAPITULO 2. M. HEFESO

2.2.4. Modelo Conceptual Ampliado

El modelo conceptual amplicado tanto de accidentes de carretera, como de accidentesferroviaros se pueden ver en la figura 2.7 y 2.8 respectivamente:

En este punto cabe aclarar que para la formula de calculo de la sumarizacion en losindicadores, basicamente se harıa una suma de los distintos indicadores, eso para todoslos casos.

2.3. Modelo Logico del DW

2.3.1. Tipo de Modelo Logico del DW

El esquema que se ultizara sera en estrella, esto debido a sus caracterısticas, ventajasy diferencias con los otros esquemas.

2.3.2. Tablas de dimensiones

Las tablas de dimensiones se construyen en base a las perspectivas que se definieronanteriormente, de hecho estas mismas se convierten en dimensiones, para luego formar loque es la tabla de hechos que contiene dimensiones, medidas, etc.

Dimensiones para accidentes de carretera

Perspectiva “Lugar”.La nueva dimension tendra el nombre de “Dim Lugar”.Se le agregara una clave principal con el nombre: “id Lugar”.Se modificara el nombre de “paıs” por “Ubicacion”.Todo esto se puede ver en la figura 2.9:

Perspectiva “Tiempo”.La nueva dimension tendra el nombre de “Dim Tiempo”.

Se le agregara una clave principal con el nombre: “id Tiempo”.Se modificara el nombre de “Anos” por “Ano”.Todo esto se puede ver en la figura 2.10:Perspectiva “Edad de vıctima”.La nueva dimension tendra el nombre de “Dim Grupo Edad Vıctima”.Se le agregara una clave principal con el nombre: “id Grupo Edad Vıctima”.Se modificara el nombre de “Joven” y “Adulto” por el campo “GrupoEdad”.Se le agregara un campo con el nombre: “CantidadVıctimas Grupo Edad”, que con-tendra el numero de vıctimas de acuerdo a la edad.Todo esto se puede ver en la figura 2.11:Perspectiva “Sexo de vıctima”.

Universidad de Cuenca 18 Ingenierıa de Sistemas

Page 26: DataareHouse >InformeFinal

CAPITULO 2. M. HEFESO 2.3. MODELO LOGICO DEL DW

Figura 2.7: Modelo Conceptual Ampliado de Accidentes de Carretera

La nueva dimension tendra el nombre de “Dim Sexo Vıctima”.

Universidad de Cuenca 19 Ingenierıa de Sistemas

Page 27: DataareHouse >InformeFinal

2.3. MODELO LOGICO DEL DW CAPITULO 2. M. HEFESO

Figura 2.8: Modelo Conceptual Ampliado de Accidentes de Ferrocarriles

Universidad de Cuenca 20 Ingenierıa de Sistemas

Page 28: DataareHouse >InformeFinal

CAPITULO 2. M. HEFESO 2.3. MODELO LOGICO DEL DW

Figura 2.9: Dimension Lugar

Figura 2.10: Dimension Tiempo

Figura 2.11: Dimension Grupo Edad de Vıctima

Se le agregara una clave principal con el nombre: “id Sexo Vıctima”.Se modificara el nombre de “Hombre” y “Mujer” por el campo “GrupoSexo”.Se le agregara un campo con el nombre: “CantidadGrupo Sexo”, que contendra elnumero de vıctimas de acuerdo al sexo.Todo esto se puede ver en la figura 2.12:

Figura 2.12: Dimension Sexo de Vıctima

Perspectiva “Tipo de carretera del accidente”.La nueva dimension tendra el nombre de “Dim Tipo Carretera Accidente”.Se le agregara una clave principal con el nombre: “id Tipo Carretera Accidente”.Se modificara el nombre de “Autopista”, “Carretera Rural” y “Carretera Urbana”por el campo “GrupoTipoCarretera”.Se le agregara un campo con el nombre: “CantidadGrupoTipoCarretera”, que con-tendra el numero de vıctimas de acuerdo al tipo de carretera donde se dio el acci-dente.

Universidad de Cuenca 21 Ingenierıa de Sistemas

Page 29: DataareHouse >InformeFinal

2.3. MODELO LOGICO DEL DW CAPITULO 2. M. HEFESO

Todo esto se puede ver en la figura 2.13:

Figura 2.13: Dimension Grupo Tipo de Carretera

Perspectiva “Tipo de vıctima”.La nueva dimension tendra el nombre de “Dim Tipo Vıctima”.Se le agregara una clave principal con el nombre: “id Tipo Vıctima”.Se modificara el nombre de “Conductor”, “Pasajero” y “Peaton” por el campo “Gru-poTipoVıctima”.Se le agregara un campo con el nombre: “CantidadGrupoTipoVıctima”, que con-tendra el numero de vıctimas de acuerdo al tipo de persona.Todo esto se puede ver en la figura 2.14:

Figura 2.14: Dimension Grupo Tipo Vıctima

Universidad de Cuenca 22 Ingenierıa de Sistemas

Page 30: DataareHouse >InformeFinal

CAPITULO 2. M. HEFESO 2.3. MODELO LOGICO DEL DW

Dimensiones para accidentes ferroviariosLas dimensiones “Tiempo” y “Lugar” son dimensiones que se comparten en ambosmodelos

Perspectiva “Transporte de mercaderıa peligrosa”.La nueva dimension tendra el nombre de “Dim Transporte Mercaderıa Peligrosa”.Se le agregara una clave principal con el nombre: “id Transporte Mercaderıa Peligrosa”.Se modificara el nombre de “Accidentes por mercaderıa peligrosa”, “Accidentes pormercaderıa peligrosa que no se liberan” y “Accidentes por mercaderıa peligrosa quese liberan” por el campo “GrupoTransporteMercaderıa”.Se le agregara un campo con el nombre: “CantidadGrupoTransporteMercaderia”,que contendra el numero de vıctimas de acuerdo al tipo de transporte de mercaderıadel ferrocarril.Todo esto se puede ver en la figura 2.15:

Figura 2.15: Dimension Transporte de Mercaderıa Peligrosa

Perspectiva “Suicidios”.La nueva dimension tendra el nombre de “Dim Suicidios”.Se le agregara una clave principal con el nombre: “id Suicidios”.Se mantedra el nombre de “cantidad”.Se le agregara un campo con el nombre: “razon”, que contendra el detalles de lamuerte de la vıctima.Todo esto se puede ver en la figura 2.16:

Figura 2.16: Dimension Suicidios

Perspectiva “Tipo de accidente ferroviario”.La nueva dimension tendra el nombre de “Dim Tipo Accidente Ferroviario”.Se le agregara una clave principal con el nombre: “id Tipo Accidentes Ferroviarios”.Se modificara el nombre de “Accidentes por material rodante”, “Accidentes por pasoa nivel”, “Colisiones”, “Descarrillamientos” e “Incendios” por el campo “TipoAcci-dente”.Se le agregara un campo con el nombre: “CantidadVıctimas TipoAccidente”, que

Universidad de Cuenca 23 Ingenierıa de Sistemas

Page 31: DataareHouse >InformeFinal

2.3. MODELO LOGICO DEL DW CAPITULO 2. M. HEFESO

contendra el numero de vıctimas de acuerdo al tipo de accidente ferroviario.Todo esto se puede ver en la figura 2.17:

Figura 2.17: Dimension Tipo Accidente Ferroviario

2.3.3. Tablas de hechos

En esta parte se presentan las tablas de hechos de los accidentes de carretera y de losaccidentes ferroviarios, en la figura 2.18 y 2.19 respectivamente.

Figura 2.18: Tabla de hecho ACCIDENTE CARRETERA

Universidad de Cuenca 24 Ingenierıa de Sistemas

Page 32: DataareHouse >InformeFinal

CAPITULO 2. M. HEFESO 2.3. MODELO LOGICO DEL DW

Figura 2.19: Tabla de hecho ACCIDENTES FERROVIARIOS

2.3.4. Uniones

A continuacion, se realizara las uniones pertinentes, segun las dimensiones y los he-chos descritos anteriormente. Esto se puede ver en las figuras 2.20 y 2.21 (Accidentes decarretera y accidentes ferroviarios, respectivamente):

Figura 2.20: Union ACCIDENTE DE CARRETERA

Universidad de Cuenca 25 Ingenierıa de Sistemas

Page 33: DataareHouse >InformeFinal

2.4. INTEGRACION DE DATOS CAPITULO 2. M. HEFESO

Figura 2.21: Union ACCIDENTE FERROVIARIO

2.4. Integracion de Datos

2.4.1. Carga Inicial

El proceso ETL planteado para la Carga Inicial a modo general es lo que se muestraen las figuras 2.22, 2.23, 2.24, 2.25.

Las tareas que se lleva a cabo son las siguientes:

Inicio: inicia la ejecucion de los pasos en el momento en que se le indique.

Carga de Dimension LUGAR: Se ejecutan la limpieza de datos y se cargara ladimension LUGAR.

Carga de Dimension TIPOCARRETERRA: Se ejecutan la limpieza de datos y secargara esta dimension.

Carga de Dimension FECHA: Se ejecutan la limpieza de datos y se cargara ladimension FECHA.

Carga de Dimension TIPOvıctima: Se ejecutan la limpieza de datos y se cargara ladimension TIPOvıctima.

Carga de Dimension SEXOvıctima: Se ejecutan la limpieza de datos y se cargara ladimension SEXOvıctima.

Carga de Dimension GRUPOEDAD: Se ejecutan la limpieza de datos y se cargarala dimension GRUPOEDAD.

Universidad de Cuenca 26 Ingenierıa de Sistemas

Page 34: DataareHouse >InformeFinal

CAPITULO 2. M. HEFESO 2.4. INTEGRACION DE DATOS

Figura 2.22: Carga Inicial de Accidentes de carretera (1)

Figura 2.23: Carga Inicial de Accidentes de carretera (2)

Carga de Dimension MERCADERIAPELIGROSA: Se ejecutan la limpieza de datosy se cargara la dimension MERCADERIAPELIGROSA.

Universidad de Cuenca 27 Ingenierıa de Sistemas

Page 35: DataareHouse >InformeFinal

2.4. INTEGRACION DE DATOS CAPITULO 2. M. HEFESO

Figura 2.24: Carga Inicial de Accidentes de carretera (3)

Carga de Dimension TIPOACCIDENTE: Se ejecutan la limpieza de datos y se car-gara la dimension MERCADERIAPELIGROSA.

Obtener datos de OLTP: Esto se obtiene a traves de una consulta SQL los datos del OLTPnecesarios para cargar los datos de vıctimaS POR TIPO DE PERSONA.SELECTidv ıctimasUsuario, T IME,GEO,UNIT ,ROADUSER, V alue, F lagandFootnotesFROMvıctimasporusuarioSELECTTIME,GEO,UNIT, V alue, ‘FlagandFootnotes‘FROMsuicidiosferrocarriles

2.4.2. Actualizacion

Las politicas de Actualizacion son las siguientes:

La informacion se refrescara cada semana sabado a las doce de la noche.

Los datos de las tablas de dimensiones seran cargados totalmente cada vez.

Los datos de la tabla de dimension “FECHA” se cargaran teniendo en cuenta laultima fecha que se actualizo.

Universidad de Cuenca 28 Ingenierıa de Sistemas

Page 36: DataareHouse >InformeFinal

CAPITULO 2. M. HEFESO 2.4. INTEGRACION DE DATOS

Figura 2.25: Carga Inicial de Accidentes de carretera (4)

Estas acciones se realizaran durante un periodo de prueba, para analizar cual es lamanera mas eficiente de generar las actualizaciones.

2.4.3. Creacion de cubos multidimensionales

A continuacion se creara los cubos multidimensionales, uno para accidentes de carre-tera y otro para accidentes ferroviarios, que seran llamados: CUB ACC 1 y CUB ACC 2respectivamente, bajo un mismo schema que se llamara: SCHEMA ACC. Todo esto se lohara en Schema Workbench y estos estaran basados en los modelos de las figuras 2.20 y2.21.Para los cubos se ha creado las dimensiones descritas en los puntos anteriores, ademas demedidas en las que mayormente se ha usado la funcion de sumarizacion “COUNT” parael numero de vıctimas.Todo esto se ve en las figuras 2.26 y 2.27, que son los cubos para accidentes de carreteray accidentes ferroviarios, respectivamente. Asi mismo en la figura 2.28 y 2.29 se estan lasjerarquıas de las dimensiones, asi como las tablas referenciadas en cada dimension.Mientras que las medidas estan en las figuras 2.30 y 2.31:

Universidad de Cuenca 29 Ingenierıa de Sistemas

Page 37: DataareHouse >InformeFinal

2.4. INTEGRACION DE DATOS CAPITULO 2. M. HEFESO

Figura 2.26: CUBO DE ACCIDENTES DE CARRETERA

Figura 2.27: CUBO DE ACCIDENTES FERROVIARIOS

Una vez que se ha terminado de crear los cubos en el Schema Workbench se procedea publicar el mismo en el BI Server para ver los resultados de las consultas realizadas almismo, figura 2.32.

Universidad de Cuenca 30 Ingenierıa de Sistemas

Page 38: DataareHouse >InformeFinal

CAPITULO 2. M. HEFESO 2.4. INTEGRACION DE DATOS

Figura 2.28: DIMENSIONES Y JERARQUIAS PARA CUBO DE CARRETERA

Figura 2.29: DIMENSIONES Y JERARQUIAS PARA ACCIDENTES FERROVIARIOS

2.4.4. Resultados

A continuacion se presenta ambos cubos publicados en el BI Server y algunos resultadosobtenidos. Cabe recalcar que en este punto se podran responder las preguntas inicialmenteplanteadas, esto mediante los distintos cubos publicados:

Universidad de Cuenca 31 Ingenierıa de Sistemas

Page 39: DataareHouse >InformeFinal

2.4. INTEGRACION DE DATOS CAPITULO 2. M. HEFESO

Figura 2.30: MEDIDAS PARA CUBO DE ACCIDENTES DE CARRETERA

Figura 2.31: MEDIDAS PARA CUBO DE ACCIDENTES FERROVIARIOS

Figura 2.32: PUBLICACION DE LOS CUBOS

Universidad de Cuenca 32 Ingenierıa de Sistemas

Page 40: DataareHouse >InformeFinal

CAPITULO 2. M. HEFESO 2.4. INTEGRACION DE DATOS

Figura 2.33: Numero de vıctimas de accidentes de carretera por paıs y ano

Figura 2.34: Numero de vıctimas de accidentes ferroviarios por paıs y ano

Universidad de Cuenca 33 Ingenierıa de Sistemas

Page 41: DataareHouse >InformeFinal

2.4. INTEGRACION DE DATOS CAPITULO 2. M. HEFESO

Figura 2.35: Cantidad de suicidios por paıs y ano

Figura 2.36: Suicidios por paıs y ano, grafico

Universidad de Cuenca 34 Ingenierıa de Sistemas

Page 42: DataareHouse >InformeFinal

Capıtulo 3

Minerıa de Datos

3.1. Introduccion

Hoy en dıa practicamente todas las empresas cuentan con una enorme cantidad dedatos, esto debido a que sus aplicaciones basicamente se han convertido en recolecto-res de datos, ya sean estos de clientes, productos, etc, etc. Pero ahora lo importante esque se pueda emplear esos datos como materia prima bruta para obtener conocimiento yaprovecharlo. El datamining (minerıa de datos), es un conjunto de tecnicas que permitenexplorar grandes bases de datos, con el objetivo de encontrar patrones repetitivos, tenden-cias o reglas que expliquen el comportamiento de los datos en un determinado contexto,lo cual es beneficioso para cualquier tipo de empresa.

Basicamente, el datamining surge para intentar ayudar a comprender el contenido deun repositorio de datos. Con este fin, hace uso de practicas estadısticas y, en algunos casos,de algoritmos de busqueda proximos a la Inteligencia Artificial y a las redes neuronales.En otras palabras se puede decir que existen muchas tecnicas para el proceso de DataMining, y entre las mas usadas estan las que se analizaran en este informe: prediccion,clasificacion, clustering y asociacion. Todos estos tienen diferentes algoritmos que puedenser aplicados a un conjunto de datos, con el fin de obtener conocimiento de los mismos.

3.2. Objetivos

Preparar un conjunto de datos, de manera que esten en un formato aceptado porWeka.

Realizar la prediccion de accidentes para los proximos 4 anos.

Realizar una clasificacion de accidentes aplicando clasificadores de Weka.

Realizar un clustering con los datos de los accidentes para paıses europeos.

Realizar una asociacion en base a caracterısticas presentes en accidentes de carretera.

35

Page 43: DataareHouse >InformeFinal

3.3. PROBLEMATIA CAPITULO 3. MINERIA DE DATOS

3.3. Problema general planteado

Basicamente lo que se desea es realizar un analisis de datos estadısticos sobre accidentesde carretera y numero de vıctimas que han ocurrido en paıses de Europa. Para esto se hatomado como referencia varias bases de datos de la EUROSTAT (http://ec.europa.eu),las mismas que contiene datos importantes sobre estos accidentes, como por ejemplo:el numero de vıctimas, el tipo de accidente, el tipo de carretera donde ha sucedido elaccidente, el tipo de vıctimas involucrados (pasajero, peaton, conductor), etc. Con estosdatos se procedera a realizar un analisis de los mismos: prediccion, clasificacion, clusteringy asociacion. Para ello se usara la herramienta: WEKA, misma que permite realizar estosanalsis.

3.4. Prediccion

3.4.1. Marco Teorico

El proceso de realizar una prediccion utiliza tecnicas estadısticas para modelar una se-rie dependiente del tiempo en el que se dan ciertos sucesos que corresponderan al conjuntode datos analizado, es decir, seran diferentes para cada caso. Basicamente lo que se buscaal hacer una prediccion es usar un modelo para predecir eventos futuros en base al analisisde eventos pasados, es decir, en base a las estadısticas de los datos. O en otras palabras,predecir para una fecha futura lo que sucedera con los datos correspondientes a cierto caso.

Perceptron Multicapa“El perceptron multicapa es una red neuronal artificial (RNA) formada por multiples ca-pas, esto le permite resolver problemas que no son linealmente separables. El perceptronmulticapa puede ser totalmente o localmente conectado”. [1]

Ibk“Este algoritmo esta basado en instancias, por ello consiste unicamente en almacenar losdatos presentados. Cuando una nueva instancia es encontrada, un conjunto de instanciassimilares relacionadas es devuelto desde la memoria y usado para clasificar la instanciaconsultada.Se trata, por tanto, de un algoritmo del metodo lazy learning. Este metodo de aprendi-zaje se basa en que los modulos de clasificacion mantienen en memoria una seleccion deejemplos sin crear ningun tipo de abstraccion en forma de reglas o de arboles de decision(de ahı su nombre, lazy, perezosos). Cada vez que una nueva instancia es encontrada, secalcula su relacion con los ejemplos previamente guardados con el proposito de asignarun valor de la funcion objetivo para la nueva instancia.” [2]

HoltWinters“Esta metodologıa es muy utilizada por su simplicidad y la precision de sus pronosticossobre todo con series de tiempo periodicas. Esta basada en cuatro ecuaciones basicas querepresentan la regularidad, tendencia, periodicidad y pronostico de la serie.” [3]

Universidad de Cuenca 36 Ingenierıa de Sistemas

Page 44: DataareHouse >InformeFinal

CAPITULO 3. MINERIA DE DATOS 3.4. PREDICCION

3.4.2. Definicion del problema

Basicamente lo que se busca es realizar una prediccion del numero de accidentes queinvolucren conductores, esto para los proximos 4 anos.Como se puede ver este analisis se enfoca en el tipo de vıctima, donde los parametrosseran el numero de vıctimas, en este caso de tipo conductor, esto frente al tiempo (anos).Cabe recalcar que este mismo analisis se podra realizar para otros tipos de vıctimas comopeaton o pasajero, donde el proceso basicamente sera el mismo.

3.4.3. Obtencion de los datos para el analisis

Para esta parte del analisis se ha tomado el siguiente set de datos, que contiene lossiguientes campos:

Ano: Ano de ocurrencia de los accidentes.

Conductor: Contiene el numero de vıctimas conductores en un ano determinado.

Este set de datos debe estar en un formato adecuado para que sea aceptado en Weka,es por ello que se ha realizado el tratado de los mismos meditante algunas herramientascomo Pentaho y se ha obtenido el siguiente archivo .csv separado por comas:

Figura 3.1: Datos para la prediccion

3.4.4. Eleccion del algoritmo para el analisis de los datos

Para enfrentar este problema de prediccion se aplicaran los siguientes algoritmos: “Per-ceptron Multicapa”, “Ibk” y “HoltWinters”. Ya que lo que se busca es predecir el numerode accidentes de conductores para los siguientes 4 anos.

Jutificacion de la eleccion del tipo de algoritmos como Perceptron MulticapaPreviamente se realizo un analisis de los datos con los que se trabajarian, esto para versi los mismos tenian un comportamiento que motivarıa a la eleccion de un determinado

Universidad de Cuenca 37 Ingenierıa de Sistemas

Page 45: DataareHouse >InformeFinal

3.4. PREDICCION CAPITULO 3. MINERIA DE DATOS

algoritmo, por ejemplo el de regresion lineal. Este tipo de algoritmos no se utilizo justa-mente por el comportamiento de los datos, los mismos que se pueden apreciar en la figura3.2:

Figura 3.2: Analsis previo de los datos, para conductor

Como se puede ver los datos no tienen un comportamiento que motive al uso de un algorit-mo de regresion lineal. Y es debido justamente a este comportamiento que se ha escogidoalgoritmos como el MultiLayerPerceptron, el mismo que es una red neuronal artificial(RNA) formada por multiples capas, y es esto lo que le permite resolver problemas queno son linealmente separables.

3.4.5. Aplicacion de los algoritmos a los datos

Para realizar esta prediccion se ha separado el conjunto de datos, dejando un 20 %para pruebas y se predecira el numero de accidentes con vıctimas tipo conductor, paralos siguientes 4 anos.En Weka se realiza la configuracion para obtener el Mean Absolute Porcentaje Error,como se muestra en la figura 3.6, lo cual permitira seleccionar el mejor modelo.

Figura 3.3: Configuracion del Mean Absolute Porcentaje Error

A continuacion se procede a cargar los datos en WEKA y a realizar la prediccion de estosmediante los algoritmos mencionados anteriormente.

Perceptron MulticapaEntrenamiento y Evaluacion de resultadosSe puede apreciar en la figura 3.7 que el entrenamiento el modelo se aparece bastante alos datos originales para conductor, mostrados en la figura 3.2. Ademas se observa que el

Universidad de Cuenca 38 Ingenierıa de Sistemas

Page 46: DataareHouse >InformeFinal

CAPITULO 3. MINERIA DE DATOS 3.4. PREDICCION

numero de vıctimas conductores para los anos 2016 al 2017 aumenta considerablemente,mientras que para los siguientes 2 anos estos se reducen, esto en la figura 3.8.Las predicciones (valores numericos) se pueden ver en la figura 3.6, junto con la evaluaciono pruebas para cada uno de los anos para los que se realizo la prediccion. Aquı tambienesta presente el MAPE (Mean Absolute Percentage Error), el cual servira mas adelantepara la seleccion del modelo.

Figura 3.4: Entrenamiento con Algoritmo Perceptron Multicapa

Figura 3.5: Prediccion (grafica) con Algoritmo Perceptron Multicapa

Figura 3.6: Predicciones (numerica) con Algoritmo Perceptron Multicapa, para los proxi-mos 4 anos

Universidad de Cuenca 39 Ingenierıa de Sistemas

Page 47: DataareHouse >InformeFinal

3.4. PREDICCION CAPITULO 3. MINERIA DE DATOS

IBkEntrenamiento y Evaluacion de resultadosSe puede apreciar en la figura 3.7 que en el entrenamiento el modelo encaja bastantebien con los datos originales. Ademas se observa en la figura 3.8, que en este caso losdatos tienen un comportamiento aproximado a los datos originales, ya que el numero devıctimas conductores para los anos 2016 y 2017 se reduce, mientras que para el siguienteano (2018) aumenta en comparacion con los 2 anteriores y en el ultimo ano vuelve areducirse, y como se puede apreciar en la figura 3.7 el comportamiento de los datos paraanos anteriores es similar.Las predicciones (valores numericos) se pueden ver en la figura 3.9, junto con la evaluaciono pruebas para cada uno de los anos para los que se realizo la prediccion. Una vez mas aquise puede observar que los valores tienen un comportamiento similar a los anos anteriores.Ademas aquı tambien esta presente el MAPE (Mean Absolute Percentage Error), el cualservira mas adelante para la seleccion del modelo y que en este caso es 0.

Figura 3.7: Entrenamiento con Algoritmo IBk

Figura 3.8: Prediccion (grafica) con Algoritmo IBk

Universidad de Cuenca 40 Ingenierıa de Sistemas

Page 48: DataareHouse >InformeFinal

CAPITULO 3. MINERIA DE DATOS 3.4. PREDICCION

Figura 3.9: Predicciones (numerica) con Algoritmo IBk, para los proximos 4 anos

Holt WintersEntrenamiento y Evaluacion de resultadosSe puede apreciar en la figura 3.7 que el entrenamiento del modelo se parece bastante alos datos originales. Ademas se observa que segun este algoritmo el numero de vıctimasconductores aumenta de un modo anormal, pasando de datos que maximo llegaban a las3000 vıctimas a datos que se predicen sobrepasan las 13000 vıctimas (para el ano 2019).Este comportamiento resulta anormal para este tipo de datos ya que de darse esa cantidadde vıctimas implicarıa que el numero de conductores aumento considerablemente en estosanos o que en su defecto, lo que aumento fue la irresponsabilidad de coductores que anteseran responsables mientras conducıan. Esta prediccion se puede ver graficamente en lafigura 3.11.Las predicciones (valores numericos) se pueden ver en la figura 3.12, junto con la evaluaciono pruebas para cada uno de los anos para los que se realizo la prediccion. Aquı tambienesta presente el MAPE (Mean Absolute Percentage Error), el cual servira mas adelantepara la seleccion del modelo.

Figura 3.10: Entrenamiento con Algoritmo Holt Winters

Universidad de Cuenca 41 Ingenierıa de Sistemas

Page 49: DataareHouse >InformeFinal

3.4. PREDICCION CAPITULO 3. MINERIA DE DATOS

Figura 3.11: Prediccion (grafica) con Algoritmo Holt Winters

Figura 3.12: Predicciones (numerica) con Algoritmo Holt Winters, para los proximos 4anos

3.4.6. Seleccion del modelo en base al MAPE (Mean AbsolutePercentage Error)

En los puntos anteriores se aplico los algoritmos al conjunto de datos y en este procesose obtuvo el MAPE, lo cual ahora permitira realizar la seleccion del modelo.Como se puede ver en la figura 3.6, 3.9 y 3.12 los valores del MAPE son diferentes en cadacaso, pero en el caso del algoritmo IBk se tiene un porcentaje de error 0, lo cual indica queeste es el modelo que mas se ajusta a los datos originales, esto mismo se pudo observaren el analisis de este algoritmo ya que como se menciono este tiene un comportamientobastante similar a los datos originales.

Universidad de Cuenca 42 Ingenierıa de Sistemas

Page 50: DataareHouse >InformeFinal

CAPITULO 3. MINERIA DE DATOS 3.5. CLASIFICACION

Cuadro 3.1: Resultados de la prediccion para los proximos 4 anos

3.4.7. Analisis de resultados

Esta parte del analisis presenta los resultados obtenidos durante todo el proceso, loscuales se pueden ver en el cuadro 3.1 y de modo grafico en la figura 3.13

Figura 3.13: Resultados grafico de la prediccion para los proximos 4 anos

3.5. Clasificacion

3.5.1. Marco Teorico

Con respecto al problema de la clasificacion, que es el mas frecuente en la practica,se puede decir que en ocasiones, este se formula como un refinamiento en el analisis, unavez que se han aplicado algoritmos no supervisados de agrupamiento y asociacion paradescribir relaciones de interes en los datos. [4]

PARTEste algoritmo esta basado en la construccion de reglas de clasificacion, esto en base a losatributos presentes en los datos. PART construye una serie de reglas que se pueden veren la ventana de resultados de WEKA.

Universidad de Cuenca 43 Ingenierıa de Sistemas

Page 51: DataareHouse >InformeFinal

3.5. CLASIFICACION CAPITULO 3. MINERIA DE DATOS

J48“El algoritmo J48 de WEKA es una implementaciUn del algoritmo C4.5, uno de los al-goritmos de minerIa de datos mas utilizado.Se trata de un refinamiento del modelo generado con OneR. Supone una mejora moderadaen las prestaciones.El parametro mas importante que deberemos tener en cuenta es el factor de confianzapara la poda (confidence level), que influye en el tamano ycapacidad de prediccion delarbol construido. Para cada operacion de poda, define la probabilidad de error que sepermite a la hipotesis de que el empeoramiento debido a esta operacion es significativo.”[5]

JRip“Este es un algoritmo que genera un listado de reglas obtenidas basicamente a partirde listas de decision (Rivest, 1987). Funciona de modo similar a RIPPER (Repeated In-cremental Pruning to Produce Error Reduction), el cual fue presentado por William W.Cohen (1995).” [6]

Naive Bayes“Este clasificador estadıstico se considera, en general, como uno de los mas basicos (Georgeet al., 1995; Marquez, 2002; inter alia), pero los autores coiciden en que, aunque sencillo,este clasificador sigue mostrando un buen desempeno en una gran variedad de proble-mas. A grandes rasgos, NB se esquematiza como un nodo C representante de la clasey un nodo dependiente para cada atributo Xi que representa cada instancia o ejemplo.Las condiciones metodologicas para la utilizacion de este algoritmo incluyen asumir quelos atributos que modela son independientes unos de otros y que sus valores son determi-nados a partir de la clase C de acuerdo a las distribuciones individuales de P(Xi —C).” [6]

3.5.2. Definicion del problema

Basicamente lo que se busca es aplicar un clasificador a un set de datos que contieneuna serie de atributos, descritos mas delante, para determinar si una persona con esascaracterısticas tiene o no un accidente. Es decir, clasificar en si tuvo o no tuvo un accidente.

3.5.3. Obtencion de los datos para el analisis

Para esta parte del analisis se ha tomado el siguiente set de datos, que contiene lossiguientes campos:

Ubicacion: Paıs donde se dio los accidentes.

Carretera: Tipo de carretera donde ser dio los accidentes

TipoPersona: Tipo de persona que tuvo los accidentes

EdadPersona: Edad de persona que tuvo los accidentes

Universidad de Cuenca 44 Ingenierıa de Sistemas

Page 52: DataareHouse >InformeFinal

CAPITULO 3. MINERIA DE DATOS 3.5. CLASIFICACION

Accidente: Si o No. Determina si hubo o no accidente.

Los datos seran obtenidos de las mismas fuentes que se usaron para el sistema mutidi-mensional del data warehouse y estos deben estar en un formato adecuado para que seaaceptado en Weka, es por ello que se ha realizado el tratado de los mismos meditantealgunas herramientas como Pentaho y se ha obtenido el siguiente archivo .csv separadopor comas:

Figura 3.14: Datos para la clasificacion

3.5.4. Eleccion del algoritmo para el analisis de los datos

Para enfrentar este problema de clasificacion se aplicaran los siguientes algoritmos:“J48”, “PART”, “JRip” y “NaiveBayes”. Ya que lo que se busca es clasificar datos nomi-nales y estos algoritmos permiten interpretar los resultados de una forma sencilla.

3.5.5. Aplicacion del algoritmo a los datos

En la pestana Classify de Weka, primero se debera elegir el clasificador.En esta parte se configurara el analisis para que divida al conjunto de datos en un 80 %para el entrenamiento, y un 20 % para las pruebas, esto se lo hace en las “test options”como se muestra en la figura 3.15:

Universidad de Cuenca 45 Ingenierıa de Sistemas

Page 53: DataareHouse >InformeFinal

3.5. CLASIFICACION CAPITULO 3. MINERIA DE DATOS

Figura 3.15: Opciones de prueba

Cuadro 3.2: Resultados de la clasificacion

J48Con este algoritmo se ha conseguido clasificar correctemente el 77.0492 % de los datos.Esto es que 47 han sido correctamente clasificados mientras que 14 no. Esto es asi yaque del total de datos que era de 306, unicamente el 20 % se uso para pruebas. En estealgoritmo ha existido el siguiente error absoluto promedio: 0.3495, este dato servira parala eleccion del modelo en los puntos siguientes.PARTCon este algoritmo se ha conseguido clasificar correctemente el 72.1311 % de los datos.Esto es que 44 han sido correctamente clasificados mientras que 17 no. En este algoritmoha existido el siguiente error absoluto promedio: 0.2797.JRipCon este algoritmo se ha conseguido clasificar correctemente el 72.1311 % de los datos.Esto es que 44 han sido correctamente clasificados mientras que 17 no. En este algoritmoha existido el siguiente error absoluto promedio: 0.3603.NaiveBayesCon este algoritmo se ha conseguido clasificar correctemente el 77.0492 % de los datos.Esto es que 47 han sido correctamente clasificados mientras que 14 no. En este algoritmoha existido el siguiente error absoluto promedio: 0.3516.Como se puede ver el porcentaje de clasificacion correcta es similar en algunos de losalgoritmos, pero tambien se puede ver que el error varia en los mismos.Los resultados de la aplicacion de cada uno de los algoritmos estan en el cuadro 3.2.

3.5.6. Seleccion del modelo en base al MAE (Mean AbsoluteError)

En los puntos anteriores se aplico los algoritmos al conjunto de datos y en este procesose obtuvo el MAE, lo cual servira como base para realizar la seleccion del modelo.Como se pudo ver en el cuadro 3.2 los valores del MAE son diferentes en cada caso, pero

Universidad de Cuenca 46 Ingenierıa de Sistemas

Page 54: DataareHouse >InformeFinal

CAPITULO 3. MINERIA DE DATOS 3.5. CLASIFICACION

en el caso del algoritmo PART se observa un error absoluto promedio menor, lo cualindica que este es el algoritmo mas adecuado. En este punto se debe aclarar que aunquecon este algoritmo el error fue menor, se clasifico correctamente menos datos que con losotros algoritmos, pero como se menciono anteriormente, en este caso se ha tomado comobase el MAE para la seleccion del algoritmo.

3.5.7. Analisis de resultados

Esta parte del analisis presenta los resultados obtenidos durante todo el proceso, loscuales se muestran en el cuadro 3.2. Se puede observar tambien la matriz de confusionque genero cada uno de los algoritmos, aquı se puede ver la cantidad de datos clasificadoscorrectamente y los que no. Se puede observar las reglas formadas, donde por ejemplo

Figura 3.16: Resultados. Matriz de Confusion

Figura 3.17: Resultados. Reglas generadas

si se es joven y esta en Belgium no tiene accidentes 4 de 9 personas (Figura 3.17). Cabemencionar que se ha ejecutado este analisis seleccionando la variable Accidente:

Finalmente tambien se ha incluido el resultado del algoritmo Naive Bayes, ya queel mismo muestra de una forma mas clara los resultados que ofrece este algoritmo, estose puede ver en la figura 3.19. Ademas de ofrecer una mayor cantidad de clasificacionescorrectas, en comparacion con PART :

Universidad de Cuenca 47 Ingenierıa de Sistemas

Page 55: DataareHouse >InformeFinal

3.6. CLUSTERING CAPITULO 3. MINERIA DE DATOS

Figura 3.18: Variable para clasificacion

Figura 3.19: Resultados del alfrotimo Naive Bayes

3.6. Clustering

3.6.1. Marco Teorico

Los algoritmos de clustering permiten clasificar un conjunto de elementos de muestraen un determinado numero de grupos basandose en las semejanzas y diferencias existentesentre los componentes de la muestra.

Universidad de Cuenca 48 Ingenierıa de Sistemas

Page 56: DataareHouse >InformeFinal

CAPITULO 3. MINERIA DE DATOS 3.6. CLUSTERING

Simple K Means“Se trata de un algoritmo clasificado como MEtodo de Particionado y Recolocacion. Estemetodo es hasta ahora el mas utilizado en aplicaciones cientıficas e industriales. El nombrele viene porque representa cada uno de los clusters por la media (o media ponderada) desus puntos, es decir, por su centroide.” [7]

Canopy“El algoritmo canopy permite realizar agrupamientos en la cual su operacion se basa enrealizar calculos sencillos para generar subgrupos de puntos en la cual cada dato puedepertenecer a mas de un subgrupo. Despues de la cual usa metodos de segmentacion comoel k-means con la restriccion de no realizar calculos de distancia entre dos puntos que nopertenecen al mismo subgrupo.” [8]

3.6.2. Definicion del problema

En esta parte del analisis se pretende agrupar o clusterizar accidentes y realizar 3clusters con las caracterısticas presentes en cada accidente (tipo vıctima, gravedad, etc.)y determinar si la gravedad de un accidente es grave, media, baja o nula (nula en el casode que dadas las caracterısticas de los datos no se presenta un accidente).

3.6.3. Obtencion de los datos para el analisis

Para esta parte del analisis se ha tomado el siguiente set de datos, que contiene lossiguientes campos:

Ubicacion: Paıs donde se dio los accidentes.

Carretera: Tipo de carretera donde ser dio los accidentes

TipoPersona: Tipo de persona que tuvo los accidentes

EdadPersona: Edad de persona que tuvo los accidentes

Accidente: Si o No. Determina si hubo o no accidente.

Gravedad: Determina la gravedad del accidente.

Los datos seran obtenidos de las mismas fuentes que se usaron para el sistema mutidi-mensional del data warehouse y estos deben estar en un formato adecuado para que seaaceptado en Weka, es por ello que se ha realizado el tratado de los mismos meditantealgunas herramientas como Pentaho y se ha obtenido el siguiente archivo .csv separadopor comas:

Universidad de Cuenca 49 Ingenierıa de Sistemas

Page 57: DataareHouse >InformeFinal

3.6. CLUSTERING CAPITULO 3. MINERIA DE DATOS

Figura 3.20: Datos para la clustering

3.6.4. Eleccion del algoritmo para el analisis de los datos

En esta seccion se aplico dos algoritmos de clustering, estos son: “Simple-KMeans”y “Canopy”, los mismos que permitiran tener una comparacion de los clusters que seobtengan de cada uno.

3.6.5. Aplicacion del algoritmo a los datos

Para este analisis se trabajara con todos los datos, tanto para el entrenamiento comopara las pruebas, para ello se debe configurar el modo del cluster en “Use training set”,como se ve en la figura 3.21.

Figura 3.21: Cluster mode, Use training set

Universidad de Cuenca 50 Ingenierıa de Sistemas

Page 58: DataareHouse >InformeFinal

CAPITULO 3. MINERIA DE DATOS 3.6. CLUSTERING

CanopyUna vez aplicado este algoritmo al set de datos, se obtiene los resultados de la figura3.22, donde se puede ver los clusters generados, sus respectivos porcentajes, ademas seobserva que hay presencia de ruido, lo cual dificultara agrupar los accidentes de acuerdoa su gravedad.En la figura 3.23 se puede ver de manera grafica los clusters generados donde se hacruzado la ubicacion (paıs) y la gravedad del accidente. Como se menciono anteriormenteexiste ruido, por lo cual no existe una separacion suficientemente clara entre los clustersgenerados.

Figura 3.22: Resultados de Canopy, clustering

Simple-K MeansAl aplicarse este algoritmo al set de datos, se obtiene los resultados de la figura 3.24, dondese puede ver los clusters generados, sus respectivos porcentajes, y demas caracterısticasde los mismos.En la figura 3.25 se puede ver de manera grafica los clusters generados donde se ha cruzadola ubicacion (paıs) y la gravedad del accidente.

Universidad de Cuenca 51 Ingenierıa de Sistemas

Page 59: DataareHouse >InformeFinal

3.6. CLUSTERING CAPITULO 3. MINERIA DE DATOS

Figura 3.23: Resultados graficos de algoritmo Canopy, clustering

Figura 3.24: Resultados de Simple-K Means, clustering

Universidad de Cuenca 52 Ingenierıa de Sistemas

Page 60: DataareHouse >InformeFinal

CAPITULO 3. MINERIA DE DATOS 3.6. CLUSTERING

Figura 3.25: Resultados graficos de algoritmo Simple-K Means, clustering

3.6.6. Analisis de resultados

A sido difıcil establecer un modelo para el set de datos de accidentes, debido a lapresencia de ruido en ambos algoritmos, tanto Canopy como Simple-K Means. Como seha observado en la figura 3.23 y 3.25 existen algunos clusters con menos ruidos que otros,y al parecer el que ofrece un mejor modelo es el Simple-k Means, donde se ha senaladoalgunos de los mejores clusters, esto en la figura 3.26.

Entonces, se puede decir que:

Los accidentes del cluster 0 son nulos, es decir q no ha habido accidentes para esoscasos.

Los accidentes del cluster 1 son de gravedad media.

Los accidentes del cluster 2 son tambien de gravedad media pero se han dado enpaıses diferentes.

Los accidente de gravedad alta presenta demasiado ruido por lo que ningun clusterha podido agruparlos.

Universidad de Cuenca 53 Ingenierıa de Sistemas

Page 61: DataareHouse >InformeFinal

3.7. ASOCIACION CAPITULO 3. MINERIA DE DATOS

Figura 3.26: Algoritmo Simple-K Means, clustering

3.7. Asociacion

3.7.1. Marco Teorico

Mediante algoritmos de asociacion se puede realizar la busqueda automatica de reglasque relacionan conjuntos de atributos entre sı. Son algoritmos no supervisados, ya que noexisten relaciones conocidas a priori con las que contrastar la validez de los resultados,sino que se evalua si esas reglas son estadısticamente significativas.

Apriori“El principal algoritmo implementado en WEKA es el algoritmo Apriori, el cual solo bus-ca reglas entre atributos simbolicos, por lo cual todos los atributos numericos deberıanser discretizados previamente.” [9]

3.7.2. Definicion del problema

En esta parte del analisis lo que se pretende es realizar una asociacion de los acci-dentes de carretera, para lo cual se tiene valores nominales (Si y No) de las diferentescaracterısticas presentes en los accidentes. Por ejemplo se busca determinar que si una

Universidad de Cuenca 54 Ingenierıa de Sistemas

Page 62: DataareHouse >InformeFinal

CAPITULO 3. MINERIA DE DATOS 3.7. ASOCIACION

persona que es joven, sera tambien conductor y tendra un accidente de transito, esto enbase al historial de accidentes y de sus respectivas caracterısticas.

3.7.3. Obtencion de los datos para el analisis

Para esta parte del analisis se ha tomado el siguiente set de datos, que contiene lossiguientes campos:

Conductor: Determina si la vıctima fue un conductor.

Jovenes: Determina si la vıctima fue un joven.

Adultos: Determina si la vıctima fue un Adulto o no (puede ser joven, o adulto oninguno de los dos, es decir, nino o anciano).

Muejeres: Determina si la vıctima fue mujer.

C. Urbana: Determina si el accidente se dio en una carretera urbana.

Dıa: Determina si el accidente ocurrio durante el dıa.

Accidente: Determina si el accidente ocurrio o no.

Los datos seran obtenidos de las mismas fuentes que se usaron para el sistemamutidimensional del data warehouse y estos deben estar en un formato adecuadopara que sea aceptado en Weka, es por ello que se ha realizado el tratado de losmismos meditante algunas herramientas como Pentaho y se ha obtenido el siguientearchivo .csv separado por comas, como se ve en la figura 3.27:

Figura 3.27: Set de datos para la asociacion

Universidad de Cuenca 55 Ingenierıa de Sistemas

Page 63: DataareHouse >InformeFinal

3.7. ASOCIACION CAPITULO 3. MINERIA DE DATOS

3.7.4. Eleccion del algoritmo para el analisis de los datos

El algoritmo que se ha seleccionado para realizar esta asociacion es el “Apriori”,debido a que es el mas comunmente usado para este tipo de analisis. Y se ha consi-derado generar 10 reglas de asociacion.

3.7.5. Aplicacion del algoritmo a los datos

Para aplicar el algoritmo de asociacion se ha configurado el numero de reglas, estose ve en la figura 3.28.Una vez ejecutado el algoritmo se ha encontrado con un valor aproximado del 90 %de confiabilidad lo cual hace que el modelo sea valido.

Figura 3.28: Configuracion del numero de reglas para la asociacion

3.7.6. Analisis de resultados

En esta parte del analisis se puede ver algunas de las reglas de asociacion queWEKA ha encontrado en el set de datos. Por ejemplo la regla 8 que dice que de losdatos analizados sin son conductores, entonces tambien son adultos, esto con unaconfiabilidad de 0.99, y de la misma forma para las demas reglas encontradas, lasmismas que estan en la figura 3.29.

Universidad de Cuenca 56 Ingenierıa de Sistemas

Page 64: DataareHouse >InformeFinal

CAPITULO 3. MINERIA DE DATOS 3.7. ASOCIACION

Figura 3.29: Mejores reglas de asociacion encontradas

Universidad de Cuenca 57 Ingenierıa de Sistemas

Page 65: DataareHouse >InformeFinal

Capıtulo 4

Conclusiones

Luego del presente analisis se tiene las siguientes conclusiones:

• Existen muchas metodologıas para la construccion de un Data warehouse, ycada una de estas tiene su propios pasos para el desarrollo. En el caso de estetrabajo se ha seleccionado la metodologıa hefesto por ser clara y sencilla ensu desarrollo.

• Pueden existir un sinnumero de fuentes y las mismas pueden estar en diferentesformatos.

• Los datos deben ser tratados mediante herramientas como pentaho data in-tegration, el cual permite realizar una limpieza de los mismos, entre muchasotras cosas mas.

• Las dimensiones y los hechos se han creado a partir de los modelos conceptualescreados siguiendo la metodologıa hefesto.

• La creacion y publicacion de los cubos multidimensionales se ha hecho median-te schema workbench, en el cual se debe realizar ciertas configuraciones, porejemplo establecer la conexion con la base de datos, claves para la publicacion,etc.

• Una vez publicado correctamente los cubos, estos pueden ser accedidos me-diante BI Server, el cual permite ver los resultados y hacer consultas al datawarehouse.

• Para trabajar con weka los datos deben estar en un formato adecuado, lo queimplica que no todos los tipos de datos se pueden cargar en weka.

• Para realizar los distintos analisis (Prediccion, Clasificacion, etc) existen unaserie de algoritmos, de los cuales se debera escoger el mas adecuado para losdatos.

58

Page 66: DataareHouse >InformeFinal

CAPITULO 4. CONCLUSIONES

• No todos los algoritmos se pueden aplicar a todos los datos, su uso dependerade lo que se desee hacer y del comportamiento de los datos.

• Es recomendable realizar un analis previo de los datos para ver su comporta-miento, esto antes de aplicar cualquier algoritmo de weka.

Universidad de Cuenca 59 Ingenierıa de Sistemas

Page 67: DataareHouse >InformeFinal

Apendice A

Reporte usando Report Designer

En esta seccion se presenta un ejemplo de reporte del data warehouse construido.Esto mediante la herramienta de pentaho: report designer.El siguiente reporte muestra el numero de vıctimas adultos y jovenes de dos paisesde Europa, perimitiendo ası comparar estos dos paıses.Como se puede ver en la figura A1, A2 y A3, la mayor cantidad de accidentes dehan dado en Austria con un 87 % frente a un 13 % en Bulgaria.

Figura A.1: Vıctimas Jovenes y Adultos de Austria y Bulgaria

De la misma manera se pueden elaborar y obtener todos los reportes que se deseen.——————————————–

60

Page 68: DataareHouse >InformeFinal

APENDICE A. REPORTE USANDO REPORT DESIGNER

Figura A.2: Vıctimas Jovenes y Adultos de Austria y Bulgaria

Universidad de Cuenca 61 Ingenierıa de Sistemas

Page 69: DataareHouse >InformeFinal

APENDICE A. REPORTE USANDO REPORT DESIGNER

Figura A.3: Vıctimas Jovenes y Adultos de Austria y Bulgaria

Universidad de Cuenca 62 Ingenierıa de Sistemas

Page 70: DataareHouse >InformeFinal

Bibliografıa

[1] Wikipedia. Perceptron multicapa.

[2] Zaida Cebrian Jimenez Alejandro Boris Valiente. Inteligencia en redes de comu-nicaciones. diagnostico cardiologıa.

[3] MC. Pedro Flores Perez. Una metodologıa basada en algoritmos geneticos au-toadaptables para la construccion de modelos lineales para series de tiempo yfunciones de transferencia discretas.

[4] MC. Flores P. Tecnicas de analisis de datos en weka.

[5] Aranzazu Alvarez Sierra Marıa Garcıa Jimenez. Analisis de datos en weka.

[6] Nora Marcela Aguilar Caro. AplicaciOn de mEtodos de aprendizaje automAticopara la desambiguaciOn del pp attachment en espaNol.

[7] Aranzazu Alvarez Sierra Marıa Garcıa Jimenez. Analisis de datos en weka.

[8] Wilson Rodrigo Perez Rocano Valeria Alexandra Haro Valle. Data warehousepara el centro de documentacion regional “juan bautista vazquez”.

[9] Aranzazu Alvarez Sierra Marıa Garcıa Jimenez. Analisis de datos en weka.

63