1. limpieza y transformación de datos

Click here to load reader

Upload: miguel-murillo

Post on 26-May-2015

1.335 views

Category:

Documents


4 download

DESCRIPTION

Pres

TRANSCRIPT

  • 1. Limpieza y Transformacin de los Datos Carlos Lobo ValerioAlexander Jimnez Palacios

2. Introduccin Generalmente es necesario realizar algunatransformacin a los datos para obtener materiaprima adecuada. El xito de un proceso de minera de datos dependede tener datos ntegros, completos y consistentes. Eliminar informacin incorrecta o inconsistente. 3. Integracin y limpieza La integracin generalmente se realiza durante elproceso de recopilacin o carga de datos. La limpieza de datos puede detectar y solucionarproblemas de datos no resueltos durante laintegracin. Evita problemas como datos faltantes, valoresduplicados y datos incorrectos. 4. Integracin Se puede dar de dos maneras: Unificar dos o ms objetos. Separar un objeto en dos o ms. Ejemplos: Separar personas por nmero de cdula nacional,extranjera y pasaporte. Unificar formatos: sexo, estado civil, fechas. 5. Reconocimiento Consiste en realizar un resumen de lascaractersticas y observar el modelo para verificarerrores. Algunos aspectos pueden salir a simple vista Cinco valores para el sexo. Otros aspectos son ms difciles de encontrar, para ellos se usan otras herramientas: Histogramas Grficas de dispersin 6. Valores faltantes Causas: Faltan valores relevantes porque no se pudieron obtener. No existen los valores. Datos incompletos (varios orgenes). Tratamiento Ignorarlos. Eliminar toda la columna. Remplazar el valor. Segmentar 7. Valores errneos Algunas veces no es un proceso trivial, clasificary agrupar pueden ayudar. Tratamiento: Ignorar. Eliminar. Filtrar. Remplazar. Discretizar. 8. Transformacin Es cualquier proceso que modifique la forma de los datos. Crear nuevos atributos derivados Cambiar el tipo de un atributo Cambiar total o parcial una tabla. 9. Discretizacin Conversin de un valor numrico en un valor nominal ordenado. Ejemplo: convertir un nota de 0 a 100 en aprobado y reprobado. Se realiza cuando el error en la medida puede ser grande o existen ciertos umbrales significativos. 10. Numerizacin Conversin de un valor nominal en un valor numrico. Ejemplo: el nivel de estudio de una persona (sin estudio, primaria, secundaria, universidad) se puede convertir en 0, 1, 2, 4. 11. Normalizacin de rango Transformar todos los datos respetando unmismo rango. Se define un mnimo y un mximo y todos losvalores deben respetarlo. Ejemplo: Normalizar las distancias recorridas entre ciudades. 12. Sistema ETL Proceso de extraccin, transformacin y carga. Permiten extraer datos de algn origen,transformarlo si es necesario y cargarlo en undestino. Cada organizacin debe crear su propio sistemaETL. Existen herramientas que facilitan la creacin deprocesos ETL. 13. Tareas ETL Lectura de datos transaccionales medianteconsultas SQL. Incorporacin de datos externos como hojas declculo, archivos de texto y XML. Integracin de los datos de diversas fuentes Limpieza y transformacin de los datos. Crear metadatos que describan el proceso ETL 14. Tareas ETL Identificacin de cambios en el origen paraactualizar el destino. Planificar la carga y mantenimiento, respetarrestricciones de integridad, no saturar las BD Crear ndices y llaves primarias sobre datosrelevantes o nicos. Realizar pruebas de calidad en los datosalmacenados. 15. Diagrama ETL 16. Herramientas ETL Microsoft Integratios Services XMLoader Pentaho Data Integration Benetl MySQL Migration Toolkit Oracle Warehouse Builder Scriptella ETL