implementación del modelo de calidad de datos abril 2015
TRANSCRIPT
Implementación del modelo de Calidad de Datos
Abril 2015
Situación Actual de la información
Abreviaturas
Nombres de Personas o domicilios en un solo campo
Espacios a la izquierda o doblesEspacios.
Utilización de Mayúsculas yMinúsculas
Errores de Captura o Utilización de signos especiales
CLAVE NOMBRE
0300900101020002000008 BARRADAS GOZALEZ FRANCISCO
0300900101024016000004 LOPEZ SALAS RUTILO Y COOP
0300900102006010000003 VAZQUEZ BARRADAS JUAN
0300901901013001000005 CARREON DIAZ APOLINAR
0300901901023006000001 BAIZABAL MOCTEZUMA CIRILO
0300904501007001000008 VAZQUEZ DOMINGUEZ FORTUNATO
0300904501007002000002 VAZQUEZ DOMINGUEZ VICTOR
0300909401019002000003 Castellanos Viveros Benito
0300909401021004000008 Alarcon Ramirez Alejandro Roberto
CLAVE NOMBRE CALLE
0300900101035036000007 MENDEZ AGUILAR RAUL Y COOP " PASO DE SERVIDUMBRE"
0300907901040003000008 POSEEDOR 1 DE MAR ESQ 16 DE SEP L 3 M40
0300907901040001000002 VARRADAS AGUILAR IRMA 1 DE MAR ESQ CALLE S/N L1 M40
0300907901034003000009 DOMINGUEZ PE?A FORTUNATO 1 DE MAR ESQ. 16 DE SEP L3 M34
clave calle colonia
0320000101001001000005 AV. MIGUEL ALEMAN No. 1 AGUACATAL, COL.
0320000101001002000008 AV. DE LAS AMERICAS No. 113 FRAC. AGUACATAL, COL.
0320000101001003000002 BENITO FENTANES No. 4 AGUACATAL, COL.
nombre calle
JIMENEZ MORA GRACIELA JUANA Y COPS. AV. MIGUEL ALEMAN No. 1
BORROMEO MOCTEZUMA CESAR AV. DE LAS AMERICAS No. 113 FRAC.
OLIVA CEDILLO JUAN BENITO FENTANES No. 4
Problemática Valor de negocio
Información confiable para toma de decisiones
Información enriquecida y estandarizada en un solo repositorio
Identificación de criterios de decisión, desarrollo y evaluación de alternativas
Ventajas de tener datos con calidad
Calidad de datos
IntroducciónIntroducción
Calidad de
Datos
Completitud
Conformidad
Consistente
Exactitud
Duplicidad
Integridad
Para medir la calidad es necesario descomponerla en características observables llamadas dimensiones de calidad, con las cuales es posible definirla, identificarla y medirla.
La calidad es un concepto multidimensional porque se necesitan varias dimensiones para decir qué tan correctos-adecuados son los datos que se van a usar para una aplicación.
Las seis variables de la calidad de datos son:
Seis dimensiones de calidad de datos
ELIMINACIÓN DE ERRORES
ORTOGRÁFICOS
HOMOLOGACIÓN DE LA
INFORMACIÓN
ESTRUCTURACIÓN DE LA
INFORMACIÓNCONFRONTA DE BASES DE DATOS
Objetivos de la calidad de datos
PREPARACIÓN
• Verificación y análisis de la información fuente.
• Obtención de los datos para iniciar la etapa de análisis de la BD.
• Migración de la información original al ambiente de producción.
ANÁLISIS
• Búsqueda de valores y patrones en los campos y número de ocurrencia.
• Validación de valores de los campos y número de ocurrencias.
• Búsqueda de elementos inconsistentes dentro del campo.
• Búsqueda de elementos abreviados, truncos o con contracciones.
HIGIENE
• Sustitución de los elementos inconsistentes.
• Remplazar y cortar el dato contenido como consecuencia de la verificación de una regla.
• Convertir todo a mayúsculas.
• Alinear datos a la izquierda.
Etapas
ESTANDARIZACIÓN Y ESTRUCTURACIÓN
• Separar la información que se encuentra en un solo campo.
• Homologación de información.
• Establecer un criterio único para el uso de las abreviaturas y caracteres especiales.
• Establecer un mismo tipo de campo para la confronta de la información.
VINCULACIÓN
• Se realiza sobre los campos:• Clave Catastral• Nombre• Domicilio del inmueble• Superficie
• Se realizan comparativos entre bases de datos contra otra fuente.
VALIDACIÓN
• Se realiza mediante la verificación puntual de las reglas de negocio implementadas.
• Porcentaje de error < 1% de una muestra.
Etapas
PREPARACIÓN ANÁLISIS HIGIENE ESTANDARIZACIÓN Y SEGMENTACIÓN VINCULACIÓN VALIDACIÓN
Lineamientos de Calidad de datos tabulares
Etapas
Calidad de la información
Para la implementación del Modelo de Calidad de datos, el INEGI ofrece talleres a través de los cuales da a conocer los procesos para el tratamiento de las bases de datos tabulares y cartográficas, con el objeto de que la información con que cuentan las UE esté higienizadas y estandarizadas, en los que se establecen además, los lineamientos de calidad de los datos, los criterios generales que se deberán aplicar en los datos utilizando atributos o campos auxiliares para lograr su homogeneidad, comparabilidad, consistencia y completes a fin de lograr la concordancia en ambas fuentes de datos.
¿A quien va dirigido el taller?
Va dirigido a funcionarios de las dependencias que tengan relación con actividades de generación de información tabular y cartográfica.
Requisitos para tomar el taller
Conocimientos básicos en la gestión de información cartográfica y bases de datos.
Conocimientos básicos en la gestión de datos espaciales a través del uso de herramientas SIG (recomendable).
Conocimiento en manejadores de bases de datos. Conocimiento en Sistemas de información Geográfica.