data warehouse

30
GESTIÓN DE BASES DE DATOS Contenido INTRODUCCION..................................................... 2 DEFINICION....................................................... 3 DATAWAREHOUSE Y SUS PRINCIPALES CARACTERÍSTICAS..................3 ESTRUCTURA DEL DATA WAREHOUSE....................................4 VENTAJAS........................................................8 DESVENTAJAS.....................................................8 Esquemas de un Data Warehouse....................................9 Esquema estrella................................................9 Esquema copo de nieve..........................................10 ARQUITECTURA DE UN DATAWAREHOUSE................................11 Usos............................................................ 12 Formas de acceso de los usuarios...............................12 Uso de los datos...............................................13 Las consultas de los usuarios accedan a cantidades grandes de datos..........................................................13 Ejemplo......................................................15 CONSIDERACIONES ADICIONALES.....................................17 EJEMPLO DE UN DATA WAREHOUSE...................................19 EXCEPCIONES EN EL DATA WAREHOUSE...............................20 Conclusiones.................................................... 22 Referencias..................................................... 23 1 | Página

Upload: willy-hernan-yupanqui-pari

Post on 17-Feb-2016

221 views

Category:

Documents


0 download

DESCRIPTION

Empezando en DataWarehouse

TRANSCRIPT

Page 1: Data Warehouse

GESTIÓN DE BASES DE DATOS

ContenidoINTRODUCCION..................................................................................................................................2

DEFINICION........................................................................................................................................3

DATAWAREHOUSE Y SUS PRINCIPALES CARACTERÍSTICAS.............................................3

ESTRUCTURA DEL DATA WAREHOUSE...................................................................................4

VENTAJAS.......................................................................................................................................8

DESVENTAJAS.................................................................................................................................8

Esquemas de un Data Warehouse.....................................................................................................9

Esquema estrella............................................................................................................................9

Esquema copo de nieve...............................................................................................................10

ARQUITECTURA DE UN DATAWAREHOUSE......................................................................................11

Usos..................................................................................................................................................12

Formas de acceso de los usuarios................................................................................................12

Uso de los datos...........................................................................................................................13

Las consultas de los usuarios accedan a cantidades grandes de datos........................................13

Ejemplo....................................................................................................................................15

CONSIDERACIONES ADICIONALES....................................................................................................17

EJEMPLO DE UN DATA WAREHOUSE...............................................................................19

EXCEPCIONES EN EL DATA WAREHOUSE......................................................................20

Conclusiones....................................................................................................................................22

Referencias.......................................................................................................................................23

1 | P á g i n a

Page 2: Data Warehouse

GESTIÓN DE BASES DE DATOS

INTRODUCCION

Mejores decisiones de negocio es la clave es el éxito en el mercado competitivo de hoy,

para lo cual las organizaciones buscan que sus tomas de decisiones sean entendibles. Para

facilitar estos datos a una amplia audiencia de usuarios.

Para lo cual muchas organizaciones escogen construir un Data Warehouse para liberar la

información en sus sistemas operativos y entender los verdaderos problemas del mundo de

los negocios. El Data Warehouse es un almacenamiento integrado de información obtenido

de otros sistemas, que provee soporte de decisiones, disponibilidad y manipulación de

información para el análisis de datos. Clientes deslumbrados, mejores rendimientos, mayor

participación en el mercado son las bases de los negocios en una década competitiva como

la actual y para lograr ella una de las respuestas es el Data Warehouse.

El Data Warehouse representa el proceso de reunir la información histórica de una

organización en un depósito central, y se ha convertido en una tecnología común y

fundamental. Está es la tecnología que finalmente puede llevar al sueño que perseguían los

teóricos del tema desde la década de los setenta.

En donde el proceso del Data Warehouse es complejo, y costoso que consume tiempo, sin

embargo, con el paso de los año se ha venido trabajando en esta industria para crear una

plataforma que sea consistente en los componentes tecnológicos y de liderazgo de

productos, los cuales pueden ser utilizados para reducir los costos e impulsar a las

empresas a crear, administrar y utilizar un Data Warehouse.

2 | P á g i n a

Page 3: Data Warehouse

GESTIÓN DE BASES DE DATOS

DEFINICIONLas definiciones anteriores se centran en los datos en sí mismos. Sin embargo, los medios para obtener y analizar esos datos, para extraerlos, transformarlos y cargarlos, así como las diferentes formas para realizar la gestión de datos son componentes esenciales de un almacén de datos. Muchas referencias a un almacén de datos utilizan esta definición más amplia. Por lo tanto, en esta definición se incluyen herramientas para la inteligencia empresarial, herramientas para extraer, transformar y cargar datos en el almacén de datos, y herramientas para gestionar y recuperar los metadatos.

DATAWAREHOUSE Y SUS PRINCIPALES CARACTERÍSTICAS

Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde infinidad de pespectivas y con grandes velocidades de respuesta. La creación de un datawarehouse representa en la mayoría de las ocasiones el primer paso, desde el punto de vista técnico, para implantar una solución completa y fiable de Business Intelligence.

La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena la información (modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc). Este tipo de persistencia de la información es homogénea y fiable, y permite la consulta y el tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales).

El término Datawarehouse fue acuñado por primera vez por

Bill Inmon, y se traduce literalmente como almacén de datos. No obstante, y como cabe suponer, es mucho más que eso. Según definió el propio Bill Inmon, un datawarehouse se caracteriza por ser

3 | P á g i n a

Page 4: Data Warehouse

GESTIÓN DE BASES DE DATOS

Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La información suele estructurarse también en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.

Temático: sólo los datos necesarios para el proceso de generación del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sob re clientes pueden ser consolidados en una única tabla del datawarehouse. De esta forma, las peticiones de información sobre clientes serán más fáciles de responder dado que toda la información reside en el mismo lugar.

Histórico: el tiempo es parte implícita de la información contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad delnegocio en el momento presente. Por el contrario, la información almacenada en el datawarehouse sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones.

No volátil: el almacén de información de un datawarehouse existe para ser leído, pero no modificado. La información es por tanto permanente, significando la actualización del datawarehouse la incorporación de los últimos valores que tomaron las distintas variables contenidas en él sin ningún tipo de acción sobre lo que ya existía.

Otra característica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos. Los metadatos permiten saber la procedencia de la información, su periodicidad de refresco, su fiabilidad, forma de cálculo... etc.

Los metadatos serán los que permiten simplificar y automatizar la obtención de la información desde los sistemas operacionales a los sistemas informacionales.

Los objetivos que deben cumplir los metadatos, según el colectivo al que va dirigido, son:

Dar soporte al usuario final, ayudándole a acceder al datawarehouse con su propio lenguaje de negocio, indicando qué información hay y qué significado tiene. Ayudar a construir consultas, informes y análisis, mediante herramientas deBusiness Intelligence como DSS, EIS o CMI.

ESTRUCTURA DEL DATA WAREHOUSE Los data warehouses tienen una estructura distinta. Hay niveles diferentes de esquematización y detalle que delimitan el data warehouse. La estructura de un data warehouse se muestra en la Figura N° 5.

En la figura, se muestran los diferentes componentes del data warehouse y son:

Detalle de datos actuales

4 | P á g i n a

Page 5: Data Warehouse

GESTIÓN DE BASES DE DATOS

Detalle de datos antiguos Datos ligeramente resumidos Datos completamente resumidos Meta data

Detalle de datos actuales.- En gran parte, el interés más importante radica en el detalle de los datos actuales, debido a que:

Refleja las ocurrencias más recientes, las cuales son de gran interés Es voluminoso, ya que se almacena al más bajo nivel de granularidad. Casi siempre se almacena en disco, el cual es de fácil acceso, aunque su administración sea

costosa y compleja. Detalle de datos antiguos.- La data antigua es aquella que se almacena sobre alguna

forma de almacenamiento masivo. No es frecuentemente accesada y se almacena a un nivel de detalle, consistente con los datos detallados actuales. Mientras no sea prioritario el almacenamiento en un medio de almacenaje alterno, a causa del gran volumen de datos unido al acceso no frecuente de los mismos, es poco usual utilizar el disco como medio de almacenamiento.

Datos ligeramente resumidos.- La data ligeramente resumida es aquella que proviene desde un bajo nivel de detalle encontrado al nivel de detalle actual. Este nivel del data warehouse casi siempre se almacena en disco. Los puntos en los que se basa el diseñador para construirlo son:

Que la unidad de tiempo se encuentre sobre la esquematización hecha. Qué contenidos (atributos) tendrá la data ligeramente resumida. Datos completamente resumidos.- El siguiente nivel de datos encontrado en el data

warehouse es el de los datos completamente resumidos. Estos datos son compactos y fácilmente accesibles.

5 | P á g i n a

Page 6: Data Warehouse

GESTIÓN DE BASES DE DATOS

A veces se encuentra en el ambiente de data warehouse y en otros, fuera del límite de la tecnología que ampara al data warehouse. (De todos modos, los datos completamente resumidos son parte del data warehouse sin considerar donde se alojan los datos físicamente.)

Metadata.- El componente final del data warehouse es el de la metadata. De muchas maneras la metadata se sitúa en una dimensión diferente al de otros datos del data warehouse, debido a que su contenido no es tomado directamente desde el ambiente operacional.

La metadata juega un rol especial y muy importante en el data warehouse y es usada como:

Un directorio para ayudar al analista a ubicar los contenidos del data warehouse.

Una guía para el mapping de datos de cómo se transforma, del ambiente operacional al de data warehouse.

Una guía de los algoritmos usados para la esquematización entre el detalle de datos actual, con los datos ligeramente resumidos y éstos, con los datos completamente resumidos, etc.

La metadata juega un papel mucho más importante en un ambiente data warehousing que en un operacional clásico.

A fin de recordar los diferentes niveles de los datos encontrados en el data warehouse, considere el ejemplo mostrado en la Figura N° 6.

6 | P á g i n a

Page 7: Data Warehouse

GESTIÓN DE BASES DE DATOS

El detalle de ventas antiguas son las que se encuentran antes de 1992. Todos los detalles de ventas desde 1982 (o cuando el diseñador inició la colección de los archivos) son almacenados en el nivel de detalle de datos más antiguo.

El

detalle actual contiene información desde 1992 a 1993 (suponiendo que 1993 es el año actual). En general, el detalle de ventas no se ubica en el nivel de detalle actual hasta que haya pasado, por lo menos, veinticuatro horas desde que la información de ventas llegue a estar disponible en el ambiente operacional.

En otras palabras, habría un retraso de tiempo de por lo menos veinticuatro horas, entre el tiempo en que en el ambiente operacional se haya hecho un nuevo ingreso de la venta y el momento cuando la información de la venta haya ingresado al data warehouse.

El detalle de las ventas son resumidas semanalmente por línea de subproducto y por región, para producir un almacenamiento de datos ligeramente resumidos.

El detalle de ventas semanal es adicionalmente resumido en forma mensual, según una gama de líneas, para producir los datos completamente resumidos.

La metadata contiene (al menos):

La estructura de los datos

7 | P á g i n a

Page 8: Data Warehouse

GESTIÓN DE BASES DE DATOS

Los algoritmos usados para la esquematización

El mapping desde el ambiente operacional al data warehouse

La información adicional que no se esquematiza es almacenada en el data warehouse. En muchas ocasiones, allí se hará el análisis y se producirá un tipo u otro de resumen. El único tipo de esquematización que se almacena permanentemente en el data warehouse, es el de los datos que son usados frecuentemente. En otras palabras, si un analista produce un resumen que tiene una probabilidad muy baja de ser usado nuevamente, entonces la esquematización no es almacenada en el data warehouse.

VENTAJAS Hay muchas ventajas por las que es recomendable usar un almacén de datos. Algunas de ellas son:

Los almacenes de datos hacen más fácil el acceso a una gran variedad de datos a los usuarios finales

Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la decisión tales como informes de tendencia', por ejemplo: obtener los items con la mayoría de las ventas en un área en particular dentro de los últimos dos años; informes de excepción, informes que muestran los resultados reales frente a los objetivos planteados a priori.

Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el valor operacional de las aplicaciones empresariales, en especial la gestión de relaciones con clientes.

DESVENTAJASUtilizar almacenes de datos también plantea algunos inconvenientes, algunos de ellos son:

A lo largo de su vida los almacenes de datos pueden suponer altos costos. El almacén de datos no suele ser estático. Los costos de mantenimiento son elevados.

Los almacenes de datos se pueden quedar obsoletos relativamente pronto.

A veces, ante una petición de información estos devuelven una información subóptima, que también supone una pérdida para la organización.

A menudo existe una delgada línea entre los almacenes de datos y sistemas operativos. Hay que determinar qué funcionalidades de estos se pueden aprovechar y cuáles se deben implementar en el data warehouse, resultaría costoso implementar operaciones no necesarias o dejar de implementar alguna que sí vaya a necesitarse.

8 | P á g i n a

Page 9: Data Warehouse

GESTIÓN DE BASES DE DATOS

Esquemas de un Data WarehouseUn Data Warehouse adopta un esquema estrella o copo de nieve para maximizar la performance de las consultas.

Un diseño de esquema estrella o copo de nieve es muy diferente del diseño de un esquema de base de datos operacional.

Esquema estrella

La técnica de diseño más popular usada para un Data Warehouse es el esquema estrella.

El esquema estrella es un paradigma en el cual un único objeto en el centro (conocido como tabla de hechos) está conectado radialmente con otros objetos circundantes llamados tabla de dimensiones formando una estrella.

El esquema estrella puede ser simple o complejo. Un esquema estrella simple consiste de una tabla de hechos y varias tablas de dimensión.

Un esquema estrella complejo puede tener más de una tabla de hechos y cientos de tablas de dimensión.

Una consulta se traduce a un ensamble entre una tabla de hechos y múltiples tablas de dimensión.

Cada tabla de dimensión se ensambla con la tabla de hechos por la clave primaria de la tabla de dimensión, pero las tablas de dimensión no se ensamblan unas con otras.

9 | P á g i n a

Page 10: Data Warehouse

GESTIÓN DE BASES DE DATOS

Una tabla de hechos normalmente contiene claves y medidas.

Una simple tabla de hechos podría contener la medida Ventas, y la clave de Tiempo, Producto, y Mercado.

Habría tablas de dimensión correspondientes a Tiempo, Producto, y Mercado. La tabla de dimensión Producto, por ejemplo, contendría la información sobre cada número de producto que aparece en el tabla de hechos

Esquema copo de nieve

El esquema copo de nieve es una extensión del esquema estrella donde cada punta de la estrella se explota en más puntas y su denominación se debe a que el diagrama del esquema se asemeja a un copo de nieve.

En este esquema, las tablas de dimensión se encuentran más normalizadas para mejorar la performance de las consultas debido a la reducción del almacenamiento en disco para los datos y a la mejora de la performance debido a que los ensambles se realizan sobre tablas de dimensión mas pequeñas.

Los esquemas copo de nieve normalizan dimensiones para eliminar redundancia.

Los datos de las dimensiones se agrupan en múltiples tablas en lugar de una tabla grande.

Una tabla de dimensión Producto en un esquema estrella se podría normalizar en una tabla Producto, una tabla Categoria_Producto, y otra de Fabricante_Producto en un esquema copo de nieve.

El resultado es el ahorro de espacio de almacenamiento en disco en perjuicio de un aumento en la cantidad de tablas.

10 | P á g i n a

Page 11: Data Warehouse

GESTIÓN DE BASES DE DATOS

.

ARQUITECTURA DE UN DATAWAREHOUSEElementos dentro de la arquitectura Data Warehouse (que es una forma de representar la estructura global de los datos, la comunicación, los procesos y la presentación del usuario final). Como ya sabemos la construcción del data warehouse se establece como elemento crítico en el proceso de implantación de una herramienta Business Intelligence y por lo tanto resulta interesante recordar todos estos conceptos:

Base de datos operacional/nivel de base de datos externos: hace referencia a los sistemas operacionales/transaccionales de la organización y a fuentes que forman parte del proceso de Data Warehousing.

11 | P á g i n a

Page 12: Data Warehouse

GESTIÓN DE BASES DE DATOS

Nivel de acceso a la información: es la capa de interacción del usuario cuya finalidad es la conversión de los datos almacenados en información fácil y transparente para las herramientas de los usuarios finales.

Nivel de acceso a los datos: comunica el nivel de acceso a la información con el nivel operacional de forma universal.

Nivel de directorio de datos (metadatos): repositorio de metadatos de los datos almacenados que proporcionan información sobre el origen y sobre la transformación de los mismos en el proceso de Data Warehousing.

Nivel de gestión de procesos: planificación de las tareas y procesos para la construcción y mantenimiento actualizado del Data Warehouse.

Nivel de mensaje de la aplicación: determina el transporte de información a lo largo del entorno de computación de la organización a modo de middleware pero más allá de meramente protocolos de red.

Nivel Data Warehouse (físico): es el repositorio central altamente flexible de información donde residen copias de los datos operacionales y/o externos optimizados para su acceso para la consulta.

Nivel de organización de datos: incluye todos los procesos necesarios para seleccionar, editar, resumir (normalmente sumarizar), combinar y cargar en el Data Warehouse y en la capa de acceso a la información los datos operacionales y/o externos.

Usos

Formas de acceso de los usuarios

Uso de Base de Datos Operacionales

Muchos usuarios concurrentes

Consultas predefinidas y actualizables

Cantidades pequeñas de datos detallados

Requerimientos de respuesta inmediata

Uso de Data Warehouse

Pocos usuarios concurrentes

Consultas complejas, frecuentemente no anticipadas.

12 | P á g i n a

Page 13: Data Warehouse

GESTIÓN DE BASES DE DATOS

Cantidades grandes de datos detallados

Requerimientos de respuesta no críticos

Uso de los datosPor lo general, los diferentes niveles de datos dentro del data warehouse reciben diferentes usos. A más alto nivel de esquematización, se tiene mayor uso de los datos.

Hay mayor uso de los datos completamente resumidos, a diferencia de la información antigua que apenas es usada.

Los datos más resumidos, permiten capturar los datos en forma más rápida y eficiente. Si en una tarea se encuentra que se hace mucho procesamiento a niveles de detalle del data warehouse, entonces se consumirá muchos recursos de máquina. Es mejor hacer el procesamiento a niveles más altos de esquematización como sea posible.

Para muchas tareas, el analista de sistemas de soporte de decisiones usa la información a nivel de detalle en un pre data warehouse. Una de las actividades del diseñador de datos es el de desconectar al usuario del sistema de soporte de decisiones del uso constante de datos a nivel de detalle más bajo.

Las consultas de los usuarios accedan a cantidades grandes de datos

Debido a la necesidad de investigar tendencias y evaluar las relaciones entre muchas clases de datos, las consultas al data warehouse permiten acceder a volúmenes muy grandes tanto de data detallada como resumida. Debido a los requerimientos de datos históricos, los data warehouses evolucionan para llegar a un tamaño más grande que sus orígenes operacionales (de 10 a 100 veces más grande).

Las consultas de los usuarios no tienen tiempos de respuesta críticos

Las transacciones operacionales necesitan una respuesta inmediata porque un cliente puede estar esperando una respuesta. En el data warehouse, por el contrario, tiene un requerimiento de respuesta no-crítico porque el resultado frecuentemente se usa en un proceso de análisis y toma de decisiones. Aunque los tiempos de respuesta no son críticos, los usuarios esperan una respuesta dentro del mismo día en que es hecha la consulta.

Por lo general, los diferentes niveles de datos dentro del data warehouse reciben diferentes usos. A más alto nivel de esquematización, se tiene mayor uso de los datos.

En la Figura N° 12 se muestra que hay mayor uso de los datos completamente resumidos, a diferencia de la información antigua que apenas es usada.

Hay una buena razón para mover una organización al paradigma sugerido en la figura, la utilización del recurso. La data más resumida, permite capturar los datos en forma más rápida y eficiente. Si

13 | P á g i n a

Page 14: Data Warehouse

GESTIÓN DE BASES DE DATOS

en una tarea se encuentra que se hace mucho procesamiento a niveles de detalle del data warehouse, entonces se consumirá muchos recursos de máquina. Es mejor hacer el procesamiento a niveles más altos de esquematización como sea posible.

Para muchas tareas, el analista de sistemas de soporte de decisiones usa la información a nivel de detalle en un pre data warehouse. La seguridad de la información de detalle se consigue de muchas maneras, aun cuando estén disponibles otros niveles de esquematización. Una de las actividades del diseñador de datos es el de desconectar al usuario del sistema de soporte de decisiones del uso constante de datos a nivel de detalle más bajo.

El diseñador de datos tiene dos predisposiciones:

Instalar un sistema chargeback, donde el usuario final pague por los recursos consumidos

Señalar el mejor tiempo de respuesta que puede obtenerse cuando se trabaja con la data a un nivel alto de esquematización, a diferencia de un pobre tiempo de respuesta que resulta de trabajar con los datos a un nivel bajo de detalle.

Para ilustrar cómo un data warehouse puede ayudar a una organización a mejorar sus operaciones, se muestra un ejemplo de lo que es el desarrollo de actividades sin tener un data warehouse.

14 | P á g i n a

Page 15: Data Warehouse

GESTIÓN DE BASES DE DATOS

Ejemplo

Preparación de un reporte complejo

Considere un problema bastante típico en una compañía de fabricación grande en el que se pide una información (un reporte) que no está disponible.

15 | P á g i n a

Page 16: Data Warehouse

GESTIÓN DE BASES DE DATOS

El informe incluye las finanzas actuales, el inventario y la condición de personal, acompañado de comparaciones del mes actual con el anterior y el mismo mes del año anterior, con una comparación adicional de los 3 años precedentes. Se debe explicar cada desviación de la tendencia que cae fuera de un rango predefinido.

Sin un data warehouse, el informe es preparado de la manera siguiente:

La información financiera actual se obtiene desde una base de datos mediante un programa de extracción de datos, el inventario actual de otro programa de extracción de otra base de datos, la condición actual de personal de un tercer programa de extracción y la información histórica desde un backup de cinta magnética o CD-ROM.

Lo más interesante es que se ha pedido otro informe que continúe al primer informe (debido a que las preguntas se originaron a partir del anterior). El hecho es, que ninguno de los trabajos realizados hasta aquí (por ejemplo, diversos programas de extracción) se pueden usar para los próximos o para cualquier reporte subsiguiente. Imagine el tiempo y el esfuerzo que se ha desperdiciado por un enfoque anticuado. (Ver Figura N° 13).

Las inconsistencias deben identificarse en cada conjunto de datos extraídos y resolverse, por lo general, manualmente. Cuando se completa todo este procesamiento, el reporte puede ser formateado, impreso, revisado y transmitido.

Nuevamente, el punto importante aquí es que todo el trabajo desempeñado para hacer este informe no afecta a otros reportes que pueden solicitarse es decir, todos ellos son independientes y caros, desde el punto de vista de recursos y productividad.

Al crear un data warehouse y combinar todos los datos requeridos, se obtienen los siguientes beneficios:

Las inconsistencias de los datos se resuelven automáticamente cuando los elementos de datos se cargan en el data warehouse, no manualmente, cada vez que se prepara un reporte.

Los errores que ocurrieron durante el proceso complejo de la preparación del informe, se minimizan porque el proceso es ahora mucho más simple.

Los elementos de datos son fácilmente accesibles para otros usos, no sólo para un reporte particular.

Se crea una sola fuente.

16 | P á g i n a

Page 17: Data Warehouse

GESTIÓN DE BASES DE DATOS

.

CONSIDERACIONES ADICIONALES

Hay algunas consideraciones adicionales que deben tenerse en cuenta al construir y administrar el data warehouse.

La primera consideración es respecto al índice. La información de los niveles de esquematización más altos pueden ser libremente indexados, mientras que las de los niveles más bajos de detalle, por ser tan voluminosa, pueden ser indexados moderadamente.

Por lo mismo, los datos en los niveles más altos de detalle pueden ser reestructurados fácilmente, mientras que el volumen de datos en los niveles más inferiores es tan grande, que los datos no pueden ser fácilmente reestructurados.

17 | P á g i n a

Page 18: Data Warehouse

GESTIÓN DE BASES DE DATOS

Por consiguiente, el modelo de datos y el diseño clásico fundamentan que el data warehouse se aplique casi exclusivamente al nivel actual de detalle. En otras palabras, las actividades de modelamiento de datos no se aplican a los niveles de esquematización, en casi todos los casos.

Otra consideración estructural es la partición de la información en el data warehouse. El nivel de detalle actual es casi siempre particionado.

La partición puede hacerse de dos maneras: al nivel de DBMS y al nivel de la aplicación. En la partición DBMS, se conoce las particiones y se administra por consiguiente. En el caso de la partición de las aplicaciones, sólo los programadores de las mismas conocen las particiones y la responsabilidad de su administración es asignada a ellos.

Al interior de las particiones DBMS, mucho de los trabajos de infraestructura se hacen automáticamente. Pero existe un elevado grado de rigidez asociada con la gestión automática de las particiones. En el caso de las particiones de las aplicaciones del data warehouse, la mayor parte del trabajo recae sobre el programador, pero el resultado final es que la gestión de datos es más flexible.

18 | P á g i n a

Page 19: Data Warehouse

GESTIÓN DE BASES DE DATOS

EJEMPLO DE UN DATA WAREHOUSE

En la Figura N° 14 se muestra un ejemplo hipotético de un data warehouse estructurado para un centro de producción industrial.

19 | P á g i n a

Page 20: Data Warehouse

GESTIÓN DE BASES DE DATOS

Se muestra sólo el detalle actual, no así los niveles de esquematización ni los archivos de detalle más antiguos.

Además, se observa que hay tablas del mismo tipo divididas a través del tiempo. Por ejemplo, para el histórico de la fabricación de las piezas, hay muchas tablas separadas físicamente, representando cada una un trimestre diferente. La estructura de los datos es consistente con la

20 | P á g i n a

Page 21: Data Warehouse

GESTIÓN DE BASES DE DATOS

tabla de la elaboración de las piezas, aunque físicamente hay muchas tablas que lógicamente incluyen el histórico.

Para los diferentes tipos de tablas hay diferentes unidades de tiempo que físicamente dividen las unidades de información. El histórico de fabricación está dividido por trimestres, el histórico de la orden de piezas está dividido por años y el histórico de cliente es un archivo único, no dividido por el tiempo.

Así también, las diferentes tablas son vinculadas por medio de un identificador común, piezas u órdenes de piezas (la representación de la interrelación en el ambiente de depósito toma una forma muy diferente al de otros ambientes, tal como el ambiente operacional).

EXCEPCIONES EN EL DATA WAREHOUSE

Mientras que los componentes del data warehouse trabajan de acuerdo al modelo descrito para casi todos los datos, hay pocas excepciones útiles que necesitan ser discutidas. Una de ellas es la data resumida pública, que es la data que ha sido calculada fuera del data warehouse pero es usada a través de la corporación. La data resumida pública se almacena y administra en el data warehouse, aunque su cálculo se haya hecho fuera de él.

Un ejemplo clásico de data resumida pública es el archivamiento trimestral hecho por cada compañía pública. Los contadores trabajan para producir cantidades como rentas trimestrales, gastos trimestrales, ganancias trimestrales y otros. El trabajo hecho por los contadores está fuera del data warehouse. Sin embargo, esas cantidades referenciales producidas por ellos se usan ampliamente dentro de la corporación para marketing, ventas, etc. Una vez que se haya hecho el archivo, los datos se almacenan en el data warehouse.

Otra excepción no considerada en este documento es la data externa.

Otro excepcional tipo de datos a veces encontrados en un data warehouse es el detalle de los datos permanentes, que resulta de la necesidad de una corporación para almacenar la data a un nivel detallado permanentemente por razones éticas o legales.

Si una corporación expone a sus trabajadores a sustancias peligrosas hay una necesidad de detalle de datos permanente. Si una corporación produce un producto que involucra la seguridad pública, tal como la construcción de las partes de aviones, hay una necesidad de datos permanentes. Si una corporación se compromete con contratos peligrosos, hay una necesidad de detalle de datos permanentes.

21 | P á g i n a

Page 22: Data Warehouse

GESTIÓN DE BASES DE DATOS

La organización simplemente no puede dejar los detalles porque en futuros años, en el caso de una demanda, una notificación, un edificio en disputa, etc., se incrementaría la exposición de la compañía. Por lo tanto hay un único tipo de datos en el data warehouse conocido como detalle de datos permanentes.

El detalle de datos permanentes comparte muchas de las mismas consideraciones como otro data warehouse, excepto que:

El medio donde se almacena la data debe ser tan seguro como sea posible.

Los datos deben permitir ser restaurados.

Los datos necesitan un tratamiento especial en su indexación, ya que de otra manera los datos pueden no ser accesibles aunque se haya almacenado con mucha seguridad.

22 | P á g i n a

Page 23: Data Warehouse

GESTIÓN DE BASES DE DATOS

ConclusionesResumiendo los beneficios de la arquitectura del DWH :

Provee un esquema de organización – cuáles son los componentes que la forman, cómo ellos se interrelacionan, quién es el dueño de cada parte y cuáles son las prioridades.

Mejora la flexibilidad – permite que rápidamente se añadan nuevas fuentes de datos.

Desarrollo rápido y reuso – los desarrolladores de DWH son más capaces de comprender el proceso de DWH , los contenidos de las bases de datos y las reglas del negocio más rápidamente.

Herramientas de comunicaciones – define y comunica la dirección y el alcance de las expectativas , identifica los roles y responsabilidades y comunica los requerimientos al proveedor.

En general, podemos plantear que el Datawarehouse representa una oportunidad para estrechar las relaciones de las empresas con los clientes.

23 | P á g i n a

Page 24: Data Warehouse

GESTIÓN DE BASES DE DATOS

Referencias

http://www.exa.unicen.edu.ar/catedras/dwhouse/ http://www.sqlmax.com/dataw1.asp http://informationmanagement.wordpress.com/2007/06/03/arquitectura-de-un-

datawarehouse/ http://es.wikipedia.org/wiki/Almac%C3%A9n_de_datos#Ventajas http://es.wikipedia.org/wiki/Almac

%C3%A9n_de_datos#Una_definici.C3.B3n_m.C3.A1s_amplia_de_almac.C3.A9n_de_datos http://www.ongei.gob.pe/publica/metodologias/Lib5084/14.HTM http://www.google.com.pe/

#hl=es&q=datawarehouse+estructura&meta=&aq=f&aqi=g1&aql=&oq=&gs_rfai=&fp=b613da276d1a7f

http://egkafati.bligoo.com/content/view/302166/Datawarehouse-y-sus-principales-caracteristicas.html

http://es.wikipedia.org/wiki/Almac%C3%A9n_de_datos http://dmi.uib.es/~bbuades/datawarehouse/datawarehouse.ppt http://www.google.com.pe/search?hl=es&client=firefox-

a&hs=hYj&rlz=1R1GGLL_es___PE370&q=filetype%3Appt+datawarehouse+aplicacion&meta=&aq=f&aqi=&aql=&oq=&gs_rfai=

24 | P á g i n a