inteligencia de negocio- modelos dimensionales y esquemas estrellas

22
Sistemas de Información UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE CIENCIAS ESCUELA DE COMPUTACION ´ Tema 6: Inteligencia de Negocio. Modelado Multidimensional 1 Prof. Wilfredo Rangel

Upload: wilfredo-rangel

Post on 29-Jun-2015

5.040 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

Sistemas de Información

UNIVERSIDAD CENTRAL DE VENEZUELAFACULTAD DE CIENCIAS

ESCUELA DE COMPUTACION

´

Tema 6: Inteligencia de Negocio. Modelado Multidimensional

1Prof. Wilfredo Rangel

Page 2: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

IntroducciónOrigen y DefiniciónSoluciones Analíticas¿Qué es OLAP?Características de las Soluciones analíticas

Agenda

© 2010, Universidad Central de Venezuela. Sistemas de Información.

2

Características de las Soluciones analíticasModelaje MultidimensionalETLMetodología de desarrollo de soluciones analíticas

Page 3: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

Objetivos de Aprendizaje

Al finalizar este capitulo, usted estará en capacidad de:

• Los conceptos básicos de OLAP

• Entender los aspectos relacionados al desarrollo de

soluciones analíticas basadas en OLAP (Online

© 2010, Universidad Central de Venezuela. Sistemas de Información.

soluciones analíticas basadas en OLAP (Online

Analitycal Processing)

• La arquitectura y módulos de las soluciones analíticas

• emplear metodologías de desarrollo de estándares de

la industria de BI

3

Page 4: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

IntroducciónOrigen y definición¿Qué es OLAP?Características de las Soluciones

Analíticas

© 2010, Universidad Central de Venezuela. Sistemas de Información.

AnalíticasModelaje Multidimensional –

Esquema Estrella

4

Page 5: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

Mejores practicas para el diseño de base de datos paraOLAP

Kimball, Ralph; et al. (1998). The Data Warehouse Lifecycle Toolkit.

Técnica de modelaje NO implementación de base de datos

Modelaje Dimensional

© 2010, Universidad Central de Venezuela. Sistemas de Información.

Técnica de modelaje NO implementación de base de datosTablas de base de datos estándares

Optimizada para agregaciones masivas y dinámicas

Importante en MOLAP; Realmente Importante en ROLAP

5

Page 6: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

En la mayoría de los cursos de BDD:Base de datos relacionales3NF = IDEALClaves, Uniones, Roles, Flexibilidad

OLTP (OnLine TransactionProcessing)

BDdatos para soporte de aplicaciónes

Tercera Forma Normal

© 2010, Universidad Central de Venezuela. Sistemas de Información.

BDdatos para soporte de aplicaciónesMODELO IDEAL PARA:

Muchos usuarios, pequeñospedazos de dataEj: Debito # 1002 $40.00 retiradaen el cajero (ATM) # 33354

MODELO MALO PARA:Pocos Usuarios y grandespedazos de dataSumas, agregación y cálculos

Page 7: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

Esquema Estrella – (MODELO)

FACT

Tabla Fact (Hechos)

Una tabla fact contiene elementos que

se quieren medir. Las Transacciones:

Ingreso (Bs. $)

Cantidad Vendida (unidades)

Precio Promedio

Las Medidas son los valores que se

tratan de reportar: El “Qué”

© 2010, Universidad Central de Venezuela. Sistemas de Información.

7

Tabla Dimensión

Las Dimensiones son las formas como

se quieren ver las medidas. Por ejemplo:

Por cliente

Por fecha

Por producto

Las dimensiones dan contexto, significado

a la información en los reportes

(agrupaciones, etiquetas, filtros, etc.). El

“Por”

Page 8: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

Esquema estrella – QUÉ y POR (REPORTE)

© 2010, Universidad Central de Venezuela. Sistemas de Información.

8

Page 9: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

Usa un “lenguaje” durante el análisis para encontrar medidas y dimensiones

QUE = HECHO (medidas)

QUIEN = DIMENSIONES

Ejemplos:

Quisiera saber cuales son las proporciones de Ventas por mis tipos de

Esquema Estrella – QUÉ y POR (LENGUAJE)

© 2010, Universidad Central de Venezuela. Sistemas de Información.

Quisiera saber cuales son las proporciones de Ventas por mis tipos de

producto y tipos de cliente.

Cual es la proporción de ganancia que proviene de clientes actuales vs

clientes nuevos .

Cual es el perfil de los clientes (perfil = Localidad, Ingreso, y Genero) que

hace el 80% de mi ganancia actual opuesto al 80% de mis ingresos .

9

Page 10: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

¿ Como es el query para obtener las ventas por año, mes y departamento?¿ Cuantos Joins son necesarios para obtener la data que quiero?¿ Estos querys sobrecargan el sistema transaccional? ¿Qué tal OLAP?

3NF vs Esquema Estrella

© 2010, Universidad Central de Venezuela. Sistemas de Información.

10

Page 11: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

Consideremos un ejemplo de una operación de ventas, enla cual el tiempo, producto, región, tienda y cliente son lasdimensiones de la base de datos, y se busca medir latransacción de venta en la tabla fact.

Hechos y Dimensiones

© 2010, Universidad Central de Venezuela. Sistemas de Información.

11

Page 12: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

Jerarquías y nivelesLas jerarquías pueden existir en una dimensión en la cual sirven comonavegaciones predefinidasUna jerarquía esta compuesta de uno o más nivelesUna dimensión puede tener una o más jerarquías

Propiedades

Tabla Dimensión

© 2010, Universidad Central de Venezuela. Sistemas de Información.

PropiedadesCada nivel de dimensión tiene un atributo primario que provee un“identificador único de usuario” para ese nivelAtributos y propiedades adicionales pueden existir para cada nivel queprovee un valor descriptivo

12

Page 13: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

Dimensión Tiempo

Jerarquía del calendarioAño

Trimestre

Jerarquías y niveles – Notación lógica

TABLA “tiempo_dim”( CAL_AÑO / integerCAL_TRIM / integerCAL_MES / integerFIS_AÑO / integerFIS_TRIM / integer

© 2010, Universidad Central de Venezuela. Sistemas de Información.

Mes

Jerarquía FiscalAño Fiscal

Trimestre FiscalMes Fiscal

13

FIS_TRIM / integerFIS_MES / integer )

Es una Tabla planaLas Columnas son estandaresEl significado y metodos deagregación (drill up/down, etc) seimplementan en el servidor OLAP

Page 14: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

Dimensiones Conformadas (Compartidas)

• Son aquellas que son compartidas entre esquemas estrella

• Permite el diseño escalable de bases de datos analíticas

• Permite el análisis y agregación por área entre distintos sujetos

Geografía dim

© 2010, Universidad Central de Venezuela. Sistemas de Información.

14

Empleado dim

Producto dim

Geografía dim

Ventas Fact

Cliente dim

Fecha dim

Inventarios FactAlmacén dim

Page 15: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

Una dimensión degenerada es representada con un soloatributo.Al menos que el tipo de dato sea grande, estasdimensiones son almacenadas como una columna en latabla hecho

Estrategia :

Dimensiones Degeneradas y Combinadas

© 2010, Universidad Central de Venezuela. Sistemas de Información.

Estrategia :Si hay más de una dimensión degenerada

tienen algún grado de relaciónsus cardinalidades son relativamente pequeñas, de forma tal que un productocartesiano no produce muchas filas

Entonces, se puede crear una dimensión combinadaUna columna por atributo/dimensiónUna fila por cada combinación

15

Page 16: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

También llamadas dimensiones basuraAntes de tener muchas columnas de 0 y 1 en la tabla de hechos

Crea una dimensión que sea el producto cartesiano de dos dimensionesdegeneradasLas búsquedas deben hacerse por los atributos

Dimensiones Combinadas

Dimensiones Degeneradas Dimensión Combinada

© 2010, Universidad Central de Venezuela. Sistemas de Información.

16

Dimensiones Degeneradas

Sexo

M / F / I

Tipo de Orden

Nuevo / Retornado

Dimensión Combinada

Dimensión ID / Sexo / Tipo de Orden

1 / M / Nuevo

2 / M / Retornado

3 / F / Nuevo

4 / F / Retornado

5 / I / Nuevo

6 / I / Retornado

Todas las combinaciones

Page 17: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

Dimensión “Tipo 1”:Nueva información sobrescribe la información vieja.La información vieja es perdida, no se guarda.Solo se puede usar en aplicaciones en las cuales mantener un histórico de la data noes esencial; solo se usa para actualizaciones.

Dimensión “Tipo 2”:La información nueva es adjuntada a la información vieja.

Dimensiones que cambian lentamente (SCD)

© 2010, Universidad Central de Venezuela. Sistemas de Información.

La información nueva es adjuntada a la información vieja.La información vieja se guarda y es versionada.Se puede usar en aplicaciones en las cuales mantener un histórico de los datos esrequerido de forma tal que cambios en el data warehouse pueden ser rastreados.

Dimensión “Tipo 3”:La nueva información se guarda junto con la información vieja.La información vieja es guardada parcialmente.Se crean columnas adicionales para mostrar el momento a partir del cual la nuevainformación ha tomado efecto.Habilita una vista de hechos tanto en el estado actual como una vista tentativa delescenario utilizando valores dimensionales viejos.

17

Page 18: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

Los hechos aditivos se agregan a través de todas las dimensionesE.j. Ingreso por ventas

Los hechos semi-aditivos agregan a través de dimensionalidad parcial,

generalmente no agregan en la dimensión tiempoE.j. Artículos a mano

Hechos aditivos vs. semi-aditivos

Pregunta válida: ¿Cuántos ítems habían en el inventario el primero de julio?

© 2010, Universidad Central de Venezuela. Sistemas de Información.

18

Pregunta válida: ¿Cuántos ítems habían en el inventario el primero de julio?Pregunta Inválida: ¿Cuántos ítems habían en el inventario en Julio?

La segunda pregunta no tiene sentido. ¿El usuario quiere la cantidad promedio

por día para julio? ¿La cantidad al comienzo del mes? ¿Al final?

Los hechos semi-aditivos generalmente se miden en un punto del tiempo (como

una foto del estado en un momento determinado).

Los hechos aditivos generalmente se usan para marcar un evento transaccional.

Page 19: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

Modelo SnowFlake

• Modelo estrella es el más puroacercamiento al modeladodimensional– Mejores practicas– Es el más utilizado

• El copo de nieve es un modelomás normalizado

Norm

alization

© 2010, Universidad Central de Venezuela. Sistemas de Información.

más normalizado– Más espacio físico/ Problemas

de performance

19

Norm

alization

Page 20: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

Esquema Estrella vs. Copa de Nieve

Star

Snowflake

© 2010, Universidad Central de Venezuela. Sistemas de Información.

• Todos los niveles dimensionales estáncontenidos en una sola tabla

• Introduce redundancia en los datos• Indexación y consultas simplificadas• Generalmente el método preferido

20

Niveles dimensionales son

normalizados a tablas separadas

Elimina redundancia en los datos

Reutilización simplificada de

dimensiones de alto nivel en agregados

Page 21: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

Ejemplo de Esquema Copa de Nieve

Mfrid Marca Prodid

Producto

Mfr Nombre Mfrid

Mfr

Día Prodid Unid. Bs Pago Clientid

VentasMfr es un diseño en copade nieve

© 2010, Universidad Central de Venezuela. Sistemas de Información.

21

Estado Ciudad ClientidAño Trim Mes Día

TiempoCliente

de nieve

Page 22: Inteligencia de negocio- Modelos Dimensionales y Esquemas Estrellas

Conclusiones

• Hemos realizado un estudio de …..

• Hemos hecho una discusión sobre….

• Se han desarrollado demostraciones de

Conclusiones

© 2010, Universidad Central de Venezuela. Sistemas de Información.

22