análisis dimensional
DESCRIPTION
Análisis dimensional. Aplicaciones del Análisis de Datos: Formular queries Extraer datos aggregados Analizar resultados Visualizar resultados - PowerPoint PPT PresentationTRANSCRIPT
Análisis dimensional
• Aplicaciones del Análisis de Datos:– Formular queries
– Extraer datos aggregados
– Analizar resultados
– Visualizar resultados
• El conjunto de datos se representa como un espacio n-dimensional. La reducción dimensional se ejecuta mediante la sumarización sobre las dimensiones que son dejadas de lado
Ejemplo
• Ventas (storeId,itemId,timeId,…,monto)
• Store(storeId,nombre,region,pais,ciudad)
Sumarizar por region:
SELECT region,sum(monto)
FROM Ventas V, Store S
WHERE V.sotreId=S.storeId
GROUP BY region
Sumarización
• Un problema n-dimensional se representa en un archivo de 2 dimensiones, con n dominions de atributos.
• Ej.:
Clima(tiempo,lat.long,altit,temp, presion)
4 dimensiones, 2 medidas.
Problemas del Group By
• Es complicado para :– Histogramas– Roll-up– Subtotales, drill-dpown– Cross-tabs
Problemas (cont.)
• Histogramas– SELECT day,pais,max(temp)
FROM ( SELECT day(time) as day, nation (lat,long) as pais
FROM clima) as foo
Group by day,pais
Primero debe armar la tabla y luego agrupar.
Roll-up/drill-down
Modelo Año Color Ventas por M,A,C
Ventas por M,A
Ventas por M
M1 1990 N 50
B 60
110
1991 N 60
B 80
140 250
M2 1990 N 100
B 200
300
1991 N 100
B 300
400 700
950
Roll-Up
Solución en SQL
Modelo A~o Color Ventas Ventas x M,A
Ventas x M,C
Ventas x M
M1 1990 N 50 110 110 250
M1 1990 B 60 110 140 250
M1 1991 N 60 140 110 250
M1 1991 B 80 140 140 250
M2 1990 N 100 300 200 700
M2 1990 B 200 300 500 700
Problema
• Aumento de la cantidad de columnas
• P.ej: 6 dimensiones =>64 columnas
• Alternativa: introducir un valor “ALL”. El nro de columnas permanece constante
Data Cube
Modelo Año Color Ventas
M1 1990 N 50
M1 1990 B 60
M1 1990 All 110
M1 1991 N 60
M1 1991 B 80
M1 1991 All 140
M2 1990 N 100
…. ….
Data Cube (cont.)
Modelo Año Color Ventas
M2 1990 B 200
M2 1990 All 300
M2 1991 N 100
M2 1991 B 300
M2 1991 All 400
M2 All All 750
M1 All All 250
All All All 950
Data Cube (cont.)
Modelo Año Color Ventas
M1 All N 110
M1 All B 140
M2 All N 200
M2 All B 500
Operador CUBE en SQL
SELECT “ALL”, “ALL, “ALL”, SUM (ventas)
FROM Sales
UNION
SELECT Modelo, “ALL, “ALL”, SUM (ventas)
FROM Sales
GROUP BY Modelo
UNION
SELECT Modelo, “ALL”,Color, SUM (ventas)
FROM Sales
GROUP BY Modelo,Color
UNION
……