soumrak klasických · data vault data mining dw appliance columnar db in-memory db Úsvit hadoopu...

24

Upload: others

Post on 03-Mar-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence
Page 2: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

Soumrak klasických datových skladů

Data Management Workshop 20199/10/2019 Praha

Martin Bém

Page 3: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

Stručně o mě

Data & DW architekt

Příležitostný Data Engineer

V Adastře od roku 2007

12+ let praxe v DW a BI

25+ projektů v ČR a v zahraničí

Zaměření na bankovnictví a

finanční služby

Organizátor meetupu PDM

Data Warehousing

Data ModelingBig

Data

Data Governance

Data Management

Master Data Management

Reference Data

Management

Data

Quality

Operational Data Store

Metadata Driven

DevelopmentCloud

Martin Bém

Senior Consultant

[email protected]

+420 603 505 247https://www.linkedin.com/in/martinbem/

Správa partnerství

Oracle (včetně Oracle Cloud)

Amazon Web Services

Google Cloud

Nejoblíbenější technologie

Oracle Exadata Database Machine

Oracle Autonomous Database

SAP PowerDesigner

Google BigQuery

Amazon S3

Page 4: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

Proč Adastra?

4

APPLICATIONDEVELOPMENT

INFORMATION MANAGEMENT

DIGITALENTERPRISE

CONSULTING ADVANCEDSOLUTIONS

& CLOUD

ARITIFICIALINGTELLIGENCE

MOBILE APPS

BUSINESSCONSULTING

DW&

BIGDATA

BUSINESSINTELLIGENCE SOFTWARE

FACTORY

CREATIVEADVISORY

INTERNETOF THINGS

Data spojují všechno & všechny

Náš cílProstřednictvím chytrých datových řešení přispívat k rozvoji byznysu našich zákazníků.

Adastra se umístila na 9. místě TOP 100 ICT společností v ČR za rok 2018 dle časopisu CIO Business World.

Naše mottoJsme Váš partner pro digitalizaci

Page 5: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

ADASTRA Group

ADASTRA není už dávno jen Data Warehousing

5

Mezinárodní konzultační společnost,která dodává funkční odvětvová řešení

usnadňující přechod do digitální éry.

Vývoj SW pro řízení datové kvality,MDM, reference data management,

Big Data a Data Governance.

Poradenství v oblasti řízení rizik,prodeje a optimalizaci procesů.

IT bodyshopping pro společnostizejména z bankovnictví, telca

a pojišťovnictví včetně Adastry.

Vývoj mobilních aplikací a dodávkymobilních řešení pro velké spektrum

klientů.

Softwarová řešení v oblasti strojovéhoučení a aplikované umělé inteligence.

Kreativní agentura se silnýmtechnologickým know-how.

Řešení pro monetizaci big dat.

Page 6: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

Adastra Group ve světě

6 ADASTRA Group

Prague CZ

Bratislava SK

TorontoMarkhamCalgaryCA

DetroitStamford US

Frankfurt WolfsburgMunich MagdeburgDarmstadt HannoverDE

London UK

Sofia VarnaPlovdiv BG

Moscow RU

Bangkok TH

Sydney AU

2000+Více než 2000 profesionálů

370+370+ projektů ve více než 46 zemí

2121 poboček v 11 zemích

ParisFR

3,5Tržby 3,5 mld. KčV roce 2018

Page 7: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

ADASTRA Czech RepublicReferences7

Banking

Finance

Manufacturing & Retail

Government

Telecoms & Utilities

Několik naších oblíbených referencí

Page 8: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

17533

Source: Data Age 2025 by IDC

Note: Zetta is 21 zeros (000 000 000 000 000 000 000).

The Global Datasphere will grow

from 33 Zettabytes in 2018

to 175 Zettabytes by 2025

Data Boom

Page 9: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

Stručná historie Data Warehousingu a Business Intelligence

Novověk

CloudAutomatizace

Logical Data WarehouseExtended Data Warehouse

Data LakePolyglot Architecture

Kappa LambdaDatabus

Data PipelineReal-time

Big Data ETLOpen Source Analytics

Big Data AnalyticsSelf-service BI & ETL

Data ScienceMachine Learning & AIHadoop bez Hadoopu

Stream AnalyticsData Management PlatformAutonomous TechnologiesCompute & Storage Model

Serverless

Pravěk

Kontrolovaný chaosZrod Best PracticeManualní scripting

Primitivní relační analytika

1985 - 1995

Antika

Titani: Kimball vs. InmonDospívání Best practices

Enterprise Data WarehouseETL

OLAPReference Data Management

Klasická relační analytika

1995 – 2005 2005 - 2015

Středověk

Klasický Data WarehouseEvoluce Hub-and-Spoke

Data GovernanceMaster Data Management

Metadata-Driven DevelopmentELT

Data VaultData Mining

DW ApplianceColumnar DB

In-memory DBÚsvit Hadoopu

Analytika nestrukturovaných dat

2015 - 2025

Future?

2025 - ∞

Page 10: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

Business Intelligence

Data Warehouse

Data Source

Data Acquistion

Data Integration

ETL

Data Staging

Data Repository

Data Core&

Data Marts

Reporting & Other Data

UsageAnalytics

Data Source

Jak vypadá klasický datový sklad (DW)?

Klíčová datová platforma posledních desetiletí

Datový systém používaný pro reporting a datové analýzy. Klíčová komponenta Business Intelligence. Integruje data z jednoho nebo více zdrojů

Velké množina dat, kterou společnost ukládá s spravuje pro podporu rozhodování

Starý ale velmi vyspělý koncept v nových podmínkách

Základní vlastnosti Database (typicky RDBMS) Subject Orientation Data Integration Historie Stabilní struktura

Dávkové zpracování Významné zpoždění mezi vznikem dat a

jejich dostupností pro analytiku

DW, DWH, MIS, ADS, ADW, EDW, DP

Page 11: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

Data Staging

Area

Ralph KimballData Warehouse Bus (DW)Bottom-Up

Conformed Data Marts(Kimball’s Data Warehouse)

ConformedDimensions

Business Transformation

Základní varianty klasického DW (HUB-AND-SPOKE)

Data Sources

Data Marts

RDBMS

RDBMS

Reporting

Data Apps

Bill InmonEnterprise Data Warehouse (EDW)Top-Down

Dan LinstedtData Vault (DV)Top-Down

Technical Transformation

Technical Transformation

Technical Transformation

BusinessTransformation

BusinessTransformation

Data Sources

Data Sources

Data Marts

Data Staging

Area

Data Staging

Area

Data Warehouse

Data Vault

Business Vault

BusinessTransformation

RDBMS

RDBMS

Reporting

Data Apps

RDBMS

RDBMS

Reporting

Data Apps

Data Marts

Page 12: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

Adastra IM Reference Architecture 2005

Business Intelligence

Data SourcesERP CRM External Systems Internal Systems

AnalyticsReporting OLAP Data Mining

Data Integration

ETL EAI

IndustryKnow-How

DatabaseData Warehouse Data Mart Operational Data Store Staging Area

End User AccessIntranet EIS & Monitoring Analytics Tools Others

Management

Technical Expertise

Data Quality

Metadata

Analytics Department

Customer Care

Others

Page 13: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

Proč klasický datový sklad nestačí?

Důvěryhodná data (klidně i raw data)

Rostoucí tržby a zisk

Kvalitnější Customer Experience

Lepší produkty a služby

Pohled 360 stupňů na business aktivity

Digitální transformace

Agilita

Automatizace

Rychlejší reakce na nové obchodní výzvy

Rozhodování v reálném čase řízené daty

Kvalitní a rychlá predikce blízké budoucnosti

Chytřejší a inteligentnější business

Monitorování externího prostředí

Přílišný důraz na dokonalost (single version of truth)

Pouze strukturovaná statická data

Dávkové zpracování a vysoká datová latence

Utavení rostoucím objemem dat

Poptávka Businessu překračuje kapacitu i rozpočet IT

Neúplná datová základna (pouze strukturovaná data)

Rostoucí provozní režie

Chybí real-time pohled na data

Nelze snadno škálovat

Omezená pokročilá analytika

Vysoké TCO často spojené s vendor lock-in

Zastaralá governance and security

Malý důraz na self-service

Obvykle nekompatibilní s DataOps

Relační datové zdroje místo datových objektů

Technologie včerejška řeší problémy dneška

Potřeby Businessu Problémy klasického datového skladu

VS.

Page 14: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

Data Landscape

DeepData

FastData

Big Data

DataWarehousing

Dark DataCore Backends

Social Networks

Web Data

External Data

Sensors Communication

Master Data

Data Analytics

Devices

Reporting

Business Intelligence

Data Discovery

Data Science

Machine Learning

Segmentation

Network Analytics

Documents

Voice

Geo DataPredictive Analytics

Graph

Log

Semi-structured

Voice

Data Visualization

Biometrics

Biometrics

Real-timeVision

Stream Processing

Sensor Processing

Image

AutomatedDecisions

Events

Star Schema

Mined Data

Messages

MessagesCold Data

Operational Data

DW Archive

Snowflake Schema

Unused Data

OLAP

Enterprise Core Data

Planning

Recommendations

Page 15: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

Nahradí klasický datový sklad třeba Data Lake?

„If you think of a datamart as a store ofbottled water – cleansed and packaged andstructured for easy consumption – the datalake is a large body of water in a more naturalstate. The contents of the data lake stream infrom a source to fill the lake, and varioususers of the lake can come to examine, divein, or take samples.“

Link

James Dixon, CTO, Pentaho, 14. 10. 2010

Rychle a snadno postavitelný

Lze zpřístupnit všechna data

Velmi náročný v dlouhodobém horizontu

Může se změnit v datovou bažinu

Koncept datové technologie, nikoliv konkrétní technologie

Masivní snadno dostupné datové uložiště postavené na Big Data technologiích

Ukládání všech dat v původní formě pro pozdější další využití

Snadná a rychlá dostupnost pro všechny

„Brute force“ eliminace datových sil

Velmi kontroverzní téma i poli Big Dat

Vyžaduje velmi kvalifikované uživatele

Page 16: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

Sklad vs. Lake: Různé technologie ale stejný výsledek

Page 17: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

DWH vs. Data Lake vs. Moderní datové platformy

17

Traditional Data Warehouse (DW) Data Lake (DL) Extended Data Warehouse (XDW) / Lambda / Kappa

Data Structured Structured & Semi-Structured & Unstructured

Structured & Semi-Structured & Unstructured

Data Processing Processed Raw Processed & Raw

Data Streaming Data At-rest Data At-rest Data At-rest & Data In-motion

Data Schema Schema-on-write Schema-on-read Schema-on-write & Schema-on-read

Data Model Relational Object-based Relational & Object-based

Data History Hierarchically archived No hierarchy Hierarchically archived & No hierarchy

Agility Fixed configuration Reconfigured anytime as needed Fixed configurationReconfigured anytime as needed

Security Mature Maturing Mature

Primary Users Data analysists &Business professionals

Data Scientists Data analysists & Business professionals &Data scientists

Technology RDBMS NoSQL DBMSHadoopOther distributed storages

RDBMSNoSQL DBMSHadoopOther distributed storages

Agility Low High Medium

Added Value Medium Medium High

Cost High Low, but later high Medium

Page 18: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

Tajná přísada: Data Governance

ConceptsVision & Mission & Strategy

Guiding Principles

Organization & Roles

Business Rules

Activities

Scope

Benefits & Goals

ComponentsData Architecture

Data Quality

Data Integration

Operations

Security

RDM & MDM

Metadata

Data Platform & BI

ToolsCASE

Enteprise Metadata Repository

Data Quality Tools

QA Framework

Workflow & Orchestration

IDE

Audit Log

Resource Management

RDBMS

NoSQL

Hadoop

Integration tools

Monitoring

Source Code Repository

Testing Tools

Others

Why What How

Data Governance is a collection of practices and processes which help to ensure the formal management of data assets within an organization.

Page 19: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

Moderní datová platforma musí umět hodně věcí

Data Ingest

{}

Data Integration

Data Management

ArchitectureData

ModelDatabase

Data Repository

DeploymentData

Usage

E-R ModelHub & Spoke

Kappa / Databus

Graph Data Model

Key Management

Data Discovery

Data Science

On-premise

Cloud

Hybrid Cloud

Multi-Cloud

Data Warehouse

Data Mart

Sandbox

Business Intelligence

Reporting

Machine Learning

Data Lake

RDBMS

In-memory

Document Store

Multidimensional DB

Graph DBMS

Columnar DBMS

Object Store

NoSQL

Multidimensional Model

Data Archive

Time Variance

Data Latency

Audit

Date Tiering

Data Retention

Data SecurityAutomation

Orchestration

Aggregation

Reconciliation

ETL

Cleansing

Standardization

Data Loading

Data Replication

Change Data Capture

Manual Inputs

Stream Processing

Legacy

Lambda

OperationalData Store

Snowflake Schema

Big Data Fabric

Star Schema Metadata

ReferenceData Management

Data Catalog

Data Governance

Data QueringData Literacy

Master Data Management

TCO Management

Governance

Polyglot

Key-Value

Column Family

Data API

File RepositoryDistributedFile System

Data Pipelines

Master Data Repository

ANY DATAANY LATENCYANY FORMATANY HISTORYANY GRANULARITYANY CONSOLIDATIONANY ANALYTICSANYWHEREANYTIME

Page 20: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

EV

OLU

CE

Evoluce datové architektury

Hub-and-SpokeData Warehouse

Data Integration

Data AcquistionData

Sources

Data Warehouse

RDBMS

RDBMS

Reporting

Data Apps

Data Marts

Analytics

QueryEngine

PolyglotData FederationData VirtualizationLogical Data Warehouse

Data Warehouse RDBMSReporting

RDBMS

Data Apps

Data Marts Analytics

Data Integration

Data Acquistion

Data Sources

KappaDatabus

Data Sources

Data Ingest

MessagingCDC

Bulk CopyFiles

Data Extractor

Serving Layer

Data LakeRESTSQL

Pub/SubData Integration

Data Warehouse RDBMSReporting

RDBMS

Data Apps

Data Marts

Analytics

Speed LayerPipeline Manager

Lambda

Speed Layer

Pipeline Manager

Batch Layer

Object Storage

Data Sources

Data Ingest

MessagingCDC

Bulk CopyFiles

Data Extractor

Serving Layer

Data LakeRESTSQL

Pub/SubData Integration

Data Warehouse RDBMSReporting

RDBMS

Data Apps

Data Marts

Analytics

Page 21: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

Adastra IM Reference Architecture 2019

Enrichment & Consolidation & Event Processing

MDM DQ Reference Data Management Complex Event Proccesing Message Requeueing Data Management

Platform

Data Acquistion & Data Ingest

Speed Processing Batch Processing Change Data Capture Direct Data Extractor Bulk Copy Publisher/Subscriber

Data SourcesRelational Data Semi-Structured Data Unstructured Data Streams Events Signals User Files

Analytics

Statistics OLAP Advanced Analytics Artificial Intelligence Machine Learning Stream Analytics Geospatial Analytics

Data Integration

ETL ELT Big Data ELT Data API Microservices Self-service ETL Real-time Integration

Governance

Data Model

Data Strategy

Data Delivery

Architecture

Methodology

Standards

Metadata Management

Data Catalogue

Data Lineage

Business Glossary

Documentation

InformationLifecycle

Testing Strategy

BICC

Data Store

Data Warehouse Data Mart Data Lake ODS NoSQL Sandbox Event Hub Big Data Platform In-memory Columnar

Data Access

Data Connector Query Engine Data API Web GUI Application Integration Mobile Applications Indexing & Search

Business Intelligence

Reports Ad-hoc Query Dashboard Data Visualization Data Discovery Self-Service BI Mobile BI Data Science GUI

Business Users & Applications Development &

Operations

Monitoring

Alerts &Notification

Scheduling

Workflow

Security

ResourceManagement

ReleaseManagement

High Availbility

Backup & Restore

Data Purge

Automation

Metadata DrivenDevelopment

Page 22: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

Kl

Shrnutí soumraku klasických datových skladů

Minulost (Data Warehouse zombie)

Konsolidovaná relační data at-rest

Dávkové zpracování, vysoká latence dat

Nezvládá opravdu velké objemy dat

Omezení možnosti analytiky / Nízká agilita

Obvykle On-premise / Komerční software

Budoucnost (datový sklad jen jedna z komponent)

Libovolná data at-rest & data in-motion (raw & konsolidace)

Různé frekvence zpracování dle potřeby včetně real-time

Škálovatelnost / Kontejnerizace / Oddělené Computing a Storage

Pokročilá analytika / DataOps / Self-service / Vysoká agilita

Cloud / Serverless / Komerční software + Open Source

Klasický datový sklad (Hub-and-Spoke) Extended Data Warehouse / Lambda / Kappa

REST IN

PEACE

Page 23: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

Nemáte občas z Vašeho klasického datové skladu stejný pocit?☺

23

Page 24: Soumrak klasických · Data Vault Data Mining DW Appliance Columnar DB In-memory DB Úsvit Hadoopu Analytika nestrukturovaných dat 2015 - 25 Future? 2025 - ∞ Business Intelligence

Kontakty

Martin Bém

[email protected]

+420 603 505 247

Adastra Czech RepublicKarolinská 654/2186 00 Praha [email protected]

24

https://www.linkedin.com/in/martinbem/