mis on big data ja kuidas seda töödelda - ut slaidid... · andmeaidaks“ (adw), mis ei ole enam...

11
Copyright © 2012, SAS Institute Inc. All rights reserved. Mis on BIG DATA ja kuidas seda töödelda Oleg Bogdanov SAS Institute, tehniline konsultant

Upload: others

Post on 24-Jan-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mis on BIG DATA ja kuidas seda töödelda - ut slaidid... · Andmeaidaks“ (ADW), mis ei ole enam täiesti normaliseeritud, kuid on orienteeritud analüütiliste ülesannete lahendamisele

Copyright © 2012, SAS Institute Inc. All rights reserved.

Mis on BIG DATA ja kuidas seda töödelda

Oleg Bogdanov SAS Institute, tehniline konsultant

Page 2: Mis on BIG DATA ja kuidas seda töödelda - ut slaidid... · Andmeaidaks“ (ADW), mis ei ole enam täiesti normaliseeritud, kuid on orienteeritud analüütiliste ülesannete lahendamisele

2

Copyright © 2012, SAS Institute Inc. All rights reserved.

Analüütika väljakutsed sel aastakümnel Andmesalvestuse hinna jätkuv langus

Aastal 2000 1GB maksis keskmiselt $16.06,

1 TB Andmeait oli suht haruldane nähtus

Nüüd maksab GB kettamälu $0.0621 ja TB alla $100

• Teiselt poolt tehnoloogia võimaldab • koguda ülisuuri andmemahtusid, infot objektide käitumisest,

transaktsioonidest, harjumustest, tegevustest. Eilegi mainitud

sotsiaalvõrgustike andmed, astronoomilised andmed

Page 3: Mis on BIG DATA ja kuidas seda töödelda - ut slaidid... · Andmeaidaks“ (ADW), mis ei ole enam täiesti normaliseeritud, kuid on orienteeritud analüütiliste ülesannete lahendamisele

Copyright © 2012, SAS Institute Inc. All rights reserved.

- MAHT (Volume)

- ANDMEFORMAATIDE PALJUSUS (Variety)

- TEKKIMISE JA TÖÖTLUSE KIIRUS (Velocity)

TÄNA TULEVIK

AN

DM

ET

E M

AH

T

OLULISED ANDMED

ÜLEKÜLLASTUNUD ANDMED

(strateegiliste otsuste tegemiseks)

Page 4: Mis on BIG DATA ja kuidas seda töödelda - ut slaidid... · Andmeaidaks“ (ADW), mis ei ole enam täiesti normaliseeritud, kuid on orienteeritud analüütiliste ülesannete lahendamisele

4

Copyright © 2012, SAS Institute Inc. All rights reserved.

“Big Data” – uus lähenemine See kõik eeldab ka analüütikult veidi teistmoodi lähenemist....

- Pigem heuristiline kui algoritmiline, andmetest lähtuv analüüs

- Andmete eelvaatlemise ja eelanalüüsi (data exploration) tähtsus

Vana hea normaliseeritud „Andmeait“ (EDW) peab muutuma „Analüütiliseks Andmeaidaks“ (ADW), mis ei ole enam täiesti normaliseeritud, kuid on orienteeritud analüütiliste ülesannete lahendamisele (mudelid)

„Big Data“ on suured mahud struktureeritud ja struktureerimata andmeid, mille haldamine tavapäraste relatsioonilise andmebaasi- ja andmetöötluse vahenditega on raskendatud, kui mitte võimatu (maht, formaadid, kiirus) .

Page 5: Mis on BIG DATA ja kuidas seda töödelda - ut slaidid... · Andmeaidaks“ (ADW), mis ei ole enam täiesti normaliseeritud, kuid on orienteeritud analüütiliste ülesannete lahendamisele

5

Copyright © 2012, SAS Institute Inc. All rights reserved.

Mis teha ?

Uute riistvaraliste vahendite kasutuselevõtt (kiiremad protsessorid, SSD)

Andmetöötlus jagamine paralleelselt käivitatavateks mooduliteks ja vastavate algoritmide arendamine

Andmed ja töötlemine peavad olema võimalikult lähestikku.

- Siirdada töötlemine andmete juurde

- Tuua andmed mälusse, kus toimub töötlemine

Võimalikud kombinatsioonid ülalmainitutest (palju sõltub sellest, mis kujul andmed on)

Page 6: Mis on BIG DATA ja kuidas seda töödelda - ut slaidid... · Andmeaidaks“ (ADW), mis ei ole enam täiesti normaliseeritud, kuid on orienteeritud analüütiliste ülesannete lahendamisele

6

Copyright © 2012, SAS Institute Inc. All rights reserved.

Kolm tehnoloogiat BIG DATA töötlemiseks

SAS® High-Performance Computing

Page 7: Mis on BIG DATA ja kuidas seda töödelda - ut slaidid... · Andmeaidaks“ (ADW), mis ei ole enam täiesti normaliseeritud, kuid on orienteeritud analüütiliste ülesannete lahendamisele

7

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS Grid tehnoloogia

Grid Node 1

Central File

System

Grid Control Server Grid Node n

Grid Client

SAS® Metadata Server

SAS Program Code

Analyzer

10GB andmetabel, mida oleks vaja töödelda

- 1 core max. kiirusega 75MB/sec arvutab 133 sekundit

- 192 core (52MB/core) ja ikka 75MB/sec = 0.7 sekundit

Page 8: Mis on BIG DATA ja kuidas seda töödelda - ut slaidid... · Andmeaidaks“ (ADW), mis ei ole enam täiesti normaliseeritud, kuid on orienteeritud analüütiliste ülesannete lahendamisele

8

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS In-Database

Database Server

Central File

System

SAS Server

SAS® Metadata Server

SAS Program

Database Tables

Page 9: Mis on BIG DATA ja kuidas seda töödelda - ut slaidid... · Andmeaidaks“ (ADW), mis ei ole enam täiesti normaliseeritud, kuid on orienteeritud analüütiliste ülesannete lahendamisele

9

Copyright © 2012, SAS Institute Inc. All rights reserved.

DB

SAS High-Performance Analytics (Appliance)

SAS High-Performance Analytics Appliance

Appliance Node

Probleem Andmed Enne SAS HPA

Laenutagastuse tõenäosuse skoorimine 1 miljard rida 11-20 tundi 54 sekundit

Müügikampaania vastuste genereerimine kontaktiajaloo

põhjal

100M rida kontaktiajalugu

15M klienti

2,5 kuni 5 tundi 90 sekundit

Page 10: Mis on BIG DATA ja kuidas seda töödelda - ut slaidid... · Andmeaidaks“ (ADW), mis ei ole enam täiesti normaliseeritud, kuid on orienteeritud analüütiliste ülesannete lahendamisele

10

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS LASR Analytics Server technology

Central Entry Point Integration Role-based Views

MOBILE BI DATA PREPARATION EXPLORER DESIGNER

• Native iOS application

that delivers interactive

reports created in the

designer

• Monitor SAS® LASR™

Analytic server

• Load and join data

• Create calculated

columns

• Perform ad-hoc analysis

and data discovery

• Create dashboard style

reports for web

or mobile

SAS® LASR™ ANALYTIC SERVER

Apache HADOOP

Page 11: Mis on BIG DATA ja kuidas seda töödelda - ut slaidid... · Andmeaidaks“ (ADW), mis ei ole enam täiesti normaliseeritud, kuid on orienteeritud analüütiliste ülesannete lahendamisele

Copyright © 2012, SAS Institute Inc. All rights reserved.

Aitäh

[email protected]