Élet az sql után: az adatfeldolgozás legújabb trendjei

39
Élet az SQL-en túl: Az adatfeldolgozás legújabb trendjei Földi Tamás [email protected]

Upload: starschema

Post on 19-Jan-2015

1.378 views

Category:

Documents


5 download

DESCRIPTION

Keynote presentation at Hungarian Data Warehouse Forum 2010 by Földi Tamás (Starschema Ltd.)

TRANSCRIPT

Page 1: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Élet az SQL-en túl:Az adatfeldolgozás legújabb

trendjeiFöldi Tamás – [email protected]

Page 2: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

www.starschema.net

IBM KutatóközpontSan Jose, California, 1970

Page 3: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

www.starschema.net

Page 4: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

www.starschema.net

Page 5: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

www.starschema.net

Page 6: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Negyven évvel

később…

www.starschema.net

Page 7: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

www.starschema.net

Gartner Report

Elsősorban relációs

adatbázisok

Tranzakciókezelés

(ACID)

Erős adatbázis

szerverek (SMP)

Megjelenik a Masszív

Párhuzamos

feldolgozás

Adattárházakban használt adatbázis-kezelők

mágikus kvadránsai, Gartner 2010

Page 8: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Legforgalmasabb weboldalak

Weboldal Terhelés

Google Adat előfeldolgozás: 20 Petabájt / nap

Facebook Inbox: 100 TB, 150 gépes klaszter

Adattárház: 15 Petabyte adat, 1400 gép, 11200 CPU

Youtube Napi 30 milliárd lekérés, 350ezer oldal/másodperc

Microsoft Live, Bing Havonta 50 millió egyedi látogató

Yahoo! 92 Petabyte adat, a legnagyobb lekérdezés 10ezer

gépen fut párhuzamosan 73 óráig

Twitter Adatbázis növekedés 7TB naponta, 2+ PB évente

Wikipedia

BBC

Myspace Napi 11 milliárd oldalletöltés

Amazon

www.starschema.net

Page 9: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Legforgalmasabb weboldalak

www.starschema.net

Weboldal Főbb adatbázismotor Adatbázis típusa

Google GFS, Google BigTable Columnar NoSQL

Facebook Cassandra, Hadoop/HIVE Columnar NoSQL

Youtube MySQL RDBMS

Microsoft Live,

Bing

Azure Tuple store, RDBMS

Yahoo! Hadoop, PNUTS Columnar NoSQL

Twitter FlockDB, Cassandra,

Hadoop/Hbase

Graph, Columnar NoSQL

Wikipedia Flatfile, MySQL Flat file, RDBMS

BBC CouchDB Document

Myspace Aster Data nCluster MPP RDBMS + MapReduce

Amazon Amazon Dynamo Columnar NoSQL

Page 10: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

www.starschema.net

Page 11: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

= Not only SQL

Mi a NoSQL?

www.starschema.net

“Choosing the right tool for the job”

Werner Vogels, Amazon CTO

Page 12: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Új trendek

www.starschema.net

Page 13: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Miért NoSQL?

Web és adattárház alkalmazásoknak más

igényeik vannak

Alacsony és kiszámítható válaszidők

Skálázhatóság és dinamikus bővíthetőség

Hibatűrés

Rugalmasság

Illetve nem feltétlenül szükséges

Tranzakciókezelés, erős konzisztencia

Horizontálisan kiválóan skálázhatóak

www.starschema.net

Page 14: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

RDBMS vs. NoSQL

RDBMS-ek:

Konzisztens

Hibatűrő

Új szereplők:

www.starschema.net

Hibatűrő, széttagolható

Nem teljesen konzisztensek

Más megkötések a teljesítmény és

skálázhatóság érdekében

Page 15: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Múlt és jelen

www.starschema.net

Page 16: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

A jövő pedig

www.starschema.net

Page 17: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Tárolási trendek

„Shared Nothing”

Minden szerver saját diszkjeit használja

Horizontálisan skálázható architektúra

Tároló és az adatbázis kezelő összeolvad

A tároló tudja, mit tárolnak rajta

Tartalom alapú replikáció és párhuzamos

olvasás

Kiváltja a RAID funkcionalitását

Olcsó PC a drága SAN helyett

www.starschema.net

Page 18: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

SAS és a Masszív Parallel jövő

A SAS új technológiájának köszönhetően 18

óráról két és fél percre csökkentette egy

marketing-adatbázis feldolgozási idejét

196 szerver, 1664 CPU mag

„Shared-nothing” alapú memóriahasználat

Több terabájtnyi memória

A legtöbb szállító MPP architektúrát fejleszt

Page 19: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Jelenlegi trendek

www.starschema.net

Page 20: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Map-Reduce

www.starschema.net

Page 21: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

MapReduce

A Google által kifejlesztett elosztott

adatfeldolgozási eljárás, amely két

részből áll:

MAP: A feladatot elemi szintre bontja,

szétszórja a hálózatban, majd elemi

szinten kiszámolja

REDUCE: A részeredményeket begyűjti a

hálózatról, majd összesíti

Page 22: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Példa MapReduce 1.

Feladat

Új tarifacsomag tesztelése kiválasztott

telefonszámok korábbi hívásadatain

„Map”

Kiválasztja hívásrekordokat telefonszám és

időintervallum alapján, majd telefonszám

szinten elkészíti a számlaösszegeket

„Reduce”

Összegzi a telefonszám alapú eredményeket

www.starschema.net

Page 23: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Példa MapReduce 2.

www.starschema.net

Telefonszám

7-9-ig

Telefonszám

4-6-ig

Telefonszám

0-3-ig

Teljes hívásrekord

adatbázis

telefonszám alapján

szétosztva a tárolók

között

Page 24: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

REDUCEMAP

részfeladatok

Példa MapReduce 2.

www.starschema.net

Telefonszám

7-9-ig

Kiválasztott

telefonszámokTelefonszám

4-6-ig

Telefonszám

0-3-ig

Eredmények

Új

számlázási

adatok

Page 25: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

MapReduce

A „mit?” helyett a „hogyan?”

Független, elosztott végrehajtás

A feladatokat az adatbázis-kezelő felszeleteli,

és a szeleteket ott futtatja le, ahol a releváns

adat található

Tervezhető futási idő és erőforrások

Felhőképes koncepció

www.starschema.net

Page 26: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

MapReduce támogatás

www.starschema.net

Bejelentés dátuma Adatbázis szállító

2008. Augusztus Aster Data Systems

2008. Augusztus Greenplum

2009. Július Microsoft (Azure)

2009. Augusztus Vertica

2009. Szeptember Teradata

2009. Október Oracle

2009. December Sybase

Page 27: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

www.starschema.net

Page 28: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Myspace Adattárház

Ügyfél: Myspace

120 millió aktív felhasználó

Többszáz terabájtos DW

2-3 TB/nap új adat

Riport és elemzési igények

Megoldás: Aster Data

Aster Data nCluster MPP adatbázis-szerver

MapReduce alapú ETL

BI és Ad-hoc elemzések közvetlenül az adattárházból

www.starschema.net

Page 29: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Hadoop

Page 30: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Mi a Hadoop?

“Bővíthető és hibatűrő

megoldás nagy mennyiségű, elosztott

számítási és adatfeldolgozási feladat

elvégzéséhez hétköznapi

PC-kből álló hálózaton”

Nyílt forráskód + Olcsó hardver = IT

költségcsökkentés

www.starschema.net

Page 31: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Hol használják?

AOL

Facebook

Fox Interactive Media

IBM

ImageShack

Joost

Last.fm

LinkedIn

Meebo

Microsoft

The New York Times

Rackspace

Twitter

www.starschema.net

Page 32: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Hadoop Ecosystem

www.starschema.net

Page 33: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Hadoop HIVE

Hadoop DWH megoldása

MapReduce feldolgozás

HDFS tárolás

Hive Query Language

Alap SQL utasítások

Nagyteljesítményű

adattárház, BI illesztéssel

www.starschema.net

Page 34: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Yahoo-Hadoop Story

Yahoo Search! optimalizálás

1 trilliárd link feldolgozása (1 000 000 000 000

000 000 000, billiószor milliárd)

15 Petabájt kapacitás

10.000 magos klaszter

Eredmények:

Hadoop használatával 66%-os teljesítmény

növekedés az előző célszoftverhez képest

Egy hétről három napra csökkent a futásidő

Page 35: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Összefoglalás

www.starschema.net

Page 36: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Hazai helyzet

Jelenleg nem tudunk sem éles, sem pilot

adattárházas felhasználásról

Több cég foglalkozik a technológia

tesztelésével, elemzésével

Komoly befektetések nélkül könnyen

kipróbálható, tesztelhető

www.starschema.net

Page 37: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Összefoglalás

NoSQL létezik és erősödik a használata

Különösen a skálázhatósági igények felső

végén

Ingyenes szoftverek és olcsó hardverigény

Konvergencia: nagy terjesztők is

felkarolják

Fejlődés viszont nem áll meg

A jövő kérdéses, de izgalmas!

Page 38: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Földi Tamás – [email protected]

Köszönjük a figyelmet!

Page 39: Élet az SQL után: Az adatfeldolgozás legújabb trendjei

Felhasznált képek / Used pictures

Dia / Slide no. Forrás / Source

3-5, 12 Tim Anglade – NoSQL for Fun and Profit (presentation)

7 Gartner - Magic Quadrant for Data Warehouse

Database Management Systems (white paper)

15,16 Jason Davies - Non-relational databases and world

domination (presentation)

19,32,33 Philippe Julio – Hadoop Architecture (presentation)

28 Aster Data - MySpace.com Scales

Analytics for All of Its Friends (white paper)

www.starschema.net