big data áttekintés - sztaki · ig data definíciók • adatok 3 (vagy 4, 5) v-je: o volume...

68
Big data áttekintés Sidló Csaba MTA Számítástechnikai és Automatizálási Kutatóintézet Üzleti Intelligencia és Adattárházak Csoport Big Data Üzleti Intelligencia Csoport [email protected] http://dms.sztaki.hu http://bigdatabi.sztaki.hu 2014. október 30.

Upload: others

Post on 19-Feb-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Big data áttekintés

Sidló Csaba

MTA Számítástechnikai és Automatizálási Kutatóintézet

Üzleti Intelligencia és Adattárházak Csoport Big Data Üzleti Intelligencia Csoport

[email protected]

http://dms.sztaki.hu

http://bigdatabi.sztaki.hu

2014. október 30.

Page 2: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

MTA SZTAKI Informatika Kutatólabor teljes innovációs lánc, kutatástól alkalmazásokig

o adatbányászat, gépi tanulás, keresőtechnológiák, üzleti intelligencia, adattárházak, szociális hálózatok, bioinformatika

o „Big Data”: • Web, közösségi média elemzés és keresés

• smart city, mobilitás

• szenzoradatok (pl. szélerőmű), log-adatok

• dedikált csoportok: „Lendület – Big Data”, „Big Data Üzleti Intelligencia” (partner: SZTAKI EMI)

Longneck data integration

Page 3: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Tartalom

• definíció

• megoldások, szállítók

• trendek, kutatási témák

• alkalmazás példák

• néhány kiemelt big data téma o számítási modellek, pl. Hadoop

o osztott rendszerek problémái

Page 5: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Big Data

Big Data

Page 6: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Big Data definíciók • adatok 3 (vagy 4, 5) V-je:

o volume (mennyiség – sok),

• pl. a 12-es farm 42. szélerőművének generátora el fog romlani, karbantartást igényel!

o velocity (sebesség – gyorsan jön és megy),

• pl. az ügyfél vonalban van, ki ő, mi a története?

o variety (változatosság – sokféle forrás, típus)

• pl. milyen népszerű a héten a termékünk közösségi hálókon?

o veracity (megbízhatóság – változó adatminőség), value (érték – feldolgozással értéknövekedés), variability (változékonyság – változó tartalom)

• “big data is data that becomes large enough that it cannot be processed using conventional methods”

• elsődleges alkalmazók: analitika, üzleti intelligencia

volume

velocity variety

big data

Page 7: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Wired magazin, 2013:

• 2012-ben 2.8 ZettaByte információ keletkezett (vagy duplikálódott) (giga tera peta exa zetta)

• sok százezer PetaByte méretű adatbázis

forrás:

http://www.wired.com/magazine/2013/04/bigdata/

business email each year

Google index

Facebook upload each year

Youtube upload each year

Volume: mennyi?

Page 8: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Big data megoldások

• hagyományostól eltérő, jól skálázódó rendszerek: o több / gyorsabb / változatosabb adat jól megoldható marad a

feladat, tervezhetően több számítási erőforrással

• régi módszerek, új megoldások: o oszd meg és uralkodj: párhuzamosítás, sok gép, elosztott rendszerek

o áttérés új architektúrákra: • in-memory, SSD

• GPU

• SQL, NoSQL, NewSQL példa: új technológiák és hype

Petabytes

Page 9: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

„Numbers Everyone Should Know”

- a megoldások korlátai

RAM • L1 cache reference 0.5 ns • L2 cache reference 7 ns • Main memory reference 100 ns • Read 1 MB sequentially from memory 250,000

ns

Intra-process communication • Mutex lock / unlock 100 ns • Read 1 MB sequentially from network

10,000,000 ns

Disk • Disk seek 10,000,000 ns • Read 1 MB sequentially from disk 30,000,000 ns

forrás: Jeff Dean, Google

Disk • 10+TB

RAM • 100+ GB

CPU • L2 1+ MB • L1 10+ KB

GPU onboard

memory • Global 4-8 GB • Block shared 10+ KB

Page 10: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Big data piac • kapcsolódó hardware, software és szolgáltatások bevételei 2012-ben: 11.4 milliárd

USD

• növekvő befektetések: pl. Google, Facebook, Amazon, kormányzat

• IBM, Oracle, Microsoft, SAP, EMC, HP, … felvásárolnak

forrás:

http://wikibon.org/wiki/v/Big_

Data_Vendor_Revenue_and

_Market_Forecast_2012-2017

Page 12: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation

Page 13: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation

• rétegek: adatelérés, analitika, alkalmazások • sok szereplő, erős verseny

• SQL vs. NoSQL vs. NewSQL • kötegelt vs. streaming (real time)

feldolgozás • …

• szolgáltatások, eszközök, eszköz-kombinációk, full stack-ek, SaS, open source stb.

• feladathoz megfelelő kombináció

Page 14: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Big data rétegek

Fast Data

Big Analytics

Big Data Services

forrás: The

Emerging Big

Data slide from

the Intelligent

Information

Management

DG INFSO/E2

Objective, ICT-

2011.4.4 Info

day

Page 15: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

SQL, NoSQL eszközkombinációk

• ábra: alkalmazók, eszközök, szolgáltatók; teljesség igénye nélküli gyűjtés!

• „polyglot persistence”

• hagyományos alkalmazások?

o főleg Web 2.0 alkalmazók és fejlesztők!

o ld. „hype cycle”, „crossing the chasm”

• Mo.?

• nagy szereplők:

o saját eszközkészlet

Page 16: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Big data trendek – szubjektív válogatás

• innovációs görbe:

o early adopters / post-innovators: Web 2.0 (pl. Google, Facebook, Twitter, LinkedIn)

o early majority (pl. pénzügyi szolgáltatók, gyógyszergyártók, kiskereskedelem stb.)

• pezsgés: meetup-ok, konferenciák (tudományos is)

• real time, streaming (adatfolyam) feldolgozás: hatalmas igény

• flash memória, SSD vs. hagyományos tároló-tömbök

• in memory feldolgozás

o pl. SAP Hana és Oracle Exadata X3 (vs. Hadoop)

• statisztika + informatika + üzlet „data science” (“the sexiest job in the 21st century”, Harward Business Review)

kép:http://en.wikipedia.org/wiki/Diffusion_of_innovations

Page 17: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Big data kutatás

• első nagyobb big data konferencia: IEEE BigData 2013

• hangsúlyos téma egyéb nagy konferenciákon, pl. VLDB, SIGMOD

• irányvonalak: o alapok

• elméleti modellek, szabványok, …

o infrastruktúra

• cloud, stream, osztott feldolgozás, open platformok, NoSQL, …

o adatkezelés

• adatintegráció, adattisztítás, crowdsourcing, adatbáziskezelés, …

o keresés és adatbányászat

o biztonság és adatvédelem

o alkalmazások

forrás: http://www.ischool.drexel.edu/bigdata/bigdata2013/

Page 18: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Néhány kiemelt kutatási téma

• új elméleti és számítási modellek:

o MapReduce, BSP, Storm topológiák – mi a következő? mi jön a Hadoop / MapReduce után?

o egyszerűség, gyorsaság vs. komplex műveletek

• pl. relációs SQL vs. NoSQL key-value stores

o cluster, cloud, grid – különböző környezetek hogyan támogassák a big data problémák megoldását?

• keresés és adatbányászat

o nagyléptékű gráf adat feldolgozás és analitika

o valósidejű adatbányászat, jól skálázódó gépi tanulás, ajánlórendszerek

Page 19: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Néhány kiemelt kutatási téma 2.

• big data vizualizáció

• benchmarking

• skálázható adat-management felhőkön

o storage rendszerek: adat lokalitás elrejtése

o pl. több adat center lokális számításokkal Amazon S3-on

Page 20: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Új üzleti intelligencia módszertanok

• data science o matematika, statisztika, informatika, hacker atitűd, tudományos

megközelítés, iparági ismeretek

o “the sexiest job in the 21st century” (Harward Business Review): keresett, drága szakemberek

• agile data, agilie BI o agilis fejlesztési elvek üzleti intelligencia célokra

o agile data science – hagyományos alkalmazások ?

• önkiszolgáló analitika o könnyen kezelhető eszközök a teljes folyamatra, adateléréstől

vizualizációig

o támogassuk és hagyjuk kibontakozni az elemzőket és azokat, ahol az információigény jelentkezik

• adatvezéreltség

Page 21: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Adatbányászat és big data adatbányászat: hasznos (meglepő?) tudás kinyerése nagy adattömegből; • eszközök:

o algoritmusok (nagy méret) o adatbázisok (elrendezés, hozzáférés) o Mesterséges Intelligencia és Gépi Tanulás (modellek) o Statisztika (hipotézisvizsgálat)

big data adatbányászat: minden még nagyobb; • eszközök:

o algoritmusok (elosztott, MapReduce, Cloud) o adatbázisok (elosztott, NoSQL) o okostelefonok, közösségi média (Facebook, Twitter, …) o Mesterséges Intelligencia és Gépi Tanulás – ajánló rendszerek, hálózatok o Statisztika

• adat „más célból” gyűlik • gyakran nincs mintavételezés • adatgazdagítás helyett a hiányzó adatokat átugró módszerek

Page 22: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Emberi genom

• dekódolás / szekvenálás o 725 MB adat kb.

o 1990: 10-15 év, $3 milliárd

o most: EC2, MapReduce, $100; egész folyamat: <$1000

o 40-node, 320-core: < 3 óra, 10-node: 1 nap

Page 23: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

CERN • CERN Wigner adatközpont:

1 PB/sec 2x100GB 100-200e gép, 70 PB

Page 24: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Web

• web 2.0 cégek: úttörők o Google: 1PB rendezése 33 percben (2011.07.)

• miért nincs Európában F1 adatbázisuk? Kevés az áram!

o Facebook: 30+ PB felhasználói adat (2012.06.), 180 PB/év adattárházban (2013 .02.)

o Twitter

o Amazon • kiskereskedelemből kinőve felhő szolgáltatások, megvehetjük az

infrastruktúráját

o …

• web keresés, látogatottság elemzés, ajánlások, hirdetések, trend elemzés

Page 25: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Saját web feladat példák

• Hanzo Archives (UK):

o Amazon EC2 cloud + S3

• Internet Memory Foundation:

o low-end szerverekkel PB-ok feldolgozása

• SZTAKI Web adat, pl. http://kopi.sztaki.hu plágiumkereső

• saját kódok – open source eszközök még nem elég kiforrottak

• 50 régi szerver (mostani desktopoknál gyengébbek): 1 hét 3TB tömörített adathoz

• hardware kb. $15,000; Amazon ár kb. $1000 lenne

• Web osztályozás: spam oldalak; verseny: ClueWeb, 25TB, 0.5 milliárd oldal – kis rész

Page 26: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Gráfvizualizáció

• YAGO entitások

• kapcsolatok

Page 27: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Példa: „Steve Jobs” szófelhője

http://info.ilab.sztaki.hu/vwo/2/1

Page 28: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Példa: „Steve Jobs” szófelhője

http://info.ilab.sztaki.hu/vwo/2/1

Page 29: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Példa: „Steve Jobs” szófelhője

http://info.ilab.sztaki.hu/vwo/2/1

Page 30: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Twitter, SAP HANA: Meryl Streep – Oscar, 2012

Page 31: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Twitter, SAP HANA: Meryl Streep – Oscar, 2012

Page 32: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Twitter, SAP HANA: Meryl Streep – Oscar, 2012

kép: http://mirror.co.uk

Page 33: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Twitter, SAP HANA: Meryl Streep – Oscar, 2012

Page 34: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Twitter, SAP HANA: Meryl Streep – Oscar, 2012

kép: http://bbc.com

Page 35: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Twitter, SAP HANA: Meryl Streep – Oscar, 2012

Page 36: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Twitter, SAP HANA: Meryl Streep – Oscar, 2012

Page 37: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Kiskereskedelem • Walmart: 250 gépes Hadoop cluster,

napi több TB felhasználói aktivitás (2012.)

• hagyományos adatbányászati / elemzési feladatok - nagy adathalmazon

Ajánlórendszerek • magyar pl. Gravity, Scarab Research

• collaborative filtering (hasonló felhasználók), tartalom alapú, session alapú – nagyon kis késleltetés az elvárt!

Page 38: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

1 4 3

4

4 4

4

2

1,5

-1,0

2,1

0,8

1,0

1,6 1,8

0.7 1.6

0,0

1,4 1,1

0,9 1,9

2,5 -0,3

P

Q

R 3.3 2.4

-0.5 3.5 1.5

1.1 4.9

Forrás: Tikk Domonkos, Gravity

Page 39: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Mobilitás

• mobilszolgáltatók: infrastruktúrából location adatok

o 4,5 milliárd mobil kb. mostanában

o minőségi mutatók valós idejű követése, liquid applications, smart city

o real-time scalable distributed stream processing: 100 000 events / sec (several million people)

• itthon pl: t-mobil kísérleti rendszer, helyfüggő kedvezmények sms-ben

Page 40: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Forgalmi térkép, útvonaltervezés

woophoo.com, ~2008

google.com, 2011

Page 41: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

woophoo.com (~2008)

Page 42: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

• “big data” competition open to the scientific community o exploring the tremendous potential

of telephone data

o producing rich, diverse ideas

• Orange anonymised data set: Ivory Coast, December 2011 April 2012, ~ 5M users, 2.5 billion records o aggregate communication

between cell towers

o communication sub-graphs

o mobility traces: privacy vs. fine resolution

• coarse (prefectures) with more users,

• fine resolution dataset with less users (sparse sample)

http://perso.uclouvain.be/vincent.blondel/netmob/2013/

Page 43: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

D4D saját példa vizualizáció

Aggregated cell density predictions Sample of individual user predictions

Page 44: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

„Okos város” D4D példák • Songdo City, Santander, …

• itthon: o HUGO útdíj, Futár

o Székesfehérvár, Debrecen, Szeged, Szolnok

Unique in the crowd:

The privacy bounds of human mobility

disease containment using calls matrix and

mobility matrix

AllAboard: a system for exploring urban mobility and optimizing

public transport using cellphone data

forrás: D4D challenge

http://movingobject.co/

Page 45: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog
Page 46: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

4/6 villamos megállóinak detekciója telefon szenzor- adatokból

• már a telefonon szűrni kell

• pontatlan, heterogén, sok, gyorsan keletkező adat

Page 47: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Szenzoradatok

• Internet of Things, Cyber Physical Systems: szenzor mindenhol

• szélerőművek: o 1 turbina, ms mintavétel, 20-30 szenzor, 60-100 szignál > 100GB /hó

o farm: 10-100 turbina, régió: 5-50 farm

kép: http://www.newscientist.com/

Page 48: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

-30

-20

-10

0

10

20

30

40

50

60

70

80

90

100

110

120

130

0

10

20

30

40

50

60

70

80

90

100

110

Mod

el e

stim

atio

n er

ror (

%) [

limit:

+/-

17%

]

Tem

pera

ture

s

Time - a year

Non-conform situation detection - estimation of the gearbox bearing temperature by a neural network modell

(Model validity: ambient temperature between 4 and 10 C)

Values_for_Model_INPUT_2 Values_for_Model_INPUT_1

Gearbox bearing temperature_MODEL_ESTIMATES Gearbox bearing temperature_MEASURED

Ambient temperature (for model vaildity) Error_%

Page 49: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Data processing alternatives for wind farm data

52

SQL SQL

DW

SQL

DW

Big Data layer ETL

DW

Big Data layer

SQL adapter Streaming

Real time

alarms

Present Present with DW Big Data with ETL Direct Big Data

Wind farm Wind farm Wind farm Wind farm Wind farm Wind farm Wind farm Wind farm

• analytics with Hadoop/Hive: efficient for bulk processing

• need for real-time statistics, alerts, predictions: data streaming tools, methods should be used instead of Hadoop

Page 50: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Sensors – smart home, city, country, …

• Road and parking slot sensors • Mobile parking traces • Public transport, Oyster cards • Bike hire schemes

Source: Internet of Things Comic Book, http://www.smartsantander.eu/images/IoT_Comic_Book.pdf

Page 51: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

… even agriculture …

Page 52: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Kép és hang

• megoldható? Keresem azt a képet, amin én (íme az arcképem) állok egy hegycsúcson!

• 1 db. MRI kép mérete: 2-5 GB o már csak hordozni is nehéz, pl. kórházról kórházra

o évente mondjuk 1500 betegre: 3-7 TB

• rendszámfelismerés

• call center hívások o leiratok

o NLP

o sentiment analysis

o entity recognition

Page 53: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Ügyféladatok: azonosságfeloldás • nehéz feladat: O(n2)

• Ügyfél rekordok csoportosítása

valós személyek

• Hány természetes személy ügyfelünk van?

• Lehetséges felhasználások pl.:

• Call center, marketing lead-ek kezelése

• Kockázatelemzés, riasztás

• Kitiltott ügyfelek, új ügyfél kedvezmények

Page 54: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Mire alkalmazható?

● személyazonosság

– ügyfelek, adóalanyok

– internet szolgáltatás

felhasználói (email, facebook

stb.)

– nemzetbiztonság, terror-

elhárítás

● termékek

● weboldalak (spam)

● helyek, POI-k

● összetett entitások:

– szervezetek, cégek,

családok

Page 55: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Ügyfélkezelés

• CRM: külső adatforrások csatolása o pl. Twitter tweet-ek, Facebook

• teljesebb történet – mire panaszkodott napok óta, mielőtt telefonált?

• jogilag kérdéses az adatgyűjtés!

• call center o beszélgetés leiratok

• hangulat (sentiment), kulcsszavak stb.

• keresés

• digitális marketing o tranzakciók felhasználása: vásárlások, beszélgetések, mindenféle

kapcsolható esemény

o lemorzsolódás előrejelzés, személyre szabott ajánlatok, …

o AdWords stb.

Page 56: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

IT logok, alkalmazás naplók

• gyűjteni sokszor muszáj, elemezni nehéz

• pl. prezi.com: 150 GB / nap (2013)

• valós idejű tőzsdei kereskedés: pl. GusGus.hu: 400 TB + 170 GB / nap, Hadoop 5PB tár, 240 gép (2013)

• webanalitika, weblog: kiforrott megoldások

kép: http://www.google.com/analytics/

Page 57: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

saját kísérletek: 30-100+ GB/nap

30-60 M esemény

IT-log feldolgozás adatfolyam Adattárház aggregáció

szűk keresztmetszetek azonosítása,

folyamat-optimalizáció

csalások, visszaélések, támadások felderítése

?

hagyományos módszerek elhasalnak!

adatintenzív feladat

Page 58: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Elosztott

rendszerek

Murphy

törvénye

2013-09-17 61

Page 59: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

NoSQL: „CAP tétel” és adatmodell

P

C A

ábra forrás: http://blog.nahurst.com/visual-guide-to-nosql-systems

ACID vs.

gyengített

kritériumok, pl.

BASE: Basically

Available, Soft

state, Eventual

consistency

kettőt

választhatsz

!

CP: nincs válasz, ha nincs egyetértés a replikákkal MongoDB, Redis, HBase,

Hypertable, BigTable, …

CA: nincs partíció RDBMS (Oracle,

PostgreSQL,

MSSQL, DB2 …),

Greenplum, Vertica,

Membase, OrientDB,

Neo4j, …

AP: replika válaszolhat hibásan Dynamo, Project

Voldemort, Riak, Tokyo

Cabinet, Cassandra,

CouchDB, OrientDB,

A

C P „Consistency”:

minden node

mindig ugyanazt

az adatot látja

„Partition

tolerance”:

kieshetnek

node-ok, de a

rendszer

működik

„Avalilability”:

mindig van

visszajelzés

adatmodell:

SQL

key-value

„wide column”

dokumentum-

orientált

gráf

Page 60: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Mi történik, ha szétesik a rendszer?

• Végül lehet konzisztens (eventual consistency)

• A kapcsolat helyreállása után lehet adatot cserélni

CAP tétel bizonyítás

• Partition (P): a jobb oldalra beírt új értéket nem ismeri a bal oldal

• Ha azonnal kérdezünk a bal oldalon (availability), akkor hibás a válasz

• Vagy availability (A), vagy konzisztencia (C)

2013-09-17 63 Big Data

Page 61: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Konzisztens hash-elés

objektumok n szerveren

szerver

Minden objektum a legközelebbi szerverre kerül

új szerver?

pozíció: ax+b mod n

pozíció: a’x+b’ mod n+1 ??

Page 62: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

reduce

Hadoop és MapReduce

• Hadoop:

o open source, kiforrott („enterprise ready”), sok helyen használt platform

o sokan építenek rá terméket, szolgáltatást

o viszonylag nagy késleltetés, kötegelt adatfeldolgozásban nyerő leginkább

• MapReduce: a Hadoop számítási modellje

o amiben jó: elosztott rendezés

o példa: Keressük meg a top 10 leggyakoribb szót az előadás diáin!

Inp

ut

(HD

FS)

Ou

tpu

t (H

DFS

)

map

map

map

reduce

map map

reduce reduce

split: (k, v) sort by k merge: (k, [v, v2, v3, …])

Page 63: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Distributed stream processing

• distributed stream processing: o processing components run parallel

o data passed by streams among components

o acyclic execution graph can be defined by the user

o nice to have: guaranteed message processing

• Storm, S4, Hadoop 2.0 YARN, Stratosphere, BSP: Hama, Giraph, … ?

Page 64: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Storm

• guaranteed data processing • horizontal scalability • fault-tolerance • no intermediate message brokers • no single point of failure • higher level abstraction than message passing • “just works”,

„Hadoop of real time streaming jobs”

• built by Backtype, recently bought by Twitter

• available as Open source • Java + Closure,

still under development (with an active community)

source: http://storm-project.net/

Page 65: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Apache Flink

• PACT programozási modell

• végrehajtás optimalizáció, mint hagyományos adatbázis-kezelőknél

• alacsony szintű adatfolyam engine (Nephele)

• képes adatcsatornát (memória, diszk, hálózat) választani, adatot memóriában tartani, pl. MapReduce-t hatékonyan iterálni

• stream processing: SZTAKI

Page 66: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Google Pregel (nem publikus) GraphLab (C++, több mint BSP) Giraph, HAMA, …

Bulk Synchronous Parallel (BSP) feldolgozás

Page 67: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

A Big Data nem csodafegyver

NoSQL By Perry Hoekstra

Technical Consultant

Perficient, Inc.

Page 68: Big data áttekintés - SZTAKI · ig Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), •pl. a 12-es farm 42. szélerőművének generátora el fog

Sidló Csaba

[email protected]

http://dms.sztaki.hu

http://bigdatabi.sztaki.hu