big data áttekintés - sztaki · ig data definíciók • adatok 3 (vagy 4, 5) v-je: o volume...
TRANSCRIPT
Big data áttekintés
Sidló Csaba
MTA Számítástechnikai és Automatizálási Kutatóintézet
Üzleti Intelligencia és Adattárházak Csoport Big Data Üzleti Intelligencia Csoport
http://dms.sztaki.hu
http://bigdatabi.sztaki.hu
2014. október 30.
MTA SZTAKI Informatika Kutatólabor teljes innovációs lánc, kutatástól alkalmazásokig
o adatbányászat, gépi tanulás, keresőtechnológiák, üzleti intelligencia, adattárházak, szociális hálózatok, bioinformatika
o „Big Data”: • Web, közösségi média elemzés és keresés
• smart city, mobilitás
• szenzoradatok (pl. szélerőmű), log-adatok
• dedikált csoportok: „Lendület – Big Data”, „Big Data Üzleti Intelligencia” (partner: SZTAKI EMI)
Longneck data integration
Tartalom
• definíció
• megoldások, szállítók
• trendek, kutatási témák
• alkalmazás példák
• néhány kiemelt big data téma o számítási modellek, pl. Hadoop
o osztott rendszerek problémái
source: https://secure.flickr.com/photos/t_gregorius/5839399412
Big Data
Big Data
Big Data definíciók • adatok 3 (vagy 4, 5) V-je:
o volume (mennyiség – sok),
• pl. a 12-es farm 42. szélerőművének generátora el fog romlani, karbantartást igényel!
o velocity (sebesség – gyorsan jön és megy),
• pl. az ügyfél vonalban van, ki ő, mi a története?
o variety (változatosság – sokféle forrás, típus)
• pl. milyen népszerű a héten a termékünk közösségi hálókon?
o veracity (megbízhatóság – változó adatminőség), value (érték – feldolgozással értéknövekedés), variability (változékonyság – változó tartalom)
• “big data is data that becomes large enough that it cannot be processed using conventional methods”
• elsődleges alkalmazók: analitika, üzleti intelligencia
volume
velocity variety
big data
Wired magazin, 2013:
• 2012-ben 2.8 ZettaByte információ keletkezett (vagy duplikálódott) (giga tera peta exa zetta)
• sok százezer PetaByte méretű adatbázis
forrás:
http://www.wired.com/magazine/2013/04/bigdata/
business email each year
Google index
Facebook upload each year
Youtube upload each year
Volume: mennyi?
Big data megoldások
• hagyományostól eltérő, jól skálázódó rendszerek: o több / gyorsabb / változatosabb adat jól megoldható marad a
feladat, tervezhetően több számítási erőforrással
• régi módszerek, új megoldások: o oszd meg és uralkodj: párhuzamosítás, sok gép, elosztott rendszerek
o áttérés új architektúrákra: • in-memory, SSD
• GPU
• SQL, NoSQL, NewSQL példa: új technológiák és hype
Petabytes
„Numbers Everyone Should Know”
- a megoldások korlátai
RAM • L1 cache reference 0.5 ns • L2 cache reference 7 ns • Main memory reference 100 ns • Read 1 MB sequentially from memory 250,000
ns
Intra-process communication • Mutex lock / unlock 100 ns • Read 1 MB sequentially from network
10,000,000 ns
Disk • Disk seek 10,000,000 ns • Read 1 MB sequentially from disk 30,000,000 ns
forrás: Jeff Dean, Google
Disk • 10+TB
RAM • 100+ GB
CPU • L2 1+ MB • L1 10+ KB
GPU onboard
memory • Global 4-8 GB • Block shared 10+ KB
Big data piac • kapcsolódó hardware, software és szolgáltatások bevételei 2012-ben: 11.4 milliárd
USD
• növekvő befektetések: pl. Google, Facebook, Amazon, kormányzat
• IBM, Oracle, Microsoft, SAP, EMC, HP, … felvásárolnak
forrás:
http://wikibon.org/wiki/v/Big_
Data_Vendor_Revenue_and
_Market_Forecast_2012-2017
forrás, 2012.06: http://www.forbes.com/sites/davefeinleib/2012/06/19/the-big-data-landscape/
forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation
forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation
• rétegek: adatelérés, analitika, alkalmazások • sok szereplő, erős verseny
• SQL vs. NoSQL vs. NewSQL • kötegelt vs. streaming (real time)
feldolgozás • …
• szolgáltatások, eszközök, eszköz-kombinációk, full stack-ek, SaS, open source stb.
• feladathoz megfelelő kombináció
Big data rétegek
Fast Data
Big Analytics
Big Data Services
forrás: The
Emerging Big
Data slide from
the Intelligent
Information
Management
DG INFSO/E2
Objective, ICT-
2011.4.4 Info
day
SQL, NoSQL eszközkombinációk
• ábra: alkalmazók, eszközök, szolgáltatók; teljesség igénye nélküli gyűjtés!
• „polyglot persistence”
• hagyományos alkalmazások?
o főleg Web 2.0 alkalmazók és fejlesztők!
o ld. „hype cycle”, „crossing the chasm”
• Mo.?
• nagy szereplők:
o saját eszközkészlet
Big data trendek – szubjektív válogatás
• innovációs görbe:
o early adopters / post-innovators: Web 2.0 (pl. Google, Facebook, Twitter, LinkedIn)
o early majority (pl. pénzügyi szolgáltatók, gyógyszergyártók, kiskereskedelem stb.)
• pezsgés: meetup-ok, konferenciák (tudományos is)
• real time, streaming (adatfolyam) feldolgozás: hatalmas igény
• flash memória, SSD vs. hagyományos tároló-tömbök
• in memory feldolgozás
o pl. SAP Hana és Oracle Exadata X3 (vs. Hadoop)
• statisztika + informatika + üzlet „data science” (“the sexiest job in the 21st century”, Harward Business Review)
kép:http://en.wikipedia.org/wiki/Diffusion_of_innovations
Big data kutatás
• első nagyobb big data konferencia: IEEE BigData 2013
• hangsúlyos téma egyéb nagy konferenciákon, pl. VLDB, SIGMOD
• irányvonalak: o alapok
• elméleti modellek, szabványok, …
o infrastruktúra
• cloud, stream, osztott feldolgozás, open platformok, NoSQL, …
o adatkezelés
• adatintegráció, adattisztítás, crowdsourcing, adatbáziskezelés, …
o keresés és adatbányászat
o biztonság és adatvédelem
o alkalmazások
forrás: http://www.ischool.drexel.edu/bigdata/bigdata2013/
Néhány kiemelt kutatási téma
• új elméleti és számítási modellek:
o MapReduce, BSP, Storm topológiák – mi a következő? mi jön a Hadoop / MapReduce után?
o egyszerűség, gyorsaság vs. komplex műveletek
• pl. relációs SQL vs. NoSQL key-value stores
o cluster, cloud, grid – különböző környezetek hogyan támogassák a big data problémák megoldását?
• keresés és adatbányászat
o nagyléptékű gráf adat feldolgozás és analitika
o valósidejű adatbányászat, jól skálázódó gépi tanulás, ajánlórendszerek
Néhány kiemelt kutatási téma 2.
• big data vizualizáció
• benchmarking
• skálázható adat-management felhőkön
o storage rendszerek: adat lokalitás elrejtése
o pl. több adat center lokális számításokkal Amazon S3-on
Új üzleti intelligencia módszertanok
• data science o matematika, statisztika, informatika, hacker atitűd, tudományos
megközelítés, iparági ismeretek
o “the sexiest job in the 21st century” (Harward Business Review): keresett, drága szakemberek
• agile data, agilie BI o agilis fejlesztési elvek üzleti intelligencia célokra
o agile data science – hagyományos alkalmazások ?
• önkiszolgáló analitika o könnyen kezelhető eszközök a teljes folyamatra, adateléréstől
vizualizációig
o támogassuk és hagyjuk kibontakozni az elemzőket és azokat, ahol az információigény jelentkezik
• adatvezéreltség
Adatbányászat és big data adatbányászat: hasznos (meglepő?) tudás kinyerése nagy adattömegből; • eszközök:
o algoritmusok (nagy méret) o adatbázisok (elrendezés, hozzáférés) o Mesterséges Intelligencia és Gépi Tanulás (modellek) o Statisztika (hipotézisvizsgálat)
big data adatbányászat: minden még nagyobb; • eszközök:
o algoritmusok (elosztott, MapReduce, Cloud) o adatbázisok (elosztott, NoSQL) o okostelefonok, közösségi média (Facebook, Twitter, …) o Mesterséges Intelligencia és Gépi Tanulás – ajánló rendszerek, hálózatok o Statisztika
• adat „más célból” gyűlik • gyakran nincs mintavételezés • adatgazdagítás helyett a hiányzó adatokat átugró módszerek
Emberi genom
• dekódolás / szekvenálás o 725 MB adat kb.
o 1990: 10-15 év, $3 milliárd
o most: EC2, MapReduce, $100; egész folyamat: <$1000
o 40-node, 320-core: < 3 óra, 10-node: 1 nap
CERN • CERN Wigner adatközpont:
1 PB/sec 2x100GB 100-200e gép, 70 PB
Web
• web 2.0 cégek: úttörők o Google: 1PB rendezése 33 percben (2011.07.)
• miért nincs Európában F1 adatbázisuk? Kevés az áram!
o Facebook: 30+ PB felhasználói adat (2012.06.), 180 PB/év adattárházban (2013 .02.)
o Twitter
o Amazon • kiskereskedelemből kinőve felhő szolgáltatások, megvehetjük az
infrastruktúráját
o …
• web keresés, látogatottság elemzés, ajánlások, hirdetések, trend elemzés
Saját web feladat példák
• Hanzo Archives (UK):
o Amazon EC2 cloud + S3
• Internet Memory Foundation:
o low-end szerverekkel PB-ok feldolgozása
• SZTAKI Web adat, pl. http://kopi.sztaki.hu plágiumkereső
• saját kódok – open source eszközök még nem elég kiforrottak
• 50 régi szerver (mostani desktopoknál gyengébbek): 1 hét 3TB tömörített adathoz
• hardware kb. $15,000; Amazon ár kb. $1000 lenne
• Web osztályozás: spam oldalak; verseny: ClueWeb, 25TB, 0.5 milliárd oldal – kis rész
Gráfvizualizáció
• YAGO entitások
• kapcsolatok
Példa: „Steve Jobs” szófelhője
http://info.ilab.sztaki.hu/vwo/2/1
Példa: „Steve Jobs” szófelhője
http://info.ilab.sztaki.hu/vwo/2/1
Példa: „Steve Jobs” szófelhője
http://info.ilab.sztaki.hu/vwo/2/1
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
kép: http://mirror.co.uk
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
kép: http://bbc.com
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
Kiskereskedelem • Walmart: 250 gépes Hadoop cluster,
napi több TB felhasználói aktivitás (2012.)
• hagyományos adatbányászati / elemzési feladatok - nagy adathalmazon
Ajánlórendszerek • magyar pl. Gravity, Scarab Research
• collaborative filtering (hasonló felhasználók), tartalom alapú, session alapú – nagyon kis késleltetés az elvárt!
1 4 3
4
4 4
4
2
1,5
-1,0
2,1
0,8
1,0
1,6 1,8
0.7 1.6
0,0
1,4 1,1
0,9 1,9
2,5 -0,3
P
Q
R 3.3 2.4
-0.5 3.5 1.5
1.1 4.9
Forrás: Tikk Domonkos, Gravity
Mobilitás
• mobilszolgáltatók: infrastruktúrából location adatok
o 4,5 milliárd mobil kb. mostanában
o minőségi mutatók valós idejű követése, liquid applications, smart city
o real-time scalable distributed stream processing: 100 000 events / sec (several million people)
• itthon pl: t-mobil kísérleti rendszer, helyfüggő kedvezmények sms-ben
Forgalmi térkép, útvonaltervezés
woophoo.com, ~2008
google.com, 2011
woophoo.com (~2008)
• “big data” competition open to the scientific community o exploring the tremendous potential
of telephone data
o producing rich, diverse ideas
• Orange anonymised data set: Ivory Coast, December 2011 April 2012, ~ 5M users, 2.5 billion records o aggregate communication
between cell towers
o communication sub-graphs
o mobility traces: privacy vs. fine resolution
• coarse (prefectures) with more users,
• fine resolution dataset with less users (sparse sample)
http://perso.uclouvain.be/vincent.blondel/netmob/2013/
D4D saját példa vizualizáció
Aggregated cell density predictions Sample of individual user predictions
„Okos város” D4D példák • Songdo City, Santander, …
• itthon: o HUGO útdíj, Futár
o Székesfehérvár, Debrecen, Szeged, Szolnok
Unique in the crowd:
The privacy bounds of human mobility
disease containment using calls matrix and
mobility matrix
AllAboard: a system for exploring urban mobility and optimizing
public transport using cellphone data
forrás: D4D challenge
http://movingobject.co/
4/6 villamos megállóinak detekciója telefon szenzor- adatokból
• már a telefonon szűrni kell
• pontatlan, heterogén, sok, gyorsan keletkező adat
Szenzoradatok
• Internet of Things, Cyber Physical Systems: szenzor mindenhol
• szélerőművek: o 1 turbina, ms mintavétel, 20-30 szenzor, 60-100 szignál > 100GB /hó
o farm: 10-100 turbina, régió: 5-50 farm
kép: http://www.newscientist.com/
-30
-20
-10
0
10
20
30
40
50
60
70
80
90
100
110
120
130
0
10
20
30
40
50
60
70
80
90
100
110
Mod
el e
stim
atio
n er
ror (
%) [
limit:
+/-
17%
]
Tem
pera
ture
s
Time - a year
Non-conform situation detection - estimation of the gearbox bearing temperature by a neural network modell
(Model validity: ambient temperature between 4 and 10 C)
Values_for_Model_INPUT_2 Values_for_Model_INPUT_1
Gearbox bearing temperature_MODEL_ESTIMATES Gearbox bearing temperature_MEASURED
Ambient temperature (for model vaildity) Error_%
Data processing alternatives for wind farm data
52
SQL SQL
DW
SQL
DW
Big Data layer ETL
DW
Big Data layer
SQL adapter Streaming
Real time
alarms
Present Present with DW Big Data with ETL Direct Big Data
Wind farm Wind farm Wind farm Wind farm Wind farm Wind farm Wind farm Wind farm
• analytics with Hadoop/Hive: efficient for bulk processing
• need for real-time statistics, alerts, predictions: data streaming tools, methods should be used instead of Hadoop
Sensors – smart home, city, country, …
• Road and parking slot sensors • Mobile parking traces • Public transport, Oyster cards • Bike hire schemes
Source: Internet of Things Comic Book, http://www.smartsantander.eu/images/IoT_Comic_Book.pdf
… even agriculture …
Kép és hang
• megoldható? Keresem azt a képet, amin én (íme az arcképem) állok egy hegycsúcson!
• 1 db. MRI kép mérete: 2-5 GB o már csak hordozni is nehéz, pl. kórházról kórházra
o évente mondjuk 1500 betegre: 3-7 TB
• rendszámfelismerés
• call center hívások o leiratok
o NLP
o sentiment analysis
o entity recognition
Ügyféladatok: azonosságfeloldás • nehéz feladat: O(n2)
• Ügyfél rekordok csoportosítása
valós személyek
• Hány természetes személy ügyfelünk van?
• Lehetséges felhasználások pl.:
• Call center, marketing lead-ek kezelése
• Kockázatelemzés, riasztás
• Kitiltott ügyfelek, új ügyfél kedvezmények
Mire alkalmazható?
● személyazonosság
– ügyfelek, adóalanyok
– internet szolgáltatás
felhasználói (email, facebook
stb.)
– nemzetbiztonság, terror-
elhárítás
● termékek
● weboldalak (spam)
● helyek, POI-k
● összetett entitások:
– szervezetek, cégek,
családok
Ügyfélkezelés
• CRM: külső adatforrások csatolása o pl. Twitter tweet-ek, Facebook
• teljesebb történet – mire panaszkodott napok óta, mielőtt telefonált?
• jogilag kérdéses az adatgyűjtés!
• call center o beszélgetés leiratok
• hangulat (sentiment), kulcsszavak stb.
• keresés
• digitális marketing o tranzakciók felhasználása: vásárlások, beszélgetések, mindenféle
kapcsolható esemény
o lemorzsolódás előrejelzés, személyre szabott ajánlatok, …
o AdWords stb.
IT logok, alkalmazás naplók
• gyűjteni sokszor muszáj, elemezni nehéz
• pl. prezi.com: 150 GB / nap (2013)
• valós idejű tőzsdei kereskedés: pl. GusGus.hu: 400 TB + 170 GB / nap, Hadoop 5PB tár, 240 gép (2013)
• webanalitika, weblog: kiforrott megoldások
kép: http://www.google.com/analytics/
saját kísérletek: 30-100+ GB/nap
30-60 M esemény
IT-log feldolgozás adatfolyam Adattárház aggregáció
szűk keresztmetszetek azonosítása,
folyamat-optimalizáció
csalások, visszaélések, támadások felderítése
?
hagyományos módszerek elhasalnak!
adatintenzív feladat
Elosztott
rendszerek
Murphy
törvénye
2013-09-17 61
NoSQL: „CAP tétel” és adatmodell
P
C A
ábra forrás: http://blog.nahurst.com/visual-guide-to-nosql-systems
ACID vs.
gyengített
kritériumok, pl.
BASE: Basically
Available, Soft
state, Eventual
consistency
kettőt
választhatsz
!
CP: nincs válasz, ha nincs egyetértés a replikákkal MongoDB, Redis, HBase,
Hypertable, BigTable, …
CA: nincs partíció RDBMS (Oracle,
PostgreSQL,
MSSQL, DB2 …),
Greenplum, Vertica,
Membase, OrientDB,
Neo4j, …
AP: replika válaszolhat hibásan Dynamo, Project
Voldemort, Riak, Tokyo
Cabinet, Cassandra,
CouchDB, OrientDB,
A
C P „Consistency”:
minden node
mindig ugyanazt
az adatot látja
„Partition
tolerance”:
kieshetnek
node-ok, de a
rendszer
működik
„Avalilability”:
mindig van
visszajelzés
adatmodell:
SQL
key-value
„wide column”
dokumentum-
orientált
gráf
Mi történik, ha szétesik a rendszer?
• Végül lehet konzisztens (eventual consistency)
• A kapcsolat helyreállása után lehet adatot cserélni
CAP tétel bizonyítás
• Partition (P): a jobb oldalra beírt új értéket nem ismeri a bal oldal
• Ha azonnal kérdezünk a bal oldalon (availability), akkor hibás a válasz
• Vagy availability (A), vagy konzisztencia (C)
2013-09-17 63 Big Data
Konzisztens hash-elés
objektumok n szerveren
szerver
Minden objektum a legközelebbi szerverre kerül
új szerver?
pozíció: ax+b mod n
pozíció: a’x+b’ mod n+1 ??
reduce
Hadoop és MapReduce
• Hadoop:
o open source, kiforrott („enterprise ready”), sok helyen használt platform
o sokan építenek rá terméket, szolgáltatást
o viszonylag nagy késleltetés, kötegelt adatfeldolgozásban nyerő leginkább
• MapReduce: a Hadoop számítási modellje
o amiben jó: elosztott rendezés
o példa: Keressük meg a top 10 leggyakoribb szót az előadás diáin!
Inp
ut
(HD
FS)
Ou
tpu
t (H
DFS
)
map
map
map
reduce
map map
…
reduce reduce
…
split: (k, v) sort by k merge: (k, [v, v2, v3, …])
Distributed stream processing
• distributed stream processing: o processing components run parallel
o data passed by streams among components
o acyclic execution graph can be defined by the user
o nice to have: guaranteed message processing
• Storm, S4, Hadoop 2.0 YARN, Stratosphere, BSP: Hama, Giraph, … ?
Storm
• guaranteed data processing • horizontal scalability • fault-tolerance • no intermediate message brokers • no single point of failure • higher level abstraction than message passing • “just works”,
„Hadoop of real time streaming jobs”
• built by Backtype, recently bought by Twitter
• available as Open source • Java + Closure,
still under development (with an active community)
source: http://storm-project.net/
Apache Flink
• PACT programozási modell
• végrehajtás optimalizáció, mint hagyományos adatbázis-kezelőknél
• alacsony szintű adatfolyam engine (Nephele)
• képes adatcsatornát (memória, diszk, hálózat) választani, adatot memóriában tartani, pl. MapReduce-t hatékonyan iterálni
• stream processing: SZTAKI
Google Pregel (nem publikus) GraphLab (C++, több mint BSP) Giraph, HAMA, …
Bulk Synchronous Parallel (BSP) feldolgozás
A Big Data nem csodafegyver
NoSQL By Perry Hoekstra
Technical Consultant
Perficient, Inc.