big data -esitys, joulukuu 2014
TRANSCRIPT
![Page 1: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/1.jpg)
![Page 2: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/2.jpg)
Big DataMEGATRENDI 2011 ⇒
"The next frontier for innovation, competition and productivity"
![Page 3: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/3.jpg)
“Cloud Computing” ja “Big Data”
cloud co
mputing
big data
Google-haut vuosina 2009-2014
![Page 4: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/4.jpg)
Määritelmä ja viitekehys
![Page 5: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/5.jpg)
Mitä tarkoittaa big data?1. Havaintoa siitä, että dataa on koko ajan määrällisesti
enemmän ja sen muoto ja laatu vaihtelevat suuresti
2. Haastetta hallita ja hyödyntää tuota tietomäärää perinteisten järjestelmien ja ratkaisujen avulla
3. Ratkaisuja (tuotteet, palvelut, ohjelmistot, teknologiat), joilla tuohon haasteeseen tartutaan
![Page 6: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/6.jpg)
Big datan 3 V:täVolume Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä tallentamaan ja hyödyntämään.
Velocity Tietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi pystyä tekemään nopeasti.
Variety Tietoa (dataa) tulee eri muodoissa ja erilaisista lähteistä, eikä se istu hyvin nykyisiin toimintamalleihin.
Veracity, Value, Virality, Validity, Viscosity, Vulnerability… myös muita V-kirjaimia on jälkeenpäin lisätty kuvaamaan ilmiötä.
![Page 7: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/7.jpg)
= paljon nopeasti lisääntyvää monimuotoista dataa
Big datan 3 V:tä
velocity →vo
lum
e →
variety →
Big data
![Page 8: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/8.jpg)
● IDC sanoo (04/2014), että vuonna 2014 markkinat ovat 14 mrd $ ja kasvavat vuonna 2017 tasolle 32 mrd $
● Gartner sanoo (10/2012), että vuonna 2012 big data -markkinat olivat jo 28 mrd $
● McKinseyn raportissa (05/2011) arvioitiin big datan vuotuisen lisäarvo- ja kustannussäästöpotentiaalin olleen jo vuonna 2011 arviolta 1 000 mrd €
Big data -markkinoiden koko
![Page 9: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/9.jpg)
Muita käsitteitä?
![Page 10: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/10.jpg)
Ilmiöllä on monta nimeä● Internet of Things + Social Media
○ esineiden internet + ihmisten internet
● Big data○ massadata yms. (mm. McKinsey)
● Internet of Everything○ kaiken internet (Gartner → ihmiset, esineet, informaatio, paikat)
● Industrial Internet○ teollinen internet (General Electric)
● Industrial Internet of Things○ asioiden teollinen internet (Accenture)
![Page 11: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/11.jpg)
Data on öljy?
![Page 12: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/12.jpg)
Datan määrä maailmassa
v 2011
2 ZB
v 2020
v 2030
44 ZB 1 333 ZB
![Page 13: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/13.jpg)
Esimerkkejä määrästä ja tiedon lähteistä
PB
TB
GB
MB
Monimuotoisuus
Big data
Web
CRM
ERP Purchase detailPurchase recordPayment record
SegmentationOffer detailsCustomer touchesSupport contacts
Web logsOffer historyA/B testingDynamic pricingAffiliate networksSearch marketingBehavioral targetingDynamic funnels
Sensors / RFID / DevicesMobile WebUser click streamSentimentUser generated contentSocial interactions & feedsSpatial & GPS coordinatesExternal demographicsBusiness data feedsHD video, audio, imagesSpeech to textProduct / service logsSMS / MMS
Määrä
Lähde: mukaillen Yli-Pietilä, Backman & Ahlgren
![Page 14: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/14.jpg)
Data
Informaatio
Tietämys
Älykkyys
Näkemys
Ymmärrys
Viisaus
ARVO
Tiedon tasot
Lähde: mukaillen Laihonen et al. Tuomi, Thierauf Ackoff
![Page 15: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/15.jpg)
Analytiikan askeleet kohti kilpailuetua
kohti reaaliaikaisuutta
Raportointi Ennustaminen Automatisointi
![Page 16: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/16.jpg)
Datan lähteet
![Page 17: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/17.jpg)
Mistä sitä dataa oikein tulee?
Saatavilla olevat datavarannot
(avoin data, datamarkkinat)
Potentiaalinen data(ei vielä kerätä)
Digitaalinen todellisuus(internet, sosiaalinen media)
Fyysinen todellisuus(sensorit, esineiden internet)
Organisaation hallussa tai saatavilla oleva data
(ERP, CRM, DW, RDBMS)
![Page 18: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/18.jpg)
Suppein näkökulma dataan
Tästä näkökulmasta big data koskettaa ilmiönä n. 0,2 % maailman organisaatioista
“Eihän meillä edes ole big dataa!”
Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
![Page 19: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/19.jpg)
Suppeahko näkökulma dataan
Tästä näkökulmasta big data koskettaa ilmiönä n. 3 % maailman organisaatioista
“Entä jos hyödyntäisimme kaiken sen datan jota jo keräämme?”
Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
![Page 20: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/20.jpg)
Verkostoitunut näkökulma dataan
Tästä näkökulmasta big data koskettaa ilmiönä n. 22 % maailman organisaatioista
“Voisimmeko kerätä enemmän dataa toiminnastamme?”
Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
![Page 21: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/21.jpg)
Verkostoitunut näkökulma dataan
Tästä näkökulmasta big data koskettaa ilmiönä n. 72 % maailman organisaatioista
“Verkottunut yritys ei voi piilotella dataansa!”
Organisaatio
Kumppani Kumppani
Kumppani Kumppani
Kumppani Kumppani
![Page 22: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/22.jpg)
Kokonaisvaltainen näkökulma dataan“Pelkkä omaan dataan tuijottelu ei tuota ikuisesti kilpailuetua!”
Tästä näkökulmasta big data koskettaa ilmiönä n. 98 % maailman organisaatioista
Avoin data
Datamarkkinat
![Page 23: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/23.jpg)
Tietosuoja?
![Page 24: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/24.jpg)
● Avoimuuteen patistetaan○ Esim. PSI-direktiivi (julk 06/2013, implementointi 07/2015)
● Tietosuoja huolettaa○ Esim. oikeus poistaa omat tietonsa Googlesta
● Henkilötietojen omistajuus?○ Lue LVM:n MyData-selvitys
Tietosuoja ja yksityisyys iso huoli
![Page 25: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/25.jpg)
My Data on henkilötietojen osajoukkoMikäli yksilöllä ei ole mahdollisuutta hyödyntää ja hallinnoida jonkun muun hänestä keräämää henkilötietoa, niin sitä ei voida kutsua my dataksi.
Jos hyödyntämisen ja hallinnan mahdollisuudet ovat kaikkiin henkilötietoihin, voivat my data ja henkilötiedot olla myös sama asia.
![Page 26: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/26.jpg)
Uusi ammatti:datatieteilijä
![Page 27: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/27.jpg)
Toistaiseksi datatieteen osaamisvaatimuksia voidaan harvoin täyttää vain yhden työntekijän voimin. Organisaation data-analyysi -toiminnot ovatkin tavallisimmin koottu tiimeihin.
Datatieteilijän rooli big datassa
Lähde: NIST / USA
![Page 28: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/28.jpg)
Big datan teknologiat● Hadoop (tunnetuin yksittäinen uusi teknologia)● NoSQL (uudenlaiset tietokannat)● Appliance (valmisratkaisut)● In-memory -analytics
● Pilvipalvelut○ Amazon○ Google○ IBM○ Microsoft
![Page 29: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/29.jpg)
Big DataLandscape
![Page 30: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/30.jpg)
Teknologiakirjo kasvaa..
ERP
SCM
Images
Audio
Video
Logs
Text
Web & Social
Input
Marketing Analytics
Applicatios
Business Intelligence
Data Mining
Math & Stats
Analytic toolsMarketing Executives
Frontline Employees
Business Analysts
Statisticians
Data Scientists
Engineers
Event ProcessingReal Time
Data PlatformStore and Refine
Integrated Data Warehouse
Operationalize
Discovery PlatformExploration
Lähde: mukaillen Teradata
![Page 31: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/31.jpg)
HadoopBig datan teollisuusstandardi
![Page 32: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/32.jpg)
Googlen julkaisu Vuosi Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen?
GFS ja MapReduce
2003,2004 Hadoop 2006 Datan tallentaminen ja analysointi
(klusteri)
Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka
BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)
Pregel 2010 Giraph 2011 Graph-tietokanta
Dremel / F1 2010 Cloudera Impala 2012 Nopeat kyselyt (SQL)
Spanner 2012 ? ???? Transaktiot
Innoittajana Google
![Page 33: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/33.jpg)
Mitä Hadoop tekee?Hadoop valjastaa palvelinklusterin vastaamaan datan tallennuksesta ja prosessoinnista.
Miksi haluaisin Hadoop-klusterin?- edullista tallennustilaa (mikä vaan x86-palvelin käy)- tehokasta prosessointia (rinnakkaisuus)- toimintavarmuutta (moninkertainen tallennus)- skaalautuvuutta (klusteria helppo laajentaa)- ekosysteemit, lisäosia ja laajennoksia!
![Page 34: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/34.jpg)
Klusteri?Klusteri = joukko toisiinsa kytkettyjä palvelimia (nodes), jotka suorittavat annettua tehtävää hajautettuna, mutta näkyvät käyttäjälle yhtenä järjestelmänä
![Page 35: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/35.jpg)
Hadoop sopii datan tallentamiseen
![Page 36: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/36.jpg)
Hadoop Distributed File System: HDFS
Node 1
data piece
Big Data(= 1 or more files)
data piecedata piece
Node 2
data piecedata piecedata piece
Node 3
data piecedata piecedata piece
Node 4
data piecedata piecedata piece
HDFS
Lähde: mukaillen www.glennklockwood.com
![Page 37: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/37.jpg)
Hadoop sopii datan prosessointiin
![Page 38: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/38.jpg)
Hadoop: Prosessoinnin logiikkaMapReduce: Viedään prosessointi datan luo!
Lähde: www.glennklockwood.com
“Map/reduce is ideally suited for trivially parallel calculations on large quantities of data.”
![Page 39: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/39.jpg)
Hadoopin roolin ennustetaan olevan keskeinen
![Page 40: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/40.jpg)
Hadoopin asema big data -ilmiössä
Hadoop
Datan määrä
Dat
an r
aken
teis
uus
2 Tb1 Gb 20 Tb 200 Tb
![Page 41: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/41.jpg)
HadoopMistä sellaisen saa?
![Page 42: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/42.jpg)
Neljä vaihtoehtoa1. hadoop.apache.org2. Valmis jakelu3. Hadoop osana laajempaa kokonaisuutta4. Pilvipalvelu
Hadoopin käyttöönotto
![Page 43: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/43.jpg)
1. hadoop.apache.org
“Harva organisaatio päätyy käyttämään Hadoopia näin. Startup-yritysten, tutkimuslaitosten ja yliopistojen vaihtoehto.”
Vahvuudet (+) Ilmainen
Heikkoudet (-) Joutuu tekemään kaiken itse
![Page 44: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/44.jpg)
2. Valmis jakelu
Vahvuudet (+) Helppous, tuki, koulutus, partnerit ja optimoitu suorituskyky
Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen
“Tyypillinen tapa tällä hetkellä ottaa Hadoop käyttöön. Objektiivinen vertailu hankalaa, tietoa vaikea saada. Vaatii vahvaa kehitystiimiä.”
![Page 45: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/45.jpg)
3. Hadoop osana kokonaisuutta
Vahvuudet (+) Kehittyneet ominaisuudet, integroitavuus, tuki- ja partneriverkosto
Heikkoudet (-) Kallis, vendor lock-in
“Tämä on se todennäköinen tapa, jolla Hadoop hiipii yrityksiin, joilla on voimakas toimittajasuhde. Hadoop osana isompaa kokonaisuutta.”
![Page 46: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/46.jpg)
Vahvuudet (+) Nopea käyttöönotto, joustavuus, kustannusten ennakointi
Heikkoudet (-) Tietoturvahuolet, lainsäädäntö, lisää osaamisvaatimuksia
“Helpoin, riskittömin ja nopein tapa pilotointiin, demoamiseen ja testaamiseen. Todennäköisesti tulevaisuudessa yhä merkittävämpi vaihtoehto myös tuotantokäyttöön.”
3. Hadoop pilvipalveluna
![Page 47: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/47.jpg)
Pilvipalvelut“Vuokrataan tallennustila ja laskentateho”
![Page 48: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/48.jpg)
2008
2009
2010
2011
2012
2013
2014
Cloud computing in GartnerHype Cycle for Emerging Technologies2008-2014
2015
Aika
Odo
tuks
et
![Page 49: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/49.jpg)
![Page 50: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/50.jpg)
Pilvipalvelut vahvassa kasvussa!Company Market Share Growth-% (Q1 2014)
Amazon 28 % 67 %
Microsoft 8 % 154 %
IBM 7 % 80 %
Salesforce 6 % 37 %
Google 5 % 60 %
Synergy Research Group
![Page 51: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/51.jpg)
Datan analysoiminen pilvessäTerasortin maailmanennätys Googlen pilvipalvelussa:
“Since the servers used in MapR’s world record were virtually instantiated in the Cloud, the cost estimate for running the TeraSort was about $9 compared to the over $5M estimate to run the previous record.”
joustavuudesta!
Tästä on kysymys:
$ 9 vs. $ 5 000 000
![Page 52: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/52.jpg)
Big data SuomessaIvorio toteutti Liikenne- ja viestintäministeriölle selvityksen suomalaisesta big data -markkinasta. Mukana olivat julkishallinnon, yritysten, palveluntarjoajien ja oppilaitosten edustajat.
http://www.lvm.fi/julkaisu/4156840/big-data-suomessa-keskustelualoite
![Page 53: Big data -esitys, joulukuu 2014](https://reader034.vdocuments.pub/reader034/viewer/2022042615/55aa0c4a1a28ab70548b4679/html5/thumbnails/53.jpg)
Big data hyödyntäminenLiikenne- ja viestintäministeriön big datan käyttö -työryhmän raportissa esitetään luonnos kansalliseksi strategiaksi ja ehdotuksia kansallisiksi strategisiksi toimenpiteiksi, joiden avulla voidaan lisätä suurten tietoaineistojen hyödyntämistä Suomessa.http://www.lvm.fi/julkaisu/4417803/big-datan-hyodyntaminen