big data 10.000 ft
DESCRIPTION
Dr. Roberto Rao, Principal Architect bei der axxessio GmbH, eröffnete am Donnerstag, den 20. Februar 2014 die Veranstaltung „Big Data – Die neue Goldgräberzeit in der IT“ und gab einen Überblick zum Thema „Big Data 10.000 ft“.TRANSCRIPT
20. Februar 2014IHK Darmstadt
Big Data 10.000 ft
DR. ROBERTO RAO, AXXESSIO GMBH
• Big Data – Was ist das?
• Anwendungsfälle für Big Data
• Big Data Architektur
• Big Data Anbieter
• Was passiert in Zukunft mit Big Data?
Inhalte
2
Big Data – Was ist das?
4
Rohstoffe wie Gold sind nur in einer geringen Dichte vorhanden
2.700 Kg an Ressourcen müssen aufgewendet werden um einen Goldring herzustellen
300 Kg Erz+
20 Tonnen Giftstoffe (u.a. Cyanid)+…
5
Spaltbares Uran muss aufwendig getrennt werden
238U99,3 %
235U0,7 %
Natururan
1000 Kg Uranerz ergeben 1 Kg Uran
235U100 %
Gaszentrifugen
Spaltbares Material
6
Wertvolle Information
Text
Bilder
Dokumente
Big Data ist ähnlich zur Rohstoffgewinnung
Internet Seiten, Web-Foren, BlogsSocial Networks, eMails, Sensoren
Aus enorm vielen Daten sollen nur die wertvollen Informationen extrahiert werden. Aufwendige
Trennung von wertlosen und wertvollen Informationen• Volume (Datenvolumen)
• Variety (Vielfalt)• Velocity (Tempo)• Value (Wert)• Veracity (Datenqualität)• Volatility (Aufbewahrung)
7
Vielfältige Daten
Kunde
Name
Vorname
Kundennummer
Ort
Artikel
Bezeichnung
EAN
Preis
MwSt
KundenNr EAN Netto MwSt Brutto Datum
98273891 DE28309810 12,21 19% 24,05 19.04.13
83691817 DE94839928 81,77 19% 97,31 22.04.13
63879287 DE87687628 2,31 7% 2,47 29.04.13
Relationale DB
- Attribute- Tupel
SQL Query:SELECT SUM(BRUTTO) WHERE KUNDENNR = 123456789
8
Mit Big Data hat die Goldgräberzeit auch in der IT begonnen
Hallo Stefan, wie geht es dir? Wir hatten gestern einen schönen Abend.
Das Fußballspiel morgen ist der Hammer! Das dürfen wir nicht verpassen.VG Micky
Die Politiker haben einen Schatten. Wird mal Zeit, dass wir sie abschaffen. Eine neue Regierung wär
Die Bombe müssten wir dann um ca. 11 Uhr zünden. Da sind die meisten Leute unterwegs.
Hallo Martha,Du musst 1 Kg Mehl und 3 Eier nehmen.Du rührst dann 10 Minuten und backst es.
Sehr geehrter Herr Mayer,Leider kann ich morgen nicht da sein, da ich einen wichtigen Termin habe.
Hi Gerd,Die Schule fällt morgen aus. Was wollen wir machen?
LOW DENSITY DATALOW VALUE
HIGH DENSITY DATAHIGH VALUE
Die Bombe müssten wir dann um ca. 11 Uhr zünden. Da sind die meisten Leute unterwegs.
Die Politiker haben einen Schatten. Wird mal Zeit, dass wir sie abschaffen. Eine neue Regierung wärTAXONOMIE
CLUSTERING
FILTER
RegierungabschaffenBombe
9
Erst große Plattenspeicher machen Big Data möglich
Anwendungsfälle für Big Data
11
Anwendungsfälle
Finanzdienstleister • Erkennung betrügerischer Transaktionen in Echtzeit, Risikoabschätzungen, beschleunigte Fallbearbeitung, individualisierte Dienstleistungen
Versicherungen • Beschleunigte Fallbearbeitung, bessere Risikoabschätzung, verhaltensbezogene Bepreisung
Telekommunikation • Qualitätssicherung, individualisierte Ansprache und Dienstleistungen, Betrugserkennung, neue Produkte
Produktion • Präventive Wartung und Überwachung, vernetzte Geräte, individualisierte Dienstleistungen, Marktüberwachung
Energie • Kurzfristige Bedarfsprognosen, vernetzte, individualisierte Geräte, vorausschauende Steuerung
Handel • Prognosen für die Absatzplanung, dynamische Preisbildung, Marktüberwachung und individualisierte Ansprache
Öffentliche Sicherheit • Schnelle Lageerfassung und Früherkennung gefährlicher Ereignisse
Gesundheit • Vernetzte Geräte, präventive Steuerung, effizientes Fallmanagement, datengetriebene Entwicklung
Mobilität • Vernetzte Autos, Navigation, Stauhilfe
12
Beispiel: Kreditkartenmissbrauch
Visa hat ca. 2 Mrd. Kreditkarten
weltweit
Kreditkartenunternehmen erstellen ein Muster aus den
Zahlungsdaten
Werden einige Tage später Einkäufe im Reiseland getätigt, liegt evtl. ein
Missbrauch vor!
Durch Big Data hat sich die Dauer der Analyse von 45 Min. auf 4 Sek. verkürzt
Quelle: Bild der Wissenschaft, Ulrich Schmitz
13
Versicherungsbetrug
Quelle: Bild der Wissenschaft, Ulrich Schmitz
Aus Terabytes an personen- und raumbezogenen Daten kann Versicherungsbetrug aufgedeckt werden.
NetReveal von Detica setzt Personen zueinander in Beziehung und korreliert sie mit Ereignissen (z.B. Schadensmeldungen)
Identische Personen, Brüder, Neffen, Vettern hatten in der selben Region Schadenersatz nach einem Auffahrunfall geltend gemacht
Fingierte Auffahrunfälle
14
Smart Meter für 40 Mio Haushalte ab 2020
HeuteStandard Last Profil (SLP)
• Eine Ablesung pro Jahr
• 40 Mio. Datensätze / Jahr
• 40 TB / Jahr
Künftig (mögliches Szenario)Registrierende
Leistungsmessung (RLM)
• Ein Datensatz pro 15 Min
• 1,5 Billionen Datensätze / Jahr
• 1,5 Exabytes / Jahr
Energiewirtschaft
Big Data Architektur
16
Traditionelle Architektur
System 1
System 3
System 2 DWH Analytics
Strukturierte Daten
Integration
17
Big Data Architektur
System 1
System 3
System 2Distributed File System DWH
Analytics
Strukturierte und unstrukturierte Daten
Map / Reduce
18
Hadoop Ökosystem
HDFS
MapReduceHBASE
PIG HIVE
MAHOUT machine learning, Bibliothek von Algorithmen z.B. Clustering
Scripting von MapReduce jobs
HQL für MapReduce
Hadoop distributed file system
Key-Value DB
* Es existieren weitere Komponenten des Hadoop Ökosystems, die hier nicht dargestellt sind (Oozi, Ambari, ZooKeeper, Hcatalog, Scoop, Flume, etc.)
Java framework
19
HDFS (hadoop distributed file system)
Data Node 1
Data Node 2
Data Node 3
Data Node N
Client Node
Name Node
File.txt1 TB
A B C
write
A auf Node 1B auf Node 2C auf Node 3
A B C
20
MapReduce
Verteilte Daten
Worker
Worker
WorkerWorker
Worker
MAP PHASE REDUCE PHASE
Zwischenergebnisse
Endergebnis
Worker
Worker
remotelocal
Aggregation
21
MapReduce am WordCount-Beispiel
Big Data Anbieter
23
Anbieter
IBM
Microsoft
HP
Oracle
EMC2
Exasol
Teradata
…
Was passiert in Zukunft mit Big Data?
25
Google hat festgestellt, dass die Häufigkeit bestimmter Suchbegriffe Anhaltspunkt für die Häufigkeit von Grippefällen sein kann. Für die Google Grippe-Trends werden Daten der Google-Suche gesammelt und
ausgewertet. Auf Grundlage der Ergebnisse wird anschließend die Häufigkeit von Grippefällen geschätzt.
Grippe-Trends weltweit verfolgen
Welche Chancen und Risiken ergeben sich in Zukunft
26
Chancen und Risiken in der Medizin
Neue Zusammenhänge erlauben neue Therapien
Wissen-schaftliche Veröffent-lichungen
Klinische Studien
Kranken-akten
Errechnen von Risiko-Patienten
Wissen-schaftliche Veröffent-lichungen
Klinische Studien
Kranken-akten
Chancen Risiken
Unsere Standorte
Niederlassung Köln
Wilhelmstraße 351143 KölnTel +49 22 03 – 91 22 0Fax +49 22 03 – 91 22 23
Niederlassung Darmstadt
Kasinostraße 6064293 DarmstadtTel +49 61 51 – 78 90 0Fax +49 61 51 – 78 90 23 0
Hauptsitz Bonn
Kurfürstenallee 553177 BonnTel +49 228 – 76 36 31 0Fax +49 228 –76 36 31 3
Niederlassung Bern
Frohbergweg 73012 BernTel +41 31 – 534 07 06Fax +41 31 – 536 69 78
Vielen Dank für Ihre Aufmerksamkeit