hvordan bygge big data - axel borge
DESCRIPTION
Skal man få fullt utbytte av dataene man sitter, på må disse integreres, samles og vaskes. Det kan være både vanskelig og dyrt, men fremskritt innen integrasjonsteknologi har gjort dette vesentlig enklere og mer fleksibelt. Vi forteller om teknikker vi har brukt for dette, og ser på noen kundecaser.TRANSCRIPT
Hvordan bygge BIG dataAxel Borge – Bouvet innsikt – 21. November 2013
Hvorfor «bygge data»
Forretnings-spørsmål
Data-struktur
Driver
Begrenser
Prosjekt
Hvor er dataene vi trenger?
s.3
VedlikeholdBilling
kundehåndteringDrift
Archive Contracts GIS ERP Billing CRM
Data kan frigjøres!
• Beskriv dataene uavhengig av systemet de er lagret i
• Bruk en standardisert data representasjon• Behold dataenes originale struktur
Graf struktur
• Alle datastrukturer kan representeres som en graf struktur
• Originalstrukturen kan beholdes i grafen
• Krever ikke en statiskskjemadefinisjon
ELSMART
Supplier
Hafslund
s.6
IS Customer
Meter #
Siebel
Customer #
GEONIS
Property id
IFS
Premise #
BIG data?Datakilde Millioner rader
CAB hourvalueday data 1 707
CAB datevalue data 1 148
CAB orders data 631
CAB invoice data 349
CAB variable data 277
CAB invoiceelmeter data 203
CAB address data 97
CAB settlementpoint data 90
CAB contract data 79
CAB data 71
CAB invoiceconfiguration data 54
CAB settleconfiglink data 41
CAB deliverysite data 38
CAB customer data 36
360 file data 26
CAB invconfshipment data 19
360 document data 18
CAB mehistory data 14
CAB installation data 13
CAB elmeter data 13
CAB phonenumber data 13
Toltalt 4 939
Bruk av RDF standarden
• W3C standard• Stor utbredelse og verktøysett• Dynamisk datastruktur• Data og struktur beskrives med samme
språk• Alle relasjoner er eksplisitte• Alle objekter har en global unik
identifikator (URL)
Datastruktur
10
SESAM
Åpne data
Arkiv
CRM
ERP
sameAs
sameAs
Uavhengighet til kilde
11
Core model
core: Person
core: Project
core:participant
idm: Person
idm: Project
sp: Person
sp: Project
sp:member-ofidm:has-member
System#1 System#2
Øke datakvaliteten
• De duplisering• Suppler med åpne data• Koble vokabularer
Ikke dytt!
• IT-folk flest vil helst “dytte” data– avsender kaller tjenester hos mottager
• Dette gir høy kompleksitet– begge systemene har nå avhengighet til hverandre– må implementere kode og logikk i fagsystemet– egne triggere/tråder i fagsystemet– mange bevegelige deler
13
Fagsystem #1
Dra!
• Vi lar mottagerene trekke data fra kilden– og bruker alltid samme protokoll og samme format
• “Pakker inn” kilden– innpakningen må støtte 3 enkle funksjoner
• Gir en helt annen løsning– kun mottager som er avhengig av kilde– i mange tilfeller null kode– innpakningen er tynn og tilstandsløs– selve dataflyttingen gjøres av kode som er felles for
alle integrasjonene
14
Fagsystem #1
TINE mine middager
Løsningen
1. Trekk alle relevante data ut fra kildene2. Lagre dem i en RDF graf3. Annoter originalmodellene med nye
behov4. Vask og rydd i datasettet etter behov5. Bruk grafen som kilde til alle
informasjonsbehov