hvordan bygge big data - axel borge

Post on 06-Jul-2015

322 Views

Category:

Technology

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Skal man få fullt utbytte av dataene man sitter, på må disse integreres, samles og vaskes. Det kan være både vanskelig og dyrt, men fremskritt innen integrasjonsteknologi har gjort dette vesentlig enklere og mer fleksibelt. Vi forteller om teknikker vi har brukt for dette, og ser på noen kundecaser.

TRANSCRIPT

Hvordan bygge BIG dataAxel Borge – Bouvet innsikt – 21. November 2013

Hvorfor «bygge data»

Forretnings-spørsmål

Data-struktur

Driver

Begrenser

Prosjekt

Hvor er dataene vi trenger?

s.3

VedlikeholdBilling

kundehåndteringDrift

Archive Contracts GIS ERP Billing CRM

Data kan frigjøres!

• Beskriv dataene uavhengig av systemet de er lagret i

• Bruk en standardisert data representasjon• Behold dataenes originale struktur

Graf struktur

• Alle datastrukturer kan representeres som en graf struktur

• Originalstrukturen kan beholdes i grafen

• Krever ikke en statiskskjemadefinisjon

ELSMART

Supplier

Hafslund

s.6

IS Customer

Meter #

Siebel

Customer #

GEONIS

Property id

IFS

Premise #

BIG data?Datakilde Millioner rader

CAB hourvalueday data 1 707

CAB datevalue data 1 148

CAB orders data 631

CAB invoice data 349

CAB variable data 277

CAB invoiceelmeter data 203

CAB address data 97

CAB settlementpoint data 90

CAB contract data 79

CAB data 71

CAB invoiceconfiguration data 54

CAB settleconfiglink data 41

CAB deliverysite data 38

CAB customer data 36

360 file data 26

CAB invconfshipment data 19

360 document data 18

CAB mehistory data 14

CAB installation data 13

CAB elmeter data 13

CAB phonenumber data 13

Toltalt 4 939

Bruk av RDF standarden

• W3C standard• Stor utbredelse og verktøysett• Dynamisk datastruktur• Data og struktur beskrives med samme

språk• Alle relasjoner er eksplisitte• Alle objekter har en global unik

identifikator (URL)

Datastruktur

10

SESAM

Åpne data

Arkiv

CRM

ERP

sameAs

sameAs

Uavhengighet til kilde

11

Core model

core: Person

core: Project

core:participant

idm: Person

idm: Project

sp: Person

sp: Project

sp:member-ofidm:has-member

System#1 System#2

Øke datakvaliteten

• De duplisering• Suppler med åpne data• Koble vokabularer

Ikke dytt!

• IT-folk flest vil helst “dytte” data– avsender kaller tjenester hos mottager

• Dette gir høy kompleksitet– begge systemene har nå avhengighet til hverandre– må implementere kode og logikk i fagsystemet– egne triggere/tråder i fagsystemet– mange bevegelige deler

13

Fagsystem #1

Dra!

• Vi lar mottagerene trekke data fra kilden– og bruker alltid samme protokoll og samme format

• “Pakker inn” kilden– innpakningen må støtte 3 enkle funksjoner

• Gir en helt annen løsning– kun mottager som er avhengig av kilde– i mange tilfeller null kode– innpakningen er tynn og tilstandsløs– selve dataflyttingen gjøres av kode som er felles for

alle integrasjonene

14

Fagsystem #1

TINE mine middager

Løsningen

1. Trekk alle relevante data ut fra kildene2. Lagre dem i en RDF graf3. Annoter originalmodellene med nye

behov4. Vask og rydd i datasettet etter behov5. Bruk grafen som kilde til alle

informasjonsbehov

top related