whitepaper big datastatic.itqa.nl/downloads/whitepaper_big_data.pdf · in het corporate segment en...

7
Genereer meer business met Big Data Hoe doe je dat nu in de praktijk? BIG DATA VAN PROSERVE Een whitepaper van proserve® Oktober 2015

Upload: others

Post on 13-Sep-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Whitepaper Big Datastatic.itqa.nl/downloads/Whitepaper_Big_Data.pdf · in het corporate segment en de overheid worden bediend met het faciliteren van Infrastructure en Platform as

Genereer meer business met Big Data

Hoe doe je dat nu in de praktijk?

BIG DATA VAN PROSERVE

Een whitepaper van proserve®

Oktober 2015

Page 2: Whitepaper Big Datastatic.itqa.nl/downloads/Whitepaper_Big_Data.pdf · in het corporate segment en de overheid worden bediend met het faciliteren van Infrastructure en Platform as

Proserve B.V. levert hoogwaardige Managed Services

en Cloud Solutions aan grote en middelgrote

bedrijven en instellingen en neemt desgewenst de

volledige IT-(cloud)infrastructuur uit handen.

Signet B.V. is gespecialiseerd in hoogwaardige

Connectiviteits- en Netwerk oplossingen (waaronder

VPN, IP private networks, VoIP en gehoste

telefooncentrales) voor zowel grote ondernemingen

als het MKB.

De Digitale Stad (DDS) richt zich met name op

het leveren, supporten en onderhouden van

connectiviteits- en aanverwante diensten voor kleine

ondernemingen, zelfstandigen en consumenten.

VDX B.V. is gespecialiseerd in Web Presence Services

(domeinnaamregistratie, webhosting, mail, anti

spam/anti virus en backup online) voor kleinere

ondernemingen voor wie IT/internet kritisch is in hun

bedrijfsvoering.

Webstekker B.V. levert Web Presence diensten

aan kleine ondernemingen, zelfstandigen en

consumenten.

CloudVPS levert binnen het cloudlandschap

Infrastructure as a Service (IaaS). Dit houdt in dat er

computercapaciteit geleverd wordt die vrij ingezet

kan worden.

De opdrachtgever

De IT-Ernity Groep (www.it-ernity.nl) is één van de grotere full service Internet Service Providers van

Nederland. De IT-Ernity groep levert haar diensten vanuit vijf complementaire, gespecialiseerde

bedrijfsonderdelen:

Een whitepaper van proserve®Big Data

2 3

Oktober 2015

Inhoud

DE OPDRACHTGEVER 2

DE AANLEIDING 4

DE PARTNER 5

DE ROL VAN ANCHORMEN 7

DE OPLOSSING 7

DE ROL VAN PROSERVE 8

TECHNIEK 9

I n t e r n e t , m a a r d a n a n d e r s .

Over proserveproserve is onderdeel van de IT-Ernity groep. Met circa honderd werknemers bedient het

bedrijf meer dan 50.000 klanten, beheert het 150.000 domeinnamen en ruim 6.000 servers.

Vanuit haar vestigingen in Amsterdam, Zwolle, Son, Rotterdam en Papendrecht levert zij

– samen met diverse gerenommeerde partners – internetservices in de breedste zin van het

woord. Kwaliteit en veiligheid zijn belangrijke pijlers in de dienstverlening, hetgeen zich laat

onderschrijven door de ISO 9001 en 27001 certifi cering. Het DNA van de organisatie laat

zich het beste vertalen in no-nonsense, ‘business aware’, innovatief, pro-actief, professioneel

en mensgericht. Bekende klantnamen zijn KPMG, Vliegwinkel.nl, Vakantieveilingen.nl,

Bol.com en Funda. Binnen de IT-Ernity groep is proserve het merk van waaruit de klanten

in het corporate segment en de overheid worden bediend met het faciliteren van

Infrastructure en Platform as a Service (IaaS en PaaS) en levert men managed services.

Page 3: Whitepaper Big Datastatic.itqa.nl/downloads/Whitepaper_Big_Data.pdf · in het corporate segment en de overheid worden bediend met het faciliteren van Infrastructure en Platform as

De aanleiding

Proserve is eind 2013 gestart met het bouwen en implementeren van een Big Data

infrastructuur. Met deze infra is proserve in staat om Big Data as a Service te bieden. Een dienst

die bedrijven in staat stelt om kennis te maken met Big Data toepassingen.

Aangezien proserve zich sec richt op het faciliteren, onderhouden en beheren van de infrastructuur

is zij op zoek gegaan naar een partner die zorg kon dragen voor het leveren van de benodigde

functionaliteit en voldoende expertise in huis had om klanten van een gedegen advies te voorzien.

Deze partner werd gevonden in de vorm van Anchormen. Samen met Anchormen zijn wij op zoek

gegaan naar een business case die de kracht van Big data aan zou tonen en de basis zou leggen voor

onze samenwerking.

De partnerAnchormen bestaat uit een team van innovatieve

en gedreven IT-professionals die met slimme

technologie, intelligente oplossingen en heldere

werkprocessen hun klanten vooruit helpen.

Anchormen’s visie ten aanzien van Big Data: het

slim inzetten van gegevens om de eff ectiviteit

van organisaties te verbeteren en om burgers

of consumenten beter te kunnen helpen. Met

slimme software zetten zij gegevens om in kennis

waarmee verbeteringen kunnen worden behaald,

kosten kunnen worden bespaard en er een basis

wordt gelegd voor nieuwe producten en services.

De Big Data oplossingen van Anchormen zijn in

staat om grote hoeveelheden data te analyseren

en om onvermoede verbanden te leggen. Keer

op keer toont Anchormen aan dat klantdata een

waardevolle bron van informatie is.

De uitdagingBij alle bedrijven die deel uit maken van de IT-Ernity

Groep wordt -uiteraard- e-mail functionaliteit

gefaciliteerd. ‘Uiteraard’, omdat e-mail vandaag

de dag een wezenlijk onderdeel uit maakt van de

primaire bedrijfsprocessen. E-mail is niet meer

weg te denken als communicatiemiddel en vormt

daarom een cruciaal onderdeel van de propositie

van de verschillende IT-Ernity bedrijven. Met ruim

50.000 klanten die nagenoeg allemaal gebruik

maken van e-mail zorgt deze dienst voor een

substantiële belasting van de infrastructuur van

IT-Ernity. Dat komt, niet op de laatste plaats, doordat

er veel verkeer is waar niemand om heeft gevraagd.

We hebben het hier over SPAM. Om deze berichten

tegen te houden voordat ze de eindgebruiker

bereiken is er sprake van een ‘Premium Anti-

SPAM Service. Deze service is, net als de e-mail

functionaliteit zelf, niet meer weg te denken. Zonder

Anti-SPAM zou elektronische post een grote bron

van irritatie en frustratie worden. De gemiddelde

inbox zou immers zeker voor 90% uit ongewenste

boodschappen bestaan.

Een whitepaper van proserve®Big Data

4 5

Oktober 2015

De IT-Ernity Groep is één van de grotere Full Service Internet Service Providers van NederlandBIG

DATADATABA

SE

SAN

NASSHAREDSERVERS

PARALLELS

COMPLEXITYSEARCH

MANAGEMENTH

IGH

CA

PACI

TY

NETWORKS

MASSIVELY DISK SPACE

STORAGE

ANALYTICS

CLOUD

Page 4: Whitepaper Big Datastatic.itqa.nl/downloads/Whitepaper_Big_Data.pdf · in het corporate segment en de overheid worden bediend met het faciliteren van Infrastructure en Platform as

De Anti-SPAM service bestaat uit een uitgebreid

cluster van SPAM fi rewalls van Barracuda

Networks. Dit cluster maakt deel uit van de

netwerk infrastructuur van IT-Ernity en wordt

ook volledig door haar onderhouden en

beheerd. Op de dienst wordt, net zoals met alle

overige producten en services support geleverd.

Dagelijks is een team van circa acht support

medewerkers gedurende twaalf uur per dag

bezig om allerhande vragen te beantwoorden

met betrekking tot domeinnaamregistraties,

webhosting en e-mail. Een deel van deze vragen

heeft betrekking op Anti-SPAM. Het kan namelijk voorkomen dat een bepaalde e-mail niet verder

komt dan de fi rewall terwijl dat wel de bedoeling was. Aangezien de Anti-SPAM oplossing redelijk

complex is wordt een dergelijke vraag altijd doorgezet naar de tweede lijns helpdesk alwaar één van

de engineers zich hierover ontfermt.

Complexiteit is echter niet de enige reden om

dergelijke vragen door te zetten naar meer

gekwalifi ceerd personeel. Een veel grotere

uitdaging vormt de enorme database waar deze

SPAM uiteindelijk beland en het doorzoeken

er van. We hebben het hier namelijk over

miljoenen e-mails per dag! E-mails die om

diverse redenen worden tegen gehouden en die

zich maar moeilijk terug laten vinden gelet op

de beperkte kenmerken waar een engineer op

kan zoeken. Niet alle informatie wordt namelijk

vast gehouden. Het is alleen de zogenaamde ‘header’ waarin zaken staan als afzender, geadresseerde,

datum van verzending, onderwerp, én -last but not least- de reden waarom de betreff ende e-mail

werd tegen gehouden.

Het percentage e-mails wat ten onrechte door de anti-SPAM service wordt tegen gehouden is te

verwaarlozen. In aantal zijn het er enkele tientallen per week. Toch vormt dit beperkte aantal om

voornoemde redenen een onevenredige belasting voor de tweede lijns supportdesk. Een afdeling die

bemenst wordt door gekwalifi ceerd personeel en om die reden een relatief hoog uurtarief kent. Door

een continue toename in klanten, e-mails en SPAM is er momenteel minimaal 1 fte belast met het

onderzoek naar e-mails die ten onrechte niet doorkomen. Een ongewenste kostenpost.

De rol van AnchormenEen intensieve inventarisatie van systemen,

gebruikte software en logfi les alsmede diverse

gesprekken met engineers van zowel IT-Ernity

als proserve vormde de basis voor het opleveren

van een functioneel ontwerp. Dit ontwerp toonde

aan dat zij zich tot op detail hadden verdiept in

de materie en de business case waardoor er snel

gestart kon worden met de daadwerkelijke bouw.

Anchormen werkt volgens het Agile/Scrum principe

hetgeen er toe leidde dat het ontwikkelproces

nauw te volgen was. Daar waar nodig was er

overleg en kon er tijdig bijgestuurd worden.

Het opgeleverde prototype was daardoor geen

verrassing en stelde ons in staat om snel aan de

slag te gaan met de realisatie van de back-end en

front-end. Tegelijkertijd bouwde proserve aan de

benodigde infrastructuur waarbij zij ten aanzien

van het architectuur ontwerp mede de ervaring van

Anchormen gebruikte. Rekenkracht, storage, een

hoge I/O en beveiliging stonden hierbij centraal.

De oplossingAnchormen ontwikkelde een applicatie waardoor

de 2e lijns support niet meer ingeschakeld hoeft

te worden bij vragen over het niet doorkomen

van bepaalde e-mails. Door de inzet van een

uiterst laagdrempelige en eenvoudige interface

is de reguliere eerste lijns support nu zelf in staat

om de betreff ende e-mail op te zoeken en de

klant van informatie te voorzien met betrekking

tot de reden van blokkeren. De afdeling support

van IT-Ernity beschikt hiertoe over een applicatie

waarbij op de al eerder genoemde kenmerken

gezocht kan worden. Dat zoeken gebeurt real

time in een dataset van enkele miljarden records.

De voordelen van de opgeleverde applicatie zijn

legio. De eerste lijns support medewerker is nu in

staat om de betreff ende klant direct te informeren.

Geen langlopende tickets, geen escalatie naar een

kostbare engineer (tweede lijns support) en een

verhoogde klanttevredenheid. De eerder genoemde

FTE is gereduceerd naar 0,1 FTE waardoor er sprake

is van een aanzienlijke kostenreductie.

Een bijkomend voordeel van het gebruik van

deze applicatie is dat er sprake is van een zeer

gedetailleerd inzicht in de herkomst en inhoud

van SPAM. Met twee miljard e-mails per jaar kan

gesteld worden dat IT-Ernity nu beschikt over een

representatief beeld van het totale e-mailgebruik.

Land van herkomst, gebruikte extensies, onderwerp

alsmede de reden van blokkeren zijn inzichtelijk

over een door IT-Ernity te bepalen tijdvak. Deze

informatie kan gebruikt worden om het betreff ende

fi lter in de fi rewall te optimaliseren waardoor deze

steeds nauwkeuriger wordt.

Een whitepaper van proserve®Big Data

6 7

Oktober 2015

De cijfers

• 2.000.000.000 e-mails per jaar

• 200.000 domeinnamen registraties

• 5 mailboxen per klant (gemiddeld)

• 1FTE voor onderzoek

E-mail

De gemiddelde inbox zou voor 90% uit ongewenste boodschappen bestaan.

Page 5: Whitepaper Big Datastatic.itqa.nl/downloads/Whitepaper_Big_Data.pdf · in het corporate segment en de overheid worden bediend met het faciliteren van Infrastructure en Platform as

Een whitepaper van proserve®Big Data

8 9

Oktober 2015

De rol van proserve

Proserve faciliteert, onderhoud en beheert de onderliggende infrastructuur en zorgt voor

optimalisatie ten aanzien van performance. Daarnaast draagt zij zorg voor beveiliging van data

waarbij sprake is van een meer dan gemiddeld niveau gelet op het privacy gevoelige karakter van

deze dienst. Proserve beschikt daartoe over alle benodigde expertise ten aanzien van de gebruikte

technieken zoals Cloudera (Hadoop distributie), ElasticSearch en MapReduce.

Techniek

De ‘onderliggende’ infrastructuur bestaat uit een

setup van twee virtual machines en vijf fysieke

servers.

Eén VM is ingericht met Cloudera Manager.

Deze applicatie kent een viertal kernfuncties:

1. Management: Eenvoudig uitrollen,

confi gureren en operationeel maken van

een ‘data hub’ vanuit één centrale console

voor het onderhouden en beheren van

services, hosts en workfl ows.

2. Monitoring: Eén centraal overzicht van

alle activiteiten in het totale cluster door

zogenaamde heatmaps, pro actieve ‘health

checks’ en alerts.

3. Diagnose: Diagnosticeren en problemen

oplossen met behulp van operationele

rapporten en dashboards. Events,

logbestanden en audit trails bekijken en

doorzoekbaar maken.

4. Integratie: Het integreren met bestaande

monitoringtools zoals SNMP, SMTP, NewRelic

en API’s.

Eén VM is ingericht met CentOS en Apache

Tomcat. Hier draait de op Java gebaseerde en door

Anchormen ontwikkelde PASS applicatie.

Eén fysieke server is ingericht met CentOS en

Elasticsearch. De Java applicatie haalt hier zijn

data vandaan. De kracht van Elasticsearch is het

goed en snel indexeren en data snel opvraagbaar

maken. Een platform op basis van Eleasticsearch

laat zich eenvoudig in de breedte schalen waardoor

peformance snel vergroot kan worden door er

servers horizontaal naast te zetten.

De overige vier fysieke servers zijn Cloudera

nodes. Deze hebben diverse taken. Een van de

belangrijkste hiervan is het HDFS fi lesystem wat een

basis bestanddeel is van vele big data distributies.

HDFS is een fi lesysteem die over de verschillende

machines heen te gebruiken is waarbij de data op

meerdere servers wordt opgeslagen. Hierdoor is de

data redundant en beschikbaar mocht één van de

data nodes uitvallen.

Illustratie

De kracht is het goed indexeren en data snel opvraagbaar maken.

Page 6: Whitepaper Big Datastatic.itqa.nl/downloads/Whitepaper_Big_Data.pdf · in het corporate segment en de overheid worden bediend met het faciliteren van Infrastructure en Platform as

Een whitepaper van proserve®Big Data

10 11

Oktober 2015

Vervolgens zijn er diverse applicaties die gebruikt kunnen worden om bewerkingen op deze data te

doen. Dit zijn over het algemeen Java gebaseerde applicaties en veelal opensource. De technieken die

Proserve gebruikt zijn Flume NG, een applicatie waarmee wij de maillog logfi les vanaf de syslog server

via TCP kunnen doorzetten naar de name node server. Op de name node wordt het vervolgens op het

HDFS fi lesysteem geplaatst.

Met Hadoop User Experience (een grafi sche schil die multi tenant is) worden de diverse applicaties

bediend. Door Anchormen is een JAVA applicatie (MapReduce Job) ontwikkeld waarmee de logfi le

data wordt ‘geparsed’ en vervolgens in hapklare brokken klaar gezet wordt voor Elasticsearch.

Vervolgens gebruiken wij Apache Oozie (een workfl ow scheduler for Hadoop) om de MapReduce job

iedere 5 minuten te schedulen en iedere 5 minuten de logfi le data op te pakken en klaar te zetten

voor Elasticsearch. Na 5 minuten (near realtime) is de data vanuit PASS dus beschikbaar via de Apache

Tomcat applicatie.

Tot zover de technieken die wij voor de PASS toepassing gebruiken. De Cloudera stack, en zo ook

andere distributies, kent meer tools:

Sqoop, tool om data uit te wisselen tussen Hadoop en een database server

Spark, tool om vanuit geheugen bewerkingen en queries te kunnen draaien op data

Shark, SQL query taal voor HDFS data

Hive, tool om via SQL achtige syntax queries uit te voeren op SQL achtige tabellen binnen HDFS

Impala, tool om via SQL achtige omgevingen syntax analyses uit te voeren op diverse type data

op het HDFS

Pig, commandline tool om analyses to doen op data binnen het HDFS.

Hbase, realtime interactie met data op het HDFS fi lesystem

Solr, full-text-search engine

Yarn, the next generation MapReduce, een basis bestanddeel voor vele applicaties.

MapReduce zorgt ervoor dat de computing op alle nodes plaats vindt.

De meeste van deze tools hebben gemeen dat ze

‘Massively Parallel Processing’ (MPP) compatible

zijn. Door gebruik te maken van Yarn worden er

op de achtergrond MapReduce jobs geschreven

die computing uitvoeren op alle individuele nodes

in het cluster. Door Yarn in te zetten hebben we

de mogelijkheid om ‘near realtime’ resultaten te

behalen, vanwege het generieke processingmodel.

Bjj zeer grote hoeveelheden data is dit altijd sneller

dan traditionele verticaal geschaalde oplossingen.

CPU/ memory/harddisk IO bereikt altijd een limiet.

Door parallel te schalen kunnen we heel ver gaan.

Er zijn omgevingen die inmiddels > 4000 nodes zijn.

Page 7: Whitepaper Big Datastatic.itqa.nl/downloads/Whitepaper_Big_Data.pdf · in het corporate segment en de overheid worden bediend met het faciliteren van Infrastructure en Platform as

Nieuwland Parc 155

3351 LJ Papendrecht

The Netherlands

Postbus 363

2950 AJ Alblasserdam

T +31 88 25 25 252

E [email protected]

proserve®

Contact

Meer gedetailleerde informatie over de gebruikte techniek, de inrichting van het platform en het

netwerk is uiteraard beschikbaar. Ook bij het verkennen van uw big data ambitie spelen wij graag

een rol. Uw accountmanager zal u daar graag over informeren.

Bel 088 2525252 of stuur een email naar [email protected]