whitepaper big datastatic.itqa.nl/downloads/whitepaper_big_data.pdf · in het corporate segment en...
TRANSCRIPT
Genereer meer business met Big Data
Hoe doe je dat nu in de praktijk?
BIG DATA VAN PROSERVE
Een whitepaper van proserve®
Oktober 2015
Proserve B.V. levert hoogwaardige Managed Services
en Cloud Solutions aan grote en middelgrote
bedrijven en instellingen en neemt desgewenst de
volledige IT-(cloud)infrastructuur uit handen.
Signet B.V. is gespecialiseerd in hoogwaardige
Connectiviteits- en Netwerk oplossingen (waaronder
VPN, IP private networks, VoIP en gehoste
telefooncentrales) voor zowel grote ondernemingen
als het MKB.
De Digitale Stad (DDS) richt zich met name op
het leveren, supporten en onderhouden van
connectiviteits- en aanverwante diensten voor kleine
ondernemingen, zelfstandigen en consumenten.
VDX B.V. is gespecialiseerd in Web Presence Services
(domeinnaamregistratie, webhosting, mail, anti
spam/anti virus en backup online) voor kleinere
ondernemingen voor wie IT/internet kritisch is in hun
bedrijfsvoering.
Webstekker B.V. levert Web Presence diensten
aan kleine ondernemingen, zelfstandigen en
consumenten.
CloudVPS levert binnen het cloudlandschap
Infrastructure as a Service (IaaS). Dit houdt in dat er
computercapaciteit geleverd wordt die vrij ingezet
kan worden.
De opdrachtgever
De IT-Ernity Groep (www.it-ernity.nl) is één van de grotere full service Internet Service Providers van
Nederland. De IT-Ernity groep levert haar diensten vanuit vijf complementaire, gespecialiseerde
bedrijfsonderdelen:
Een whitepaper van proserve®Big Data
2 3
Oktober 2015
Inhoud
DE OPDRACHTGEVER 2
DE AANLEIDING 4
DE PARTNER 5
DE ROL VAN ANCHORMEN 7
DE OPLOSSING 7
DE ROL VAN PROSERVE 8
TECHNIEK 9
I n t e r n e t , m a a r d a n a n d e r s .
Over proserveproserve is onderdeel van de IT-Ernity groep. Met circa honderd werknemers bedient het
bedrijf meer dan 50.000 klanten, beheert het 150.000 domeinnamen en ruim 6.000 servers.
Vanuit haar vestigingen in Amsterdam, Zwolle, Son, Rotterdam en Papendrecht levert zij
– samen met diverse gerenommeerde partners – internetservices in de breedste zin van het
woord. Kwaliteit en veiligheid zijn belangrijke pijlers in de dienstverlening, hetgeen zich laat
onderschrijven door de ISO 9001 en 27001 certifi cering. Het DNA van de organisatie laat
zich het beste vertalen in no-nonsense, ‘business aware’, innovatief, pro-actief, professioneel
en mensgericht. Bekende klantnamen zijn KPMG, Vliegwinkel.nl, Vakantieveilingen.nl,
Bol.com en Funda. Binnen de IT-Ernity groep is proserve het merk van waaruit de klanten
in het corporate segment en de overheid worden bediend met het faciliteren van
Infrastructure en Platform as a Service (IaaS en PaaS) en levert men managed services.
De aanleiding
Proserve is eind 2013 gestart met het bouwen en implementeren van een Big Data
infrastructuur. Met deze infra is proserve in staat om Big Data as a Service te bieden. Een dienst
die bedrijven in staat stelt om kennis te maken met Big Data toepassingen.
Aangezien proserve zich sec richt op het faciliteren, onderhouden en beheren van de infrastructuur
is zij op zoek gegaan naar een partner die zorg kon dragen voor het leveren van de benodigde
functionaliteit en voldoende expertise in huis had om klanten van een gedegen advies te voorzien.
Deze partner werd gevonden in de vorm van Anchormen. Samen met Anchormen zijn wij op zoek
gegaan naar een business case die de kracht van Big data aan zou tonen en de basis zou leggen voor
onze samenwerking.
De partnerAnchormen bestaat uit een team van innovatieve
en gedreven IT-professionals die met slimme
technologie, intelligente oplossingen en heldere
werkprocessen hun klanten vooruit helpen.
Anchormen’s visie ten aanzien van Big Data: het
slim inzetten van gegevens om de eff ectiviteit
van organisaties te verbeteren en om burgers
of consumenten beter te kunnen helpen. Met
slimme software zetten zij gegevens om in kennis
waarmee verbeteringen kunnen worden behaald,
kosten kunnen worden bespaard en er een basis
wordt gelegd voor nieuwe producten en services.
De Big Data oplossingen van Anchormen zijn in
staat om grote hoeveelheden data te analyseren
en om onvermoede verbanden te leggen. Keer
op keer toont Anchormen aan dat klantdata een
waardevolle bron van informatie is.
De uitdagingBij alle bedrijven die deel uit maken van de IT-Ernity
Groep wordt -uiteraard- e-mail functionaliteit
gefaciliteerd. ‘Uiteraard’, omdat e-mail vandaag
de dag een wezenlijk onderdeel uit maakt van de
primaire bedrijfsprocessen. E-mail is niet meer
weg te denken als communicatiemiddel en vormt
daarom een cruciaal onderdeel van de propositie
van de verschillende IT-Ernity bedrijven. Met ruim
50.000 klanten die nagenoeg allemaal gebruik
maken van e-mail zorgt deze dienst voor een
substantiële belasting van de infrastructuur van
IT-Ernity. Dat komt, niet op de laatste plaats, doordat
er veel verkeer is waar niemand om heeft gevraagd.
We hebben het hier over SPAM. Om deze berichten
tegen te houden voordat ze de eindgebruiker
bereiken is er sprake van een ‘Premium Anti-
SPAM Service. Deze service is, net als de e-mail
functionaliteit zelf, niet meer weg te denken. Zonder
Anti-SPAM zou elektronische post een grote bron
van irritatie en frustratie worden. De gemiddelde
inbox zou immers zeker voor 90% uit ongewenste
boodschappen bestaan.
Een whitepaper van proserve®Big Data
4 5
Oktober 2015
De IT-Ernity Groep is één van de grotere Full Service Internet Service Providers van NederlandBIG
DATADATABA
SE
SAN
NASSHAREDSERVERS
PARALLELS
COMPLEXITYSEARCH
MANAGEMENTH
IGH
CA
PACI
TY
NETWORKS
MASSIVELY DISK SPACE
STORAGE
ANALYTICS
CLOUD
De Anti-SPAM service bestaat uit een uitgebreid
cluster van SPAM fi rewalls van Barracuda
Networks. Dit cluster maakt deel uit van de
netwerk infrastructuur van IT-Ernity en wordt
ook volledig door haar onderhouden en
beheerd. Op de dienst wordt, net zoals met alle
overige producten en services support geleverd.
Dagelijks is een team van circa acht support
medewerkers gedurende twaalf uur per dag
bezig om allerhande vragen te beantwoorden
met betrekking tot domeinnaamregistraties,
webhosting en e-mail. Een deel van deze vragen
heeft betrekking op Anti-SPAM. Het kan namelijk voorkomen dat een bepaalde e-mail niet verder
komt dan de fi rewall terwijl dat wel de bedoeling was. Aangezien de Anti-SPAM oplossing redelijk
complex is wordt een dergelijke vraag altijd doorgezet naar de tweede lijns helpdesk alwaar één van
de engineers zich hierover ontfermt.
Complexiteit is echter niet de enige reden om
dergelijke vragen door te zetten naar meer
gekwalifi ceerd personeel. Een veel grotere
uitdaging vormt de enorme database waar deze
SPAM uiteindelijk beland en het doorzoeken
er van. We hebben het hier namelijk over
miljoenen e-mails per dag! E-mails die om
diverse redenen worden tegen gehouden en die
zich maar moeilijk terug laten vinden gelet op
de beperkte kenmerken waar een engineer op
kan zoeken. Niet alle informatie wordt namelijk
vast gehouden. Het is alleen de zogenaamde ‘header’ waarin zaken staan als afzender, geadresseerde,
datum van verzending, onderwerp, én -last but not least- de reden waarom de betreff ende e-mail
werd tegen gehouden.
Het percentage e-mails wat ten onrechte door de anti-SPAM service wordt tegen gehouden is te
verwaarlozen. In aantal zijn het er enkele tientallen per week. Toch vormt dit beperkte aantal om
voornoemde redenen een onevenredige belasting voor de tweede lijns supportdesk. Een afdeling die
bemenst wordt door gekwalifi ceerd personeel en om die reden een relatief hoog uurtarief kent. Door
een continue toename in klanten, e-mails en SPAM is er momenteel minimaal 1 fte belast met het
onderzoek naar e-mails die ten onrechte niet doorkomen. Een ongewenste kostenpost.
De rol van AnchormenEen intensieve inventarisatie van systemen,
gebruikte software en logfi les alsmede diverse
gesprekken met engineers van zowel IT-Ernity
als proserve vormde de basis voor het opleveren
van een functioneel ontwerp. Dit ontwerp toonde
aan dat zij zich tot op detail hadden verdiept in
de materie en de business case waardoor er snel
gestart kon worden met de daadwerkelijke bouw.
Anchormen werkt volgens het Agile/Scrum principe
hetgeen er toe leidde dat het ontwikkelproces
nauw te volgen was. Daar waar nodig was er
overleg en kon er tijdig bijgestuurd worden.
Het opgeleverde prototype was daardoor geen
verrassing en stelde ons in staat om snel aan de
slag te gaan met de realisatie van de back-end en
front-end. Tegelijkertijd bouwde proserve aan de
benodigde infrastructuur waarbij zij ten aanzien
van het architectuur ontwerp mede de ervaring van
Anchormen gebruikte. Rekenkracht, storage, een
hoge I/O en beveiliging stonden hierbij centraal.
De oplossingAnchormen ontwikkelde een applicatie waardoor
de 2e lijns support niet meer ingeschakeld hoeft
te worden bij vragen over het niet doorkomen
van bepaalde e-mails. Door de inzet van een
uiterst laagdrempelige en eenvoudige interface
is de reguliere eerste lijns support nu zelf in staat
om de betreff ende e-mail op te zoeken en de
klant van informatie te voorzien met betrekking
tot de reden van blokkeren. De afdeling support
van IT-Ernity beschikt hiertoe over een applicatie
waarbij op de al eerder genoemde kenmerken
gezocht kan worden. Dat zoeken gebeurt real
time in een dataset van enkele miljarden records.
De voordelen van de opgeleverde applicatie zijn
legio. De eerste lijns support medewerker is nu in
staat om de betreff ende klant direct te informeren.
Geen langlopende tickets, geen escalatie naar een
kostbare engineer (tweede lijns support) en een
verhoogde klanttevredenheid. De eerder genoemde
FTE is gereduceerd naar 0,1 FTE waardoor er sprake
is van een aanzienlijke kostenreductie.
Een bijkomend voordeel van het gebruik van
deze applicatie is dat er sprake is van een zeer
gedetailleerd inzicht in de herkomst en inhoud
van SPAM. Met twee miljard e-mails per jaar kan
gesteld worden dat IT-Ernity nu beschikt over een
representatief beeld van het totale e-mailgebruik.
Land van herkomst, gebruikte extensies, onderwerp
alsmede de reden van blokkeren zijn inzichtelijk
over een door IT-Ernity te bepalen tijdvak. Deze
informatie kan gebruikt worden om het betreff ende
fi lter in de fi rewall te optimaliseren waardoor deze
steeds nauwkeuriger wordt.
Een whitepaper van proserve®Big Data
6 7
Oktober 2015
De cijfers
• 2.000.000.000 e-mails per jaar
• 200.000 domeinnamen registraties
• 5 mailboxen per klant (gemiddeld)
• 1FTE voor onderzoek
De gemiddelde inbox zou voor 90% uit ongewenste boodschappen bestaan.
Een whitepaper van proserve®Big Data
8 9
Oktober 2015
De rol van proserve
Proserve faciliteert, onderhoud en beheert de onderliggende infrastructuur en zorgt voor
optimalisatie ten aanzien van performance. Daarnaast draagt zij zorg voor beveiliging van data
waarbij sprake is van een meer dan gemiddeld niveau gelet op het privacy gevoelige karakter van
deze dienst. Proserve beschikt daartoe over alle benodigde expertise ten aanzien van de gebruikte
technieken zoals Cloudera (Hadoop distributie), ElasticSearch en MapReduce.
Techniek
De ‘onderliggende’ infrastructuur bestaat uit een
setup van twee virtual machines en vijf fysieke
servers.
Eén VM is ingericht met Cloudera Manager.
Deze applicatie kent een viertal kernfuncties:
1. Management: Eenvoudig uitrollen,
confi gureren en operationeel maken van
een ‘data hub’ vanuit één centrale console
voor het onderhouden en beheren van
services, hosts en workfl ows.
2. Monitoring: Eén centraal overzicht van
alle activiteiten in het totale cluster door
zogenaamde heatmaps, pro actieve ‘health
checks’ en alerts.
3. Diagnose: Diagnosticeren en problemen
oplossen met behulp van operationele
rapporten en dashboards. Events,
logbestanden en audit trails bekijken en
doorzoekbaar maken.
4. Integratie: Het integreren met bestaande
monitoringtools zoals SNMP, SMTP, NewRelic
en API’s.
Eén VM is ingericht met CentOS en Apache
Tomcat. Hier draait de op Java gebaseerde en door
Anchormen ontwikkelde PASS applicatie.
Eén fysieke server is ingericht met CentOS en
Elasticsearch. De Java applicatie haalt hier zijn
data vandaan. De kracht van Elasticsearch is het
goed en snel indexeren en data snel opvraagbaar
maken. Een platform op basis van Eleasticsearch
laat zich eenvoudig in de breedte schalen waardoor
peformance snel vergroot kan worden door er
servers horizontaal naast te zetten.
De overige vier fysieke servers zijn Cloudera
nodes. Deze hebben diverse taken. Een van de
belangrijkste hiervan is het HDFS fi lesystem wat een
basis bestanddeel is van vele big data distributies.
HDFS is een fi lesysteem die over de verschillende
machines heen te gebruiken is waarbij de data op
meerdere servers wordt opgeslagen. Hierdoor is de
data redundant en beschikbaar mocht één van de
data nodes uitvallen.
Illustratie
De kracht is het goed indexeren en data snel opvraagbaar maken.
Een whitepaper van proserve®Big Data
10 11
Oktober 2015
Vervolgens zijn er diverse applicaties die gebruikt kunnen worden om bewerkingen op deze data te
doen. Dit zijn over het algemeen Java gebaseerde applicaties en veelal opensource. De technieken die
Proserve gebruikt zijn Flume NG, een applicatie waarmee wij de maillog logfi les vanaf de syslog server
via TCP kunnen doorzetten naar de name node server. Op de name node wordt het vervolgens op het
HDFS fi lesysteem geplaatst.
Met Hadoop User Experience (een grafi sche schil die multi tenant is) worden de diverse applicaties
bediend. Door Anchormen is een JAVA applicatie (MapReduce Job) ontwikkeld waarmee de logfi le
data wordt ‘geparsed’ en vervolgens in hapklare brokken klaar gezet wordt voor Elasticsearch.
Vervolgens gebruiken wij Apache Oozie (een workfl ow scheduler for Hadoop) om de MapReduce job
iedere 5 minuten te schedulen en iedere 5 minuten de logfi le data op te pakken en klaar te zetten
voor Elasticsearch. Na 5 minuten (near realtime) is de data vanuit PASS dus beschikbaar via de Apache
Tomcat applicatie.
Tot zover de technieken die wij voor de PASS toepassing gebruiken. De Cloudera stack, en zo ook
andere distributies, kent meer tools:
Sqoop, tool om data uit te wisselen tussen Hadoop en een database server
Spark, tool om vanuit geheugen bewerkingen en queries te kunnen draaien op data
Shark, SQL query taal voor HDFS data
Hive, tool om via SQL achtige syntax queries uit te voeren op SQL achtige tabellen binnen HDFS
Impala, tool om via SQL achtige omgevingen syntax analyses uit te voeren op diverse type data
op het HDFS
Pig, commandline tool om analyses to doen op data binnen het HDFS.
Hbase, realtime interactie met data op het HDFS fi lesystem
Solr, full-text-search engine
Yarn, the next generation MapReduce, een basis bestanddeel voor vele applicaties.
MapReduce zorgt ervoor dat de computing op alle nodes plaats vindt.
De meeste van deze tools hebben gemeen dat ze
‘Massively Parallel Processing’ (MPP) compatible
zijn. Door gebruik te maken van Yarn worden er
op de achtergrond MapReduce jobs geschreven
die computing uitvoeren op alle individuele nodes
in het cluster. Door Yarn in te zetten hebben we
de mogelijkheid om ‘near realtime’ resultaten te
behalen, vanwege het generieke processingmodel.
Bjj zeer grote hoeveelheden data is dit altijd sneller
dan traditionele verticaal geschaalde oplossingen.
CPU/ memory/harddisk IO bereikt altijd een limiet.
Door parallel te schalen kunnen we heel ver gaan.
Er zijn omgevingen die inmiddels > 4000 nodes zijn.
Nieuwland Parc 155
3351 LJ Papendrecht
The Netherlands
Postbus 363
2950 AJ Alblasserdam
T +31 88 25 25 252
proserve®
Contact
Meer gedetailleerde informatie over de gebruikte techniek, de inrichting van het platform en het
netwerk is uiteraard beschikbaar. Ook bij het verkennen van uw big data ambitie spelen wij graag
een rol. Uw accountmanager zal u daar graag over informeren.
Bel 088 2525252 of stuur een email naar [email protected]