analytics et big data, une histoire de cubes

Mathias Kluba

Architecte Big Data au sein de la Société Générale

Mehdi BEN HAJ ABBES

Architecte Technique Big Data

@MehdiAbbes

•D’analytics

•De Cubes

•De Big Data

•D’Open Source

Dashboards, Reports, Analytics, BI, Data Viz… calculer des indicateurs

SELECT AVG(précipitation), année, région

FROM historique

GROUP BY année, région

Besoin de traiter de gros volumes (ex: 60To) Limite de la scalabilité verticale

Solution: scalabilité horizontale

: projet Open Source Big Data, inspiré de des papiers de Google

• Stockage sur un système de fichier distribué

• La donnée est “éclatée” sur plusieurs serveurs

• La donnée est répliquée sur plusieurs serveurs

HDFS (Hadoop Distributed File System)

• YARN : Un scheduler pour distribuer les ressources

• Des frameworks / applications en concurrence pour des ressources et essayant d’assurer la data locality

: SQL sur Hadoop, inventé par Facebook

FROM historique

• Full-scan plus rapide

• Compression: plus efficace en colonnes

• Moins d’IO

FROM historique

Besoin d’interactivité, temps de requête <1s

Solution: pré-calculer les résultats ?

INSERT OVERWRITE TABLE cube

FROM historique

WITH CUBE

• Une base de données qui permet d’obtenir des mesures sur des dimensions

• Cube OLAP (Online Analytics Processing)

• Ce n’est donc pas une base OLTP (Online Transaction Processing)

• Toujours plus de données, plus d’axes, etc.

• Construction du cube tous les jours, ou même en temps réel

• Plusieurs approches…

• Support de la fonction “cube” dans Hive et Spark

• Stockage dans une base clé/valeur

• Avec N dimension, nous avons 2^N cuboïdes

• Prendre en compte la cardinalité des dimensions pour avoir le nombre de ligne…

kylin / ˈkiːˈlɪn / 麒麟

--n. (in Chinese art) a mythical animal of composite form

Extreme OLAP Engine for Big Data

Kylin is an open source Distributed Analytics Engine, contributed by eBay Inc., provides

SQL interface and multi-dimensional analysis (OLAP) on Hadoop supporting extremely

large datasets

• Open Sourced on Oct 1st, 2014

• Accepted as Apache Incubator Project on Nov 25th, 2014

• http://kylin.io (http://kylin.incubator.apache.org) @ApacheKylin

• Pour ne pas attendre des heures

• Pour minimiser la latence

• Pour être plus réactif

• Pouvoir traiter des flux continus de données

Besoin de traiter au fil de l’eau

https://www.oreilly.com/ideas/questioning-the-lambda-architecture http://milinda.pathirage.org/kappa-architecture.com

• L’écosystème du streaming évolue et sa maturité ne va pas tarder

• Le batch est un sous ensemble du streaming

Architecture v3.0

Permet de traiter un grand nombre de dimensions, en batch

Architecture V4.0

Permet de traiter en temps réel, mais est limité par le nombre de dimensions

Besoin des 2 !

• Projet open-sourcé par Metamarkets

• Analytics pour des Time-Series

• Stockage colonne

• Batch & temps réel • Batch: analyse des données d’Hadoop

• Temps réel: flux d’événements de Kafka

• Agrégations à la volé, mais très rapide grâce au stockage colonne

• http://druid.io/ @druidio

• Utilisé chez Paypal, Critéo, eBay, Netflix, etc.

• Nécessite de connaitre l’ancienne valeur

• Nécessite de recalculer tous les cuboïdes impactés

Cube en temps réel… avec des mises à jours!

80 cores utilisés, 4 GB de RAM par core

50 millions de messages / min (avec un total de 1 milliard en 20 min)

125 cores utilisés, 1 GB de RAM par core

HBase optimisé pour les random access

10 millions de messages / min

Apache Lens https://lens.apache.org/ API Rest, driver JDBC, Cube QL, Cube MetaStore Requête une source à l’aide de drivers (Spark, Hive, etc.)

Mondrian http://community.pentaho.com/projects/mondrian/ Interface MDX Java. Requête une source à l’aide de JDBC Compatible avec Phoenix (SQL pour HBase)

WSO2 http://wso2.com/products/data-analytics-server/ Plateforme complète de développement, dont WSO2 Data Analytics Server API pour construire des cubes, repose sur les technologies comme Spark, Hive, Cassandra, etc.

Pulsar http://gopulsar.io Plateforme d’analytics, CEP, API Rest, SQL, HOLAP Source d’événements Kafka, source Druid

CDAP http://cask.co/ Plateforme complète pour développement Big Data API pour construire des cubes, source Kafka ou Hive, stockage HBase

• Les données ne sont jamais « propres »…

• Elles doivent être préparées avant

• Dé-normalisation: pré-jointure

• Outils complémentaires à la construction des Cubes • Hive, Spark, Storm, Flink, Nifi, etc.

analytics et big data, une histoire de cubes

Data & Analytics

big data & analytics innovation - the innovation...

big data analytics - stanford...

business analytics pour le big data

big analytics : les usages avant tout

dmti spatial location hub analytics: big data, analytics,...

big analytics best practices @ parc

business intelligence, analytics y big data

infinitum8 meistarklase big bang analytics - biznesa guru

identifying families through big data analytics

big data real-time analytics in erlang

big data & business analytics

data analytics | big data analytics services -...

sas big data analytics - fpa

exposición: big data/learning analytics

big data spain 2013 - ad networks analytics

big data analytics(hadoop) - · pdf fileall of this...

big data mit hadoop - sas: analytics, artificial...

ds504/cs586: big data analytics -...

bigdata: quelques enjeux techniques big data/big analytics...

oracle cloud · enterprise management it analytics log...