présentation bigquery et comparatif avec redshift

14
© Copyright 2015 – Keyrus 1

Upload: pierre-coste

Post on 15-Jan-2017

6.269 views

Category:

Technology


2 download

TRANSCRIPT

Page 1: Présentation BigQuery et comparatif avec RedShift

© Copyright 2015 – Keyrus 1

Page 2: Présentation BigQuery et comparatif avec RedShift

© Copyright 2015 – Keyrus 2© Copyright 2015 – Keyrus 2

CLOUD BI \ GOOGLE & AMAZON Focus Bigquery & Redshift

Olivier Breton – Responsable Innovation & Pierre Coste – Leader Technique BI & Search & Cloud

Page 3: Présentation BigQuery et comparatif avec RedShift

© Copyright 2015 – Keyrus 3

CLOUD : UNE OFFRE DE SERVICEA LA DEMANDE

Page 4: Présentation BigQuery et comparatif avec RedShift

© Copyright 2015 – Keyrus 4

LES DONNÉES DANS LE CLOUD

• Données secrètes : ne doivent pas être dans le cloud

• Données confidentielles : Ne mettent pas en péril la société

• Données normales : Peu de valeur pour la société

Cloud Souverain ?stockage US / EU ?

Page 5: Présentation BigQuery et comparatif avec RedShift

© Copyright 2015 – Keyrus 5

PRÉSENTATION AMAZON REDSHIFT

Page 6: Présentation BigQuery et comparatif avec RedShift

© Copyright 2015 – Keyrus 6

PRÉSENTATION BIGQUERY

• Un modèle qui ne peut pas être reproduit en local, une requête peut engendrer l’utilisation de 10 000 cœurs

• Pas d’installation, pas d’administration, pas d’index

• Scalable : répondra aussi vite peu importe le nombre d’utilisateurs et la données

• Temps réel – Stream data

table

dataset

PROJET

LES COMPOSANTS

∕ UTF-8 & ISO-8859-1∕ Support du SQL standard et

étendu par Bigquery∕ Modèles normalisés &

dénormalisés∕ Streaming∕ Chargements parallélisés∕ Interface graphique de gestion

Page 7: Présentation BigQuery et comparatif avec RedShift

© Copyright 2015 – Keyrus 7

PRÉSENTATION BIGQUERY• Stockage en colonne VS stockage en ligne

• Full scan de la table à chaque requête

• Mise en cache de chaque requête

Les colonnes

∕ Strings∕ integers∕ booleans∕ floats∕ timestamps,∕ Nested∕ records

Page 8: Présentation BigQuery et comparatif avec RedShift

© Copyright 2015 – Keyrus 8

PRÉSENTATION BIGQUERY• Chargement des données

• Par Fichier en CSV ou en JSON

• Streaming pour chargement en temps réel (via API)

Les données

∕ Une table alimentée est immuable

∕ Pas de modification au niveau ligne

∕ Pas d’update, pas de delete

Page 9: Présentation BigQuery et comparatif avec RedShift

© Copyright 2015 – Keyrus 9

PRÉSENTATION BIGQUERY• Décorateur pour diminuer les coûts

• @time : le snapshot

• TABLE_DATE_RANGE(prefix, timestamp1, timestamp2)

• TABLE_QUERY(dateset, expr) 'table_id CONTAINS "oo" AND length(table_id) >= 4')

Les cout

∕ Stockage : $0.020 per GB, per month

∕ Requête : $5 per TB (1er TB gratuit)

∕ Chargement / Copie / Export gratuit

Les cout∕ 750 heures gratuites pendant 2

Mois

∕ 0,25$/heure/node au moins cher pour 2 cpu / 15gb Ram /

Page 10: Présentation BigQuery et comparatif avec RedShift

© Copyright 2015 – Keyrus 10

CONNEXION• Une interface pour gérer Bigquery

• Connexion via l’utilitaire BQ

• Connexion avec des API

Connexion API

∕ Java, Python, JavaScript, Ruby, PHP, …

∕ Google Apps Script

∕ Connexion OAuth2

Connexions∕ Connexion ODBC / JDBC

∕ API class

Page 11: Présentation BigQuery et comparatif avec RedShift

© Copyright 2015 – Keyrus 11

BIGQUERY VS REDSHIFT

Requête sur 1 milliard de ligne• A1 : Sans rien faire• A2 : Avec un index trié• A3 : Tri + données distribuées

Requête sur 5 milliards de ligne• Sans rien faire

• La même requête quelques temps plus tard

Page 12: Présentation BigQuery et comparatif avec RedShift

© Copyright 2015 – Keyrus 12

Un cout du stockagé divisé par deux !Chaque table non modifié depuis plus de 90 jours verra son prix de stockage divisé par deux, soit 1 centime par GB.

• Réduction automatique• Le cout du requétage est le même• Pas d'impact sur les perfs• Une modification sur la table remet à 0 le compteur

 

UPDATE GCPNEXT 2016

Page 13: Présentation BigQuery et comparatif avec RedShift

© Copyright 2015 – Keyrus 13

Capacitor Storage Engine Google a amélioré sa façon de stocker et requéter les donnés sur sons sytème et principalement une meilleure gestion des données compréssés. Pour faire simple, Google est maintenant capable de filter directement sur des données compréssées sans étapes de décompression. 

   

 

UPDATE GCPNEXT 2016

MaintenantAvant

Page 14: Présentation BigQuery et comparatif avec RedShift

© Copyright 2015 – Keyrus 14

Optimisation de l'import Google a revu son système d'import de données et annonce des temps d'insertion diminué par 5. A investiguer entre autre sur le format Avrohttps://cloud.google.com/blog/big-data/2016/03/improve-bigquery-ingestion-times-10x-by-using-avro-source-format  Partitionnement automatiqueEn version Alpha, Google BigQuery va proposer un partitionnement automatique au sein d'une seule table physique, qui pourrait avoir pour intérêt d'éviter de faire uen table par jour et se rapprocherait du partitionnement standard dans les bases de données classiques. Toutes les infos ici en Anglais : https://cloud.google.com/blog/big-data/2016/03/google-bigquery-cuts-historical-data-storage-cost-in-half-and-accelerates-many-queries-by-10x 

 

UPDATE GCPNEXT 2016