présentation bigquery et comparatif avec redshift
TRANSCRIPT
© Copyright 2015 – Keyrus 1
© Copyright 2015 – Keyrus 2© Copyright 2015 – Keyrus 2
CLOUD BI \ GOOGLE & AMAZON Focus Bigquery & Redshift
Olivier Breton – Responsable Innovation & Pierre Coste – Leader Technique BI & Search & Cloud
© Copyright 2015 – Keyrus 3
CLOUD : UNE OFFRE DE SERVICEA LA DEMANDE
© Copyright 2015 – Keyrus 4
LES DONNÉES DANS LE CLOUD
• Données secrètes : ne doivent pas être dans le cloud
• Données confidentielles : Ne mettent pas en péril la société
• Données normales : Peu de valeur pour la société
Cloud Souverain ?stockage US / EU ?
© Copyright 2015 – Keyrus 5
PRÉSENTATION AMAZON REDSHIFT
© Copyright 2015 – Keyrus 6
PRÉSENTATION BIGQUERY
• Un modèle qui ne peut pas être reproduit en local, une requête peut engendrer l’utilisation de 10 000 cœurs
• Pas d’installation, pas d’administration, pas d’index
• Scalable : répondra aussi vite peu importe le nombre d’utilisateurs et la données
• Temps réel – Stream data
table
dataset
PROJET
LES COMPOSANTS
∕ UTF-8 & ISO-8859-1∕ Support du SQL standard et
étendu par Bigquery∕ Modèles normalisés &
dénormalisés∕ Streaming∕ Chargements parallélisés∕ Interface graphique de gestion
© Copyright 2015 – Keyrus 7
PRÉSENTATION BIGQUERY• Stockage en colonne VS stockage en ligne
• Full scan de la table à chaque requête
• Mise en cache de chaque requête
Les colonnes
∕ Strings∕ integers∕ booleans∕ floats∕ timestamps,∕ Nested∕ records
© Copyright 2015 – Keyrus 8
PRÉSENTATION BIGQUERY• Chargement des données
• Par Fichier en CSV ou en JSON
• Streaming pour chargement en temps réel (via API)
Les données
∕ Une table alimentée est immuable
∕ Pas de modification au niveau ligne
∕ Pas d’update, pas de delete
© Copyright 2015 – Keyrus 9
PRÉSENTATION BIGQUERY• Décorateur pour diminuer les coûts
• @time : le snapshot
• TABLE_DATE_RANGE(prefix, timestamp1, timestamp2)
• TABLE_QUERY(dateset, expr) 'table_id CONTAINS "oo" AND length(table_id) >= 4')
Les cout
∕ Stockage : $0.020 per GB, per month
∕ Requête : $5 per TB (1er TB gratuit)
∕ Chargement / Copie / Export gratuit
Les cout∕ 750 heures gratuites pendant 2
Mois
∕ 0,25$/heure/node au moins cher pour 2 cpu / 15gb Ram /
© Copyright 2015 – Keyrus 10
CONNEXION• Une interface pour gérer Bigquery
• Connexion via l’utilitaire BQ
• Connexion avec des API
Connexion API
∕ Java, Python, JavaScript, Ruby, PHP, …
∕ Google Apps Script
∕ Connexion OAuth2
Connexions∕ Connexion ODBC / JDBC
∕ API class
© Copyright 2015 – Keyrus 11
BIGQUERY VS REDSHIFT
Requête sur 1 milliard de ligne• A1 : Sans rien faire• A2 : Avec un index trié• A3 : Tri + données distribuées
Requête sur 5 milliards de ligne• Sans rien faire
• La même requête quelques temps plus tard
© Copyright 2015 – Keyrus 12
Un cout du stockagé divisé par deux !Chaque table non modifié depuis plus de 90 jours verra son prix de stockage divisé par deux, soit 1 centime par GB.
• Réduction automatique• Le cout du requétage est le même• Pas d'impact sur les perfs• Une modification sur la table remet à 0 le compteur
UPDATE GCPNEXT 2016
© Copyright 2015 – Keyrus 13
Capacitor Storage Engine Google a amélioré sa façon de stocker et requéter les donnés sur sons sytème et principalement une meilleure gestion des données compréssés. Pour faire simple, Google est maintenant capable de filter directement sur des données compréssées sans étapes de décompression.
UPDATE GCPNEXT 2016
MaintenantAvant
© Copyright 2015 – Keyrus 14
Optimisation de l'import Google a revu son système d'import de données et annonce des temps d'insertion diminué par 5. A investiguer entre autre sur le format Avrohttps://cloud.google.com/blog/big-data/2016/03/improve-bigquery-ingestion-times-10x-by-using-avro-source-format Partitionnement automatiqueEn version Alpha, Google BigQuery va proposer un partitionnement automatique au sein d'une seule table physique, qui pourrait avoir pour intérêt d'éviter de faire uen table par jour et se rapprocherait du partitionnement standard dans les bases de données classiques. Toutes les infos ici en Anglais : https://cloud.google.com/blog/big-data/2016/03/google-bigquery-cuts-historical-data-storage-cost-in-half-and-accelerates-many-queries-by-10x
UPDATE GCPNEXT 2016