objectif et contexte business : piliers du traitement ... khalid mehl.pdf · données crm /...
TRANSCRIPT
Objectif et contexte business : piliers du traitement efficace des
données -l’exemple de RANK-
Khalid MEHL
Jean-François WASSONG 10 mars 2015
1. fifty-five : présentation
2. Objectifs de Rank
3. Une approche pluri-disciplinaire
4. Le data stream de Rank
1. fifty-five : présentation
2. Objectifs de Rank
3. Une approche pluri-disciplinaire
4. Le data stream de Rank
6
Nous appréhendons votre activité digitale de façon exhaustive
Données site & applis • Cross-device : mobile, desktop, tablettes
• User experience & interactions site
• E-commerce
• Branding
Données publicitaires • Données post-click & post-impression
• Données de coût : CPA, CPC, etc.
• Multi-touch point
• Attribution
Données client • Transactions : panier moyen, fréquence d’achat
• Navigation : statut visiteur, canal préféré, etc.
• Attachement à la marque : activité réseaux sociaux, NPS, etc.
• Lifetime value & segmentation
Données du marché • comScore (part de voix internet*, …)
• Radian 6 (part de parole totale des internautes**, …)
• NPS, part de marché, …
• Mediametrie, Nielsen, SAP, L2
7
Nous relions ces données digitales aux données offline
Données site & applis
Données publicitaires
Données client
Données marché
Données de vente • Réseau propriétaire de points de vente
• Réseau de distribution
• Centres d’appel
Données CRM /
programmes de fidélité • Informations personnelles /
Sociodémographiques
• Historique de transaction
• Intérêts déclarés, opt-in, etc.
Campagnes publicitaires offline • Campagnes télé
• Campagnes affichage
• Etc.
• Cross-device : mobile, desktop, tablettes
• User experience & interactions site
• E-commerce
• Branding
• Données post-click & post-impression
• Données de coût : CPA, CPC, etc.
• Multi-touch point
• Attribution
• Transactions : panier moyen, fréquence d’achat
• Navigation : statut visiteur, canal préféré, etc.
• Attachement à la marque : activité réseaux sociaux, NPS, etc.
• Lifetime value & segmentation
• comScore (part de voix internet*, …)
• Radian 6 (part de parole totale des internautes**, …)
• NPS, part de marché, …
• Mediametrie, Nielsen, SAP, L2
Nous avons l’expertise et les ressources pour accompagner nos clients vers la maîtrise des données, internes et externes à l’entreprise
Expertise Data
Webanalyse & Média •
Ingénierie & Analytics Prédictif •
Suite Propriétaire de Produits •
Polyvalence & Pluridisciplinarité
Partenaire d’Excellence
Offre Intégrée & Synergies
• Expérience et Formation d’Excellence
• Experts Digitaux, Mobile, Média
• Ingénieurs Big Data & Data Science
Expérience Business, Orientation Résultats•
Expertise & Innovation Technique •
30+ Années d’Expérience chez Google •
• Connaissance Client & Optimisation d’Engagement
• Achat Média & Conseil Média
• Collecte de Données & Tracking
8
9
Nous aidons 60+ entreprises à devenir des champions digitaux
Branding & CRM Amplifier l’attachement à la marque &
la fidélité
Génération de
contacts & drive-to-
store Augmenter les ventes dans le réseau
physique
E-commerce Intégrer l’e-commerce
à la stratégie globale
1. fifty-five : présentation
2. Objectifs de Rank
3. Une approche pluri-disciplinaire
4. Le data stream de Rank
• Les utilisateurs concentrent leurs efforts sur les
premiers résultats trouvés
• Exemple : performances Google
11
L’ordonnancement choisi influe sur les performances d’un site
0
10
20
30
40
50
60
1 2 3 4 5 6 7 8 9 10
Taux
de
clic
s
Position
Évolution du pourcentage de clics
80%
des clics
• ~ 60 % des visites commencent directement dans les rayons
13
Besoin stratégique pour les E-commerçants
• ~ 60 % des visites commencent directement dans les rayons
• Les 20 premiers articles d’un rayon cumulent plus de 50 % des clics
14
Besoin stratégique pour les E-commerçants
• ~ 60 % des visites commencent directement dans les rayons
• Les 20 premiers articles d’un rayon cumulent plus de 50 % des clics
• Problème complexe : Nouveaux articles / Saisonnalité / Animations commerciales / État des
Stocks / Trous de tailles / Multi-coloris / Notation / etc.
Ne se résume pas aux ventes passées
Nécessite un rafraîchissement quotidien
15
Besoin stratégique pour les E-commerçants
• ~ 60 % des visites commencent directement dans les rayons
• Les 20 premiers articles d’un rayon cumulent plus de 50 % des clics
• Problème complexe : Nouveaux articles / Saisonnalité / Animations commerciales / État des
Stocks / Trous de tailles / Multi-coloris / Notation / etc.
Ne se résume pas aux ventes passées
Nécessite un rafraîchissement quotidien
• Personnalisation au visiteur : taille, sensibilité au prix, aux marques, Couleurs, etc.
16
Besoin stratégique pour les E-commerçants
Fonctionnement de Rank
18
Product List Product Page Add To basket Order
Un algorithme dédié à chaque étape de l’entonnoir d’achat
permet de prédire le taux de transformation de chaque article en fonction de sa position
dans les listes
Le développement de Rank est un processus d’amélioration continu
19
Collect Process Activate
50%
50%
A/B
Testing
Data Platform 55
Test & Learn
1. fifty-five : présentation
2. Objectifs de Rank
3. Une approche pluri-disciplinaire
4. Le data stream de Rank
21
Un processus à la croisée de plusieurs disciplines
Tracking Fiabiliser la collecte d’information par un tracking s’intégrant à des plateformes souvent
complexes.
Data Processing Transformer des logs bruts en pépites d’optimisation
Intégration Réconcilier des environnements hétérogènes (webanalyse, données backend, …)
Synchroniser les modifications (vers différents systèmes et outils de mesure)
22
Un processus à la croisée de plusieurs exigences
Agilité De nombreuses itérations sur des traitements complexes.
« Multiplier les configurations et les tester en vrai »
Réactivité Sélectionner la variante gagnante et la mettre en production en connaissance de cause.
« Click to deploy », « Click to rollback »
Évolutivité Le processus sollicite différents outils qui évoluent à des rythmes variables.
23
Challenge Solution Results
Agilité
De nombreuses itérations sur des traitements complexes
Lancer facilement les différentes
variantes possibles.
24
Challenge Solution Results
Agilité
De nombreuses itérations sur des traitements complexes
Lancer facilement les différentes
variantes possibles.
Manipuler des jeux de paramètres plutôt
que du code.
25
Challenge Solution Results
Agilité
De nombreuses itérations sur des traitements complexes
Lancer facilement les différentes
variantes possibles.
Manipuler des jeux de paramètres plutôt
que du code.
Développement classique de moteur
Itérations en mode plus interactif
26
Challenge Solution Results
Réactivité
Sélectionner la variante gagnante et la mettre en production
en connaissance de cause
Activation simple pour effet immédiat.
27
Challenge Solution Results
Réactivité
Sélectionner la variante gagnante et la mettre en production
en connaissance de cause
Activation simple pour effet immédiat.
Découper le processus en maillons
simples
Normalisation des interactions
Intégration avec les plateformes connues
Monitoring constant des différents
intervenants
28
Challenge Solution Results
Réactivité
Sélectionner la variante gagnante et la mettre en production
en connaissance de cause
Activation simple pour effet immédiat.
Découper le processus en maillons
simples
Normalisation des interactions
Intégration avec les plateformes connues
Monitoring constant des différents
intervenants
Des nœuds de traitement en pleine
maîtrise des différentes problématiques
sollicitées :
- Mode de tracking
- A|B test
- Intégration backend
- Data quality
29
Challenge Solution Results
Évolutivité
Une chaîne de traitement efficace intégrant les outils les plus
adaptés
Difficile d’avoir un outil unique assurant :
• Performance
• Souplesse
• Fiabilité
• Exhaustivité
ET
• Facilité de prise en main
30
Challenge Solution Results
Evolutivité
Une chaîne de traitement efficace intégrant les outils les plus
adaptés
Difficile d’avoir un outil unique assurant :
• Performance
• Souplesse
• Fiabilité
• Exhaustivité
ET
• Facilité de prise en main
Isoler les domaines d’excellence et
industrialiser les échanges entre outils
31
Challenge Solution Results
Evolutivité
Une chaîne de traitement efficace intégrant les outils les plus
adaptés
Difficile d’avoir un outil unique assurant :
• Performance
• Souplesse
• Fiabilité
• Exhaustivité
ET
• Facilité de prise en main
Isoler les domaines d’excellence et
industrialiser les échanges entre outils
Données :
Mysql-Hive-BigQuery
Traitements :
Java-Python-R
Plate-forme :
OnPremise-ComputeEngine
1. fifty-five : présentation
2. Objectifs de Rank
3. Une approche pluri-disciplinaire
4. Le data stream de Rank
Approche
BigData
WebLogs
Product Feeds
Visitors
Events
Products
Segments
calculation
Events Sequences
Variables
calculation
Segments
Products
Variables
Pivot SmartData
Approche
BigData
WebLogs
Product Feeds
Visitors
Events
Products
Segments
calculation
Events Sequences
Variables
calculation
Web services
Algorithms
Monitoring
Segments
Products
Variables
Pivot SmartData Output
Approche
BigData
WebLogs
Product Feeds
Visitors
Events
Products
Segments
calculation
Events Sequences
Variables
calculation
Web services
Algorithms
Monitoring
Segments
Products
Variables
Pivot SmartData Output
Client Custom Generic
Approche
BigData
WebLogs
Product Feeds
Visitors
Events
Products
Segments
calculation
Events Sequences
Variables
calculation
Web services
Algorithms
Monitoring
Segments
Products
Variables
Pivot SmartData Output
Client Custom Generic
15% 85% Scripts Size
75% 25% CPU Time
1 version per client 1 version for all clients Version
En amont du Pivot
BigData Pivot SmartData Output
WebLogs
Product Feeds
Visitors
Events
Products
Segments
calculation
Events Sequences
Variables
calculation
Web services
Algorithms
Monitoring
Segments
Products
Variables
S’adapter à la réalité du site client Ex: Nombre d’articles par ligne et par page
En amont du Pivot
BigData Pivot SmartData Output
WebLogs
Product Feeds
Visitors
Events
Products
Segments
calculation
Events Sequences
Variables
calculation
Web services
Algorithms
Monitoring
Segments
Products
Variables
S’adapter à la réalité du site client Ex: Nombre d’articles par ligne et par page
Uniformiser les données
Ex :Dates : unix_timestamp, ‘YYYY-MM-dd HH:mm:ss’, etc…
En amont du Pivot
BigData Pivot SmartData Output
WebLogs
Product Feeds
Visitors
Events
Products
Segments
calculation
Events Sequences
Variables
calculation
Web services
Algorithms
Monitoring
Segments
Products
Variables
S’adapter à la réalité du site client Ex: Nombre d’articles par ligne et par page
Uniformiser les données
Ex :Dates : unix_timestamp, ‘YYYY-MM-dd HH:mm:ss’, etc…
Qualité de la collecte
Ex: Visites : filtrage des Robots, compagne Emailing, bugs de tracking,
Site-under
En amont du Pivot
BigData Pivot SmartData Output
WebLogs
Product Feeds
Visitors
Events
Products
Segments
calculation
Events Sequences
Variables
calculation
Web services
Algorithms
Monitoring
Segments
Products
Variables
S’adapter à la réalité du site client Ex: Nombre d’articles par ligne et par page
Uniformiser les données
Ex :Dates : unix_timestamp, ‘YYYY-MM-dd HH:mm:ss’, etc…
Qualité de la collecte
Ex: Visites : filtrage des Robots, campagnes emailing, bugs de tracking,
Site-under
S’adapter aux données BackOffice Ex: stocks, marge, prix, décotes, hiérarchie, etc…
Sur le Pivot
Sanity check Unitaires • Détecter les trous de dates dans les tables
• Vérifier si le nombre d’événements par jour est régulier
• Le nombre d’articles par rayon
• Vérifier les séquences d’événements
• Etc…
BigData Pivot SmartData Output
WebLogs
Product Feeds
Visitors
Events
Products
Segments
calculation
Events Sequences
Variables
calculation
Web services
Algorithms
Monitoring
Segments
Products
Variables
En aval du Pivot
BigData Pivot SmartData Output
WebLogs
Product Feeds
Visitors
Events
Products
Segments
calculation
Events Sequences
Variables
calculation
Web services
Algorithms
Monitoring
Segments
Products
Variables
Isoler des Briques
de traitements • Un Data Scientist par Brique pour mieux maîtriser la complexité
• Exécution des briques en parallèle
En aval du Pivot
BigData Pivot SmartData Output
WebLogs
Product Feeds
Visitors
Events
Products
Segments
calculation
Events Sequences
Variables
calculation
Web services
Algorithms
Monitoring
Segments
Products
Variables
Isoler des Briques
de traitements • Un Data Scientist par Brique pour mieux maîtriser la complexité
• Exécution des briques en parallèle
Produire des
Outputs • Les DataSets d’apprentissage des algorithmes
• Les Tables de performances pour les monitoring
• WebService (Segments des visiteurs/ Variables Produits/ Etc …)
En aval du Pivot
BigData Pivot SmartData Output
WebLogs
Product Feeds
Visitors
Events
Products
Segments
calculation
Events Sequences
Variables
calculation
Web services
Algorithms
Monitoring
Segments
Products
Variables
Isoler des Briques
de traitements • Un Data Scientist par Brique pour mieux maîtriser la complexité
• Exécution des briques en parallèle
Produire des
Outputs • Les DataSets d’apprentissage des algorithmes
• Les Tables de performances pour les monitoring
• WebService (Segments des visiteurs/ Variables Produits/ Etc.)
Evolutions • Comparer deux versions avec le même pivot et faire l’A/B testing
75% CPU Time