objectif et contexte business : piliers du traitement ... khalid mehl.pdf · données crm /...

48
Objectif et contexte business : piliers du traitement efficace des données -l’exemple de RANK- Khalid MEHL Jean-François WASSONG 10 mars 2015

Upload: others

Post on 27-May-2020

9 views

Category:

Documents


0 download

TRANSCRIPT

Objectif et contexte business : piliers du traitement efficace des

données -l’exemple de RANK-

Khalid MEHL

Jean-François WASSONG 10 mars 2015

1. fifty-five : présentation

2. Objectifs de Rank

3. Une approche pluri-disciplinaire

4. Le data stream de Rank

1. fifty-five : présentation

2. Objectifs de Rank

3. Une approche pluri-disciplinaire

4. Le data stream de Rank

We bring advertisers and consumers

closer together by collecting, exploring,

and activating data.

6

Nous appréhendons votre activité digitale de façon exhaustive

Données site & applis • Cross-device : mobile, desktop, tablettes

• User experience & interactions site

• E-commerce

• Branding

Données publicitaires • Données post-click & post-impression

• Données de coût : CPA, CPC, etc.

• Multi-touch point

• Attribution

Données client • Transactions : panier moyen, fréquence d’achat

• Navigation : statut visiteur, canal préféré, etc.

• Attachement à la marque : activité réseaux sociaux, NPS, etc.

• Lifetime value & segmentation

Données du marché • comScore (part de voix internet*, …)

• Radian 6 (part de parole totale des internautes**, …)

• NPS, part de marché, …

• Mediametrie, Nielsen, SAP, L2

7

Nous relions ces données digitales aux données offline

Données site & applis

Données publicitaires

Données client

Données marché

Données de vente • Réseau propriétaire de points de vente

• Réseau de distribution

• Centres d’appel

Données CRM /

programmes de fidélité • Informations personnelles /

Sociodémographiques

• Historique de transaction

• Intérêts déclarés, opt-in, etc.

Campagnes publicitaires offline • Campagnes télé

• Campagnes affichage

• Etc.

• Cross-device : mobile, desktop, tablettes

• User experience & interactions site

• E-commerce

• Branding

• Données post-click & post-impression

• Données de coût : CPA, CPC, etc.

• Multi-touch point

• Attribution

• Transactions : panier moyen, fréquence d’achat

• Navigation : statut visiteur, canal préféré, etc.

• Attachement à la marque : activité réseaux sociaux, NPS, etc.

• Lifetime value & segmentation

• comScore (part de voix internet*, …)

• Radian 6 (part de parole totale des internautes**, …)

• NPS, part de marché, …

• Mediametrie, Nielsen, SAP, L2

Nous avons l’expertise et les ressources pour accompagner nos clients vers la maîtrise des données, internes et externes à l’entreprise

Expertise Data

Webanalyse & Média •

Ingénierie & Analytics Prédictif •

Suite Propriétaire de Produits •

Polyvalence & Pluridisciplinarité

Partenaire d’Excellence

Offre Intégrée & Synergies

• Expérience et Formation d’Excellence

• Experts Digitaux, Mobile, Média

• Ingénieurs Big Data & Data Science

Expérience Business, Orientation Résultats•

Expertise & Innovation Technique •

30+ Années d’Expérience chez Google •

• Connaissance Client & Optimisation d’Engagement

• Achat Média & Conseil Média

• Collecte de Données & Tracking

8

9

Nous aidons 60+ entreprises à devenir des champions digitaux

Branding & CRM Amplifier l’attachement à la marque &

la fidélité

Génération de

contacts & drive-to-

store Augmenter les ventes dans le réseau

physique

E-commerce Intégrer l’e-commerce

à la stratégie globale

1. fifty-five : présentation

2. Objectifs de Rank

3. Une approche pluri-disciplinaire

4. Le data stream de Rank

• Les utilisateurs concentrent leurs efforts sur les

premiers résultats trouvés

• Exemple : performances Google

11

L’ordonnancement choisi influe sur les performances d’un site

0

10

20

30

40

50

60

1 2 3 4 5 6 7 8 9 10

Taux

de

clic

s

Position

Évolution du pourcentage de clics

80%

des clics

12

Comment ordonnancer ses produits pour augmenter le taux de conversion de son site e-commerce ?

?

• ~ 60 % des visites commencent directement dans les rayons

13

Besoin stratégique pour les E-commerçants

• ~ 60 % des visites commencent directement dans les rayons

• Les 20 premiers articles d’un rayon cumulent plus de 50 % des clics

14

Besoin stratégique pour les E-commerçants

• ~ 60 % des visites commencent directement dans les rayons

• Les 20 premiers articles d’un rayon cumulent plus de 50 % des clics

• Problème complexe : Nouveaux articles / Saisonnalité / Animations commerciales / État des

Stocks / Trous de tailles / Multi-coloris / Notation / etc.

Ne se résume pas aux ventes passées

Nécessite un rafraîchissement quotidien

15

Besoin stratégique pour les E-commerçants

• ~ 60 % des visites commencent directement dans les rayons

• Les 20 premiers articles d’un rayon cumulent plus de 50 % des clics

• Problème complexe : Nouveaux articles / Saisonnalité / Animations commerciales / État des

Stocks / Trous de tailles / Multi-coloris / Notation / etc.

Ne se résume pas aux ventes passées

Nécessite un rafraîchissement quotidien

• Personnalisation au visiteur : taille, sensibilité au prix, aux marques, Couleurs, etc.

16

Besoin stratégique pour les E-commerçants

Fonctionnement de Rank

17

Product List Product Page Add To basket Order

Fonctionnement de Rank

18

Product List Product Page Add To basket Order

Un algorithme dédié à chaque étape de l’entonnoir d’achat

permet de prédire le taux de transformation de chaque article en fonction de sa position

dans les listes

Le développement de Rank est un processus d’amélioration continu

19

Collect Process Activate

50%

50%

A/B

Testing

Data Platform 55

Test & Learn

1. fifty-five : présentation

2. Objectifs de Rank

3. Une approche pluri-disciplinaire

4. Le data stream de Rank

21

Un processus à la croisée de plusieurs disciplines

Tracking Fiabiliser la collecte d’information par un tracking s’intégrant à des plateformes souvent

complexes.

Data Processing Transformer des logs bruts en pépites d’optimisation

Intégration Réconcilier des environnements hétérogènes (webanalyse, données backend, …)

Synchroniser les modifications (vers différents systèmes et outils de mesure)

22

Un processus à la croisée de plusieurs exigences

Agilité De nombreuses itérations sur des traitements complexes.

« Multiplier les configurations et les tester en vrai »

Réactivité Sélectionner la variante gagnante et la mettre en production en connaissance de cause.

« Click to deploy », « Click to rollback »

Évolutivité Le processus sollicite différents outils qui évoluent à des rythmes variables.

23

Challenge Solution Results

Agilité

De nombreuses itérations sur des traitements complexes

Lancer facilement les différentes

variantes possibles.

24

Challenge Solution Results

Agilité

De nombreuses itérations sur des traitements complexes

Lancer facilement les différentes

variantes possibles.

Manipuler des jeux de paramètres plutôt

que du code.

25

Challenge Solution Results

Agilité

De nombreuses itérations sur des traitements complexes

Lancer facilement les différentes

variantes possibles.

Manipuler des jeux de paramètres plutôt

que du code.

Développement classique de moteur

Itérations en mode plus interactif

26

Challenge Solution Results

Réactivité

Sélectionner la variante gagnante et la mettre en production

en connaissance de cause

Activation simple pour effet immédiat.

27

Challenge Solution Results

Réactivité

Sélectionner la variante gagnante et la mettre en production

en connaissance de cause

Activation simple pour effet immédiat.

Découper le processus en maillons

simples

Normalisation des interactions

Intégration avec les plateformes connues

Monitoring constant des différents

intervenants

28

Challenge Solution Results

Réactivité

Sélectionner la variante gagnante et la mettre en production

en connaissance de cause

Activation simple pour effet immédiat.

Découper le processus en maillons

simples

Normalisation des interactions

Intégration avec les plateformes connues

Monitoring constant des différents

intervenants

Des nœuds de traitement en pleine

maîtrise des différentes problématiques

sollicitées :

- Mode de tracking

- A|B test

- Intégration backend

- Data quality

29

Challenge Solution Results

Évolutivité

Une chaîne de traitement efficace intégrant les outils les plus

adaptés

Difficile d’avoir un outil unique assurant :

• Performance

• Souplesse

• Fiabilité

• Exhaustivité

ET

• Facilité de prise en main

30

Challenge Solution Results

Evolutivité

Une chaîne de traitement efficace intégrant les outils les plus

adaptés

Difficile d’avoir un outil unique assurant :

• Performance

• Souplesse

• Fiabilité

• Exhaustivité

ET

• Facilité de prise en main

Isoler les domaines d’excellence et

industrialiser les échanges entre outils

31

Challenge Solution Results

Evolutivité

Une chaîne de traitement efficace intégrant les outils les plus

adaptés

Difficile d’avoir un outil unique assurant :

• Performance

• Souplesse

• Fiabilité

• Exhaustivité

ET

• Facilité de prise en main

Isoler les domaines d’excellence et

industrialiser les échanges entre outils

Données :

Mysql-Hive-BigQuery

Traitements :

Java-Python-R

Plate-forme :

OnPremise-ComputeEngine

1. fifty-five : présentation

2. Objectifs de Rank

3. Une approche pluri-disciplinaire

4. Le data stream de Rank

Approche

BigData

WebLogs

Product Feeds

Approche

BigData

WebLogs

Product Feeds

Visitors

Events

Products

Pivot

Approche

BigData

WebLogs

Product Feeds

Visitors

Events

Products

Segments

calculation

Events Sequences

Variables

calculation

Segments

Products

Variables

Pivot SmartData

Approche

BigData

WebLogs

Product Feeds

Visitors

Events

Products

Segments

calculation

Events Sequences

Variables

calculation

Web services

Algorithms

Monitoring

Segments

Products

Variables

Pivot SmartData Output

Approche

BigData

WebLogs

Product Feeds

Visitors

Events

Products

Segments

calculation

Events Sequences

Variables

calculation

Web services

Algorithms

Monitoring

Segments

Products

Variables

Pivot SmartData Output

Client Custom Generic

Approche

BigData

WebLogs

Product Feeds

Visitors

Events

Products

Segments

calculation

Events Sequences

Variables

calculation

Web services

Algorithms

Monitoring

Segments

Products

Variables

Pivot SmartData Output

Client Custom Generic

15% 85% Scripts Size

75% 25% CPU Time

1 version per client 1 version for all clients Version

En amont du Pivot

BigData Pivot SmartData Output

WebLogs

Product Feeds

Visitors

Events

Products

Segments

calculation

Events Sequences

Variables

calculation

Web services

Algorithms

Monitoring

Segments

Products

Variables

S’adapter à la réalité du site client Ex: Nombre d’articles par ligne et par page

En amont du Pivot

BigData Pivot SmartData Output

WebLogs

Product Feeds

Visitors

Events

Products

Segments

calculation

Events Sequences

Variables

calculation

Web services

Algorithms

Monitoring

Segments

Products

Variables

S’adapter à la réalité du site client Ex: Nombre d’articles par ligne et par page

Uniformiser les données

Ex :Dates : unix_timestamp, ‘YYYY-MM-dd HH:mm:ss’, etc…

En amont du Pivot

BigData Pivot SmartData Output

WebLogs

Product Feeds

Visitors

Events

Products

Segments

calculation

Events Sequences

Variables

calculation

Web services

Algorithms

Monitoring

Segments

Products

Variables

S’adapter à la réalité du site client Ex: Nombre d’articles par ligne et par page

Uniformiser les données

Ex :Dates : unix_timestamp, ‘YYYY-MM-dd HH:mm:ss’, etc…

Qualité de la collecte

Ex: Visites : filtrage des Robots, compagne Emailing, bugs de tracking,

Site-under

En amont du Pivot

BigData Pivot SmartData Output

WebLogs

Product Feeds

Visitors

Events

Products

Segments

calculation

Events Sequences

Variables

calculation

Web services

Algorithms

Monitoring

Segments

Products

Variables

S’adapter à la réalité du site client Ex: Nombre d’articles par ligne et par page

Uniformiser les données

Ex :Dates : unix_timestamp, ‘YYYY-MM-dd HH:mm:ss’, etc…

Qualité de la collecte

Ex: Visites : filtrage des Robots, campagnes emailing, bugs de tracking,

Site-under

S’adapter aux données BackOffice Ex: stocks, marge, prix, décotes, hiérarchie, etc…

Sur le Pivot

Sanity check Unitaires • Détecter les trous de dates dans les tables

• Vérifier si le nombre d’événements par jour est régulier

• Le nombre d’articles par rayon

• Vérifier les séquences d’événements

• Etc…

BigData Pivot SmartData Output

WebLogs

Product Feeds

Visitors

Events

Products

Segments

calculation

Events Sequences

Variables

calculation

Web services

Algorithms

Monitoring

Segments

Products

Variables

En aval du Pivot

BigData Pivot SmartData Output

WebLogs

Product Feeds

Visitors

Events

Products

Segments

calculation

Events Sequences

Variables

calculation

Web services

Algorithms

Monitoring

Segments

Products

Variables

Isoler des Briques

de traitements • Un Data Scientist par Brique pour mieux maîtriser la complexité

• Exécution des briques en parallèle

En aval du Pivot

BigData Pivot SmartData Output

WebLogs

Product Feeds

Visitors

Events

Products

Segments

calculation

Events Sequences

Variables

calculation

Web services

Algorithms

Monitoring

Segments

Products

Variables

Isoler des Briques

de traitements • Un Data Scientist par Brique pour mieux maîtriser la complexité

• Exécution des briques en parallèle

Produire des

Outputs • Les DataSets d’apprentissage des algorithmes

• Les Tables de performances pour les monitoring

• WebService (Segments des visiteurs/ Variables Produits/ Etc …)

En aval du Pivot

BigData Pivot SmartData Output

WebLogs

Product Feeds

Visitors

Events

Products

Segments

calculation

Events Sequences

Variables

calculation

Web services

Algorithms

Monitoring

Segments

Products

Variables

Isoler des Briques

de traitements • Un Data Scientist par Brique pour mieux maîtriser la complexité

• Exécution des briques en parallèle

Produire des

Outputs • Les DataSets d’apprentissage des algorithmes

• Les Tables de performances pour les monitoring

• WebService (Segments des visiteurs/ Variables Produits/ Etc.)

Evolutions • Comparer deux versions avec le même pivot et faire l’A/B testing

75% CPU Time

47

L’agilité est la clé de la performance !

Math & Statistics Programming

& database

48

Scientists

Consultants

Engineers

Data Collection

Business, domain

& soft skills

Communication

& Visualisation

Le Data Scientist est une équipe