QUI SUIS-JE ?
Sylvain Peyronnet Chef et fondateur @ ix-labs Directeur scientifique @ Qwant Chef et fondateur @ La Machine Prof @ Université de Caen (on leave)
Sylvain Peyronnet - @speyronnet
COMMENT MARCHE UN MOTEUR ? ET D’ABORD, QU’EST CE QUE C’EST ?
Un site dont la vocation est de renvoyer des résultats pertinents pour une requête donnée
On parle de requête, mais ce qui compte c’est :
• Le besoin informationnel : sujet sur lequel un utilisateur veut se renseigner
• Il s’agit d’un état cognitif individuel et caché
Mais alors, comment faire le lien entre requête et besoin informationnel ?
Sylvain Peyronnet - @speyronnet
COMPRENDRE UNE REQUÊTE C’EST PAS FACILE
« l’outil qui permet de desserrer un
robinet »
« clé de lavabo »
Sylvain Peyronnet - @speyronnet
La requête est le goulot d'étranglement pour améliorer l'expérience de recherche
Problème divers :• Comment exprimer ce que l'on ne connaît pas ?• Nombreuses ambiguïtés• Plusieurs besoins informationnels différents pour une
même requête• Interprétation du langage naturel
Le moteur va faire du raffinement et de l'expansion de requête
COMPRENDRE UNE REQUÊTE C’EST PAS FACILE
Sylvain Peyronnet - @speyronnet
COMPRENDRE UNE REQUÊTE UN TRAVAIL INITIÉ PAR AMIT SINGHAL CHEZ GOOGLE
http://www.seobythesea.com/
2013/09/google-hummingbird-patent/
It’s being presented as a query expansion or broadening approach which can better understand
longer natural language queries
The kind of query where it might potentially work best upon could be something like [What is the best place to find and eat Chicago deep dish style pizza?], where Google might use synonym and substitute query rules in combination with analyzing other non-skip words
Google might look at the query [What is the best place to find and eat Chicago deep dish style pizza?], and understand that a searcher looking for results for that query would likely be more satisfied with the use
of “restaurant” instead of “place”.
Sylvain Peyronnet - @speyronnet
COMPRENDRE UNE REQUÊTE UN TRAVAIL INITIÉ PAR AMIT SINGHAL CHEZ GOOGLE
Il s’agit d’une approche basée sur la
co-occurence
Sylvain Peyronnet - @speyronnet
COMPRENDRE UNE REQUÊTE UN CHANGEMENT DE PARADIGME ?
Mais début 2016, Amit Singhal se retire de Google
Remplacé par John Giannandrea, fondateur de metaweb, chief of artificial
intelligence
Sylvain Peyronnet - @speyronnet
GOOGLEPLEIN D’ALGORITHMES
Hummingbird
Pagerank
TopHeavy
Panda
Penguin Payday
PigeonPlein
d’autres
algosRankBrain
Sylvain Peyronnet - @speyronnet
15% posent problème en terme de compréhension
de la requête
RANKBRAINOBJECTIF
3 milliards de recherche par
jour
L’objectif est de :
• Comprendre l’intention de celui qui écrit la requête (=le besoin informationnel)
• Pour cela on reformule la requête en substituant et ajoutant des termes « compatibles » ou « équivalents »
Sylvain Peyronnet - @speyronnet
RANKBRAINEXEMPLES
New York Times Puzzle
Puzzle?Crossword (New York Times)
quelle est la règle de football près du but
Qu’est-ce que le hors jeu en football
Sylvain Peyronnet - @speyronnet
RANKBRAINCOMMENT ÇA MARCHE
Greg Corrado - Google
Tous les textes contenus dans l’index sont transformés en vecteursLes vecteurs sont corrélés entre eux pour trouver les mots équivalents, co-occurents, qui se complètent ou incompatibles
Sylvain Peyronnet - @speyronnet
RANKBRAINCOMMENT ÇA MARCHE
La transformation en vecteur s’appelle un « embedding vectoriel » et est fait grâce à un outil (word2vec) basé sur des réseaux de neurones.
Tomas Mikolov a créé word2vec quand il était chez Google, il est maintenant chez Facebook
L’outil permet de savoir quel mot de la langue peut se substituer à un mot choisi dans une phrase
je suis venu en ?????? mais quelle galère pour se garer
Sylvain Peyronnet - @speyronnet
RANKBRAINCOMMENT ÇA MARCHE
La transformation en vecteur s’appelle un « embedding vectoriel » et est fait grâce à un outil (word2vec) basé sur des réseaux de neurones.
Tomas Mikolov a créé word2vec quand il était chez Google, il est maintenant chez Facebook
L’outil permet de savoir quels mots de la langue entourent un mot choisi dans une phrase
Aux USA, j’ai visité *** York, **** park et la 5eme avenue.
Sylvain Peyronnet - @speyronnet
RÉSEAUX DE NEURONES
tiré de wikipedia
Une vision idéalisée des neurones de notre cerveau
• supervisé si on force l’état final en fonction de l’entrée• un algo d’entrainement permet de trouver les poids correspondants à des exemples• notion de rétropropagation : on propage à l’envers une erreur pour modifier les poids
synaptiques qui contribuent le plus à l’erreur (error gradient backpropagation)• notion de couches
Sylvain Peyronnet - @speyronnet
RÉSEAUX DE NEURONES « L’INTUITION »
Othello, qui a gagné ?
+1 si noir -1 si blanc
noir blanc
somme des poids
somme > 0 ?
noir si somme > 0 blanc si somme < 0 nul sinon
Sylvain Peyronnet - @speyronnet
MODÈLE DU CERVEAUinspiré du principe de fonctionnement d’un cerveau : il n’y a pas un bloc
de masse cérébrale qui fait tout le traitement d’une tache, mais au contraire, plusieurs blocs qui vont gérer plusieurs niveaux d’abstraction
La machine a plusieurs niveaux de lecture de la donnée : les pixels, les formes, les couleurs, avant et arrière plan, etc.
Sylvain Peyronnet - @speyronnet
RÉSEAUX DE NEURONES WORD2VEC
2. Apply the model to each word to get its corresponding vector
(0.12, 0.23, 0.56) (0.24, 0.65, 0.72) (0.38, 0.42, 0.12) (0.57, 0.01, 0.02) (0.53, 0.68, 0.91) (0.11, 0.27, 0.45) (0.01, 0.05, 0.62)
The Cardinals will win the world series
word vector
3. Calculate the vector of sentences by averaging the vector of their words
(0.12, 0.23, 0.56) (0.24, 0.65, 0.72) (0.38, 0.42, 0.12) (0.57, 0.01, 0.02) (0.53, 0.68, 0.91) (0.11, 0.27, 0.45) (0.01, 0.05, 0.62)
The Cardinals will win the world series
word vector
sentence vector
(0.28, 0.33, 0.49)
• Un modèle pour remplacer le cosinus de salon et la TF.IDF• Apprentissage du contexte : compréhension des mots dans
un contexte, des synonymes, des similarités de sens, etc.• 2 approches : CBOW (prédire le contenu du « trou ») et
skip-gram (prédire qui sont les voisins)
Sylvain Peyronnet - @speyronnet
Le moteur comprend l’intention et la reformule (personnalisation)Gros problème : annulation de la puissance du mot-clé unique
• Il faut travailler sur des familles de mots-clés en association
• Le reste du travail est le même, mais sur une famille de requêtes
SEO QUE FAIRE ?
Sylvain Peyronnet - @speyronnet
SEO QUE FAIRE ?
requête q
corpus sur la thématique de q
compter les documents avec les termes de q
repérer les termes co-occurrents
créer la famille de requêtes
Sylvain Peyronnet - @speyronnet
SEOQUE FAIRE ?
requête q
corpus sur la thématique de q
compter les documents avec les termes de q
repérer les termes co-occurrents
créer la famille de requêtes
Ou utiliser un outil comme
yourtext.guru
Sylvain Peyronnet - @speyronnet
corpus sur la thématique de q
requête q
SEOQUE FAIRE ?
compter les documents avec les termes de q
repérer les termes co-occurrents
créer la famille de requêtes
Ou utiliser un outil comme
yourtext.guru
Sylvain Peyronnet - @speyronnet
PREMIUM
11
TOP TERMESTOP TERMES
faire du paddle a Cannesfaire du paddle a CannesFRANÇAISFRANÇAIS
paddlepaddlestandstandkayakkayakactivitesactiviteslocationlocation
capcapfairefaireactiviteactiviteazurazursportssportsjourneejourneeilesiles
plageplagelerinslerinsevasionevasionsportsportequipeequipematerielmateriel
gram
mes
1
yourtext.guru @ Your Text Guru 2017 22
ENTITÉS NOMMÉESENTITÉS NOMMÉES
stand paddlestand paddle
iles lerinsiles lerins
cap antibescap antibes
alpes maritimesalpes maritimes
kayak standkayak stand
cannes paddlerscannes paddlerspaddle cannespaddle cannesbaie cannesbaie cannescannes standcannes standsports nautiquessports nautiquesaqua sportaqua sportsport evasionsport evasion
standup paddletriathlon mersdiplome etatjet skicannes standupjean louis
gram
mes
2
kayak stand paddlekayak stand paddlelocation stand paddlelocation stand paddlecannes stand paddlecannes stand paddlestand paddle cannesstand paddle cannesiles lerins kayakiles lerins kayaksaint jean capsaint jean capjean cap ferratjean cap ferratactivite stand paddleactivite stand paddlelac saint cassienlac saint cassienaqua sport evasionaqua sport evasion
louez stand paddlecannes iles lerinssorties stand paddlestand paddle locationplage moure rougeprovence alpes azurantibes saint jeanlerins cap antibesiles lerins cap
gram
mes
3
antibesantibescannescannesmoure rougemoure rougepalm beachpalm beachlyonlyon
googlegooglefrejusfrejusbicbiccannes standupcannes standuppaddlepaddlevillefranchevillefranchegrassegrasse
Y A -T-IL RÉELLEMENT UNE RÉVOLUTION EN ROUTE ?
Non
D’ailleurs, existe probablement sous le nom de ranknet
chez bing
Sylvain Peyronnet - @speyronnet
VOIR LES AUTRES CONFERENCES
L’utilisateur au cœur de la stratégie éditorialeEve Demange (Web content strategist, fondatrice de Plume Interactive)
Les outils de l’UX pour connaître les utilisateursMC Casal (Stratège de l’eXpérience Utilisateur, agence Relax In the Air)
Les outils du SEARCH pour connaître les utilisateursJean-François Loup (Consultant SEO/SEA) et Romain Bellet (Président YOODA)
eTourisme : un site et des contenus pour générer de l’enthousiasmeFrançois Houste (Directeur Conseil Plan.Net)
Comment créer des expériences personnalisées pour ses visiteursGrégoire Thomas (Directeur marketing Kameleoon)
Optimiser la conversionNicolas Jardillier (Consultant technique en optimisation de la conversion)
Google RankBrain, l’IA du searchSylvain Peyronnet (Docteur en informatique et dirigeant de ix-labs)
VOIR SUR SLIDESHARE
Une journée organisée par YOODA.com