petit déjeuner search foresight
DESCRIPTION
SEO et statistique linguistique. Les utilisations des outils de statistique linguistique dans les moteurs de recherche et leur intérêt pour le SEO tf*idf, cosinus de salton...TRANSCRIPT
SEO & LINGUISTIQUE STATISTIQUE
De vieux concepts trop méconnus
Gérard Salton :
- Modèle vectoriel « de Salton », années 70
L’analyse en « sac de mots »
Tokenization, normalisation, et
élimination des mots vides
Lemmatisation et racinisation
« Cosette était laide. Heureuse, elle eût peut-être été jolie. Nous avons déjà esquissé cette petite figure sombre.
Cosette était maigre et blême. »
Racinisation (stemming)
TF*IDF => ADIEU LA DENSITE DE MOTS CLES !
Nombre d’occurrences du terme dans la page :
Identifier les termes importants :
première idée
Extraction
Extraction
Extraction
Extraction
Poids = 1 Poids = 3
Problème : les documents ne contiennent pas le même nombre de mots
Identifier les termes importants :
première idée
Extraction
100 mots
Extraction
Extraction
Extraction
1000 mots
Poids du terme = fréquence = « densité du mot clé »
Critère de poids retenu : nombre d’occurrences
divisé par le nombre de mots du document
Poids = 0,01 Poids = 0,003
Problème : les mots n’ont pas la même fréquence d’apparition
dans la langue
Combien de pages contiennent le mot clé internet d’après Google ?
1,5 milliards !
Combien de pages contiennent le mot clé globicéphale d’après Google ?
34000
tf*idf
tf = fréquence des termes dans le document
idf = inverse du nombre de documents dans lequel le terme est présent
Vers un meilleur critère de poids
Exemple de calcul sans et avec tf*idf
Internet
Internet
Internet
1000 mots
Globicéphale
1000 mots
Densité 3 pour mille Densité 1 pour mille
Exemple de calcul sans et avec tf*idf
Internet
Internet
Internet
1000 mots
Globicéphale
1000 mots
Index de Google50 milliards de pages(?)
50*10^9 pages
DF[internet] =
1,5 x 10^9 / 50 x 10^9 = 0,03
DF[globicephale] =
3,4*10^4 / 50 x 10^9 = 6,8 x 10^-7
Exemple de calcul sans et avec tf*idf
(simplifié)
Internet
Internet
Internet
1000 mots
Globicéphale
1000 mots
TF*iDF[internet] =
0,003 / 0,03 = 0,1
TF*iDF[globicephale] =
0,001/6,8 x 10^7= 1470!
1470 >>>> 0,1
La formule en résumé
Pourquoi il faut abandonner
la densité de mots clés
C’est un critère qui n’est plus utilisé par les outils de recherche
Pertinent que pour les requêtes à un seul terme
Induit le « keyword stuffing » facilement détectable
Les documents proches dans l’espaceont un contenu similaire
Documents dans un espace à 3 dimensions :
Le principe du Cosinus de Salton
Les bases théoriques de l’alignement
sémantique
• L’alignement sémantique consiste à
changer le contenu textuel des pages
pour les « orienter » comme la requête
Alignement sémantique
La méthode allemande
• Les SEO allemands appellent tf*idf wdf*idfmais c’est la même chose– Wdf= « within document frequency »
• Objectif : trouver le « poids » idéal pour un mot clé pour être premier sur une requête donnée
Analyse avec tf*idf
Les limites de l’exercice
• Les poids de type « tf*idf » ne sont que
l’un des signaux exploités par Google
– Si la requête n’est pas concurrentielle : ok
– Si la requête est concurrentielle : travail pas
rentable
• Comment améliorer le poids sans
détériorer la qualité du texte ?
• L’approche en sac de mots est très
dépassée : indexation de syntagmes, de
concepts…
Plus intéressant pour
« analyser » son texte : LSI / LDA
• Latent Semantic Indexing
• Analyse en composantes principales sur l’espace vectoriel de Salton
• Met en évidence les corrélations de niveau 2, souvent liées à la proximité sémantique (mais pas toujours)
• Intérêt pour le SEO : bof ! – Très difficile à manipuler pour les novices
– Peut servir pour analyser des textes en masse en vue de retraitements
Plus intéressant pour
« analyser » son texte : LSI / LDA
A quoi cela peut-il servir ?
• la comparaison de documents dans l'espace des
concepts
– classification et catégorisation de documents
• la recherche de documents similaires entre
différentes langues
• la recherche de relations entre les termes
– résolution de synonymie et de polysémie
• étant donné une requête, traduire les termes de
la requête dans l'espace des concepts, pour
retrouver des documents liés sémantiquement
– recherche d'information, expansion de requête
– Et analyser ses pages dans le contexte Hummingbird !
Conclusion
Merci !