duplicate content seo campus 09-03-2012
DESCRIPTION
Support de la conférence d'Olivier Andrieu (Abodnance) sur le Duplicate Content au salon SEO Campus le 9 mars 2012.TRANSCRIPT
Le "Duplicate Content"
Olivier Andrieu (Abondance)
SEO CAMPUS
9 mars [email protected]
http://www.abondance.com/
Olivier Andrieu ([email protected])
Basé à Heiligenstein (67140)
- Premiers pas sur Internet en 1993
- Création de la société Abondance en 1996
- Audit, conseil, accompagnement, formations, etc.autour du référencement naturel (SEO)
Présentation
Lettre professionnelle "Recherche et Référencement"
Le "Duplicate Content"
Le "duplicate content", c'est quoi ?
Le "duplicate content", c'est quoi ?
La gestion du contenu dupliqué par les moteurs
La notion de contenu dupliqué peut être de différents types…
Le "duplicate content", c'est quoi ?
???
Le "duplicate content", c'est quoi ?
???
Il peut s'agir de contenus complets ou parfois de "parties de contenus"
Le "duplicate content", c'est quoi ?
???
Il peut s'agir de contenus complets ou parfois de "parties de contenus"
Méthodes :
Algorithme de Simhash :http://www.cs.princeton.edu/courses/archive/spring04/cos598B/bib/CharikarEstim.pdf
Indice et distance de Jaccard :http://fr.wikipedia.org/wiki/Indice_et_distance_de_Jaccard
Similarité Cosinus / Indice de Tanimoto :http://fr.wikipedia.org/wiki/Similarit%C3%A9_cosinus#indice_de_Tanimoto
Coefficient de Dice :http://en.wikipedia.org/wiki/Dice's_coefficient
Le "duplicate content", c'est quoi ?
Canonique(l'original)
Dupliquée (la copie)
PageRank Date de crawl
Moins de visibilité Crawl affecté
Le "Duplicate Content"
Les différentes formes de "duplicate content"
Les différentes formes de "duplicate content"
1. Le DC intrasite
http://www.siteweb.com/actu/france/sarkozy-hollande.html
http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollande.html
???
Les différentes formes de "duplicate content"
2. Le DC intersite
http://www.siteweb.com/actu/france/sarkozy-hollande.html
http://www.autresiteweb.com/actualites/sarkozy-hollande.html
???
Les différentes formes de "duplicate content"
3. Le DC "DUST" (Duplicate URL, Same Text)
http://www.siteweb.com/actu/france/sarkozy-hollande/
http://siteweb.com/actu/france/sarkozy-hollande/
http://www.siteweb.com/actu/france/sarkozy-hollande
http://www.siteweb.com/actu/france/sarkozy-hollande/index.html
http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?source=emailing&pays=fr
http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?pays=fr& source=emailing
???
Les différentes formes de "duplicate content"
4. Le DC par similarité des Title et meta "description"
???
Les différentes formes de "duplicate content"
5. Le DC multilingue
http://www.siteweb.fr/actu/sarkozy-hollande.html
???
http://www.siteweb.be/actu/sarkozy-hollande.html
http://www.siteweb.ch/actu/sarkozy-hollande.html
Le "Duplicate Content"
Les solutions contre le "duplicate content"
"Duplicate content" : les solutions
1. Le DC intrasite
http://www.siteweb.com/actu/france/sarkozy-hollande.html
http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollande.html
???
"Duplicate content" : les solutions
1. Le DC intrasite
http://www.siteweb.com/actu/france/sarkozy-hollande.html
http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollande.html
1ère solution : suffisamment modifier le second contenu pour le différencier du premier (réécriture manuelle, ajout de contenu, spinning, etc.)
"Duplicate content" : les solutions
1. Le DC intrasite
Des outils comme DuplicateContent.net (ou d'autres similaires) peuvent vous aider
"Duplicate content" : les solutions
1. Le DC intrasite
http://www.siteweb.com/actu/france/sarkozy-hollande.html
http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollande.html
2ème solution : balise "canonical"
<link rel="canonical" href="http://www.siteweb.com/actu/france/sarkozy-hollande.html">
Canonique
Dupliquée
"Duplicate content" : les solutions
1. Le DC intrasite
http://www.siteweb.com/actu/france/sarkozy-hollande.html
http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollande.html
3ème solution : désindexation
Ou <meta name="robots" content="noindex,follow">
Disallow: http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollande.html (robots.txt)
"Duplicate content" : les solutions
1. Le DC intrasite
Attention aux versions PDF de vos pages HTML (ou inversement) :http://actu.abondance.com/2011/09/google-et-lindexation-de-documents-pdf.html
En revanche, un contenu traduit n'entre pas en duplicate content avec l'original…
"Duplicate content" : les solutions
2. Le DC intersite
http://www.siteweb.com/actu/france/sarkozy-hollande.html
http://www.autresiteweb.com/actualites/sarkozy-hollande.html
Même solution (mais plus compliquée) : balise "canonical"
(ou réécriture ou désindexation)
<link rel="canonical" href="http://www.siteweb.com/actu/france/sarkozy-hollande.html">
Canonique
Dupliquée
"Duplicate content" : les solutions
2. Le DC intersite
Eviter de proposer le contenu complet de vos articles dans vos fils RSS.
Proposer plutôt titre + chapo…
La reprise d'un fil RSS contenant titre + chapo ne constitue pas un cas de DC.
"Duplicate content" : les solutions
3. Le DC "DUST" (Duplicate URL, Same Text)
http://www.siteweb.com/actu/france/sarkozy-hollande/
http://siteweb.com/actu/france/sarkozy-hollande/
http://www.siteweb.com/actu/france/sarkozy-hollande
http://www.siteweb.com/actu/france/sarkozy-hollande/index.html
http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?source=emailing&pays=fr
http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?pays=fr& source=emailing
???
"Duplicate content" : les solutions
3. Le DC "DUST" (Duplicate URL, Same Text)
http://www.siteweb.com/actu/france/sarkozy-hollande/
http://www.siteweb.com/actu/france/sarkozy-hollande
http://www.siteweb.com/actu/france/sarkozy-hollande/index.html
http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?source=emailing
Solution : balise "canonical"
<link rel="canonical" href=" http://www.siteweb.com/actu/france/sarkozy-hollande/" >
"Duplicate content" : les solutions
3. Le DC "DUST" (Duplicate URL, Same Text)
Solution :
Vérifier dans les Webmaster Tools (Configuration du site > Paramètres d'URL) les paramètres d'URL qui peuvent générer du DC…
"Duplicate content" : les solutions
3. Le DC "DUST" (Duplicate URL, Same Text)
Solution :
1. Indiquez uniquement les URL canoniques dans votre Sitemap !
2. Faites attention à votre linking interne :
http://www.votresite.com/
vs.
http://www.votresite.com
3. Vérifiez que vos URL réécrites sont redirigées en 301 :
http://www.votresite.fr/index.php?id=4
http://www.votresite.fr/apropos.html
301
"Duplicate content" : les solutions
4. Le DC par similarité des Title et meta "description"
???
"Duplicate content" : les solutions
4. Le DC par similarité des TITLE et meta "description"
Solution :
1. Vérifier dans les Webmaster Tools (Diagnostic > Suggestions HTML)
2. Corriger en différenciant suffisamment les TITLE et meta "description" de chaque page du site.
"Duplicate content" : les solutions
5. Le DC multilingue
http://www.siteweb.fr/actu/sarkozy-hollande.html
???
http://www.siteweb.be/actu/sarkozy-hollande.html
http://www.siteweb.ch/actu/sarkozy-hollande.html
"Duplicate content" : les solutions
5. Le DC multilingue
http://www.siteweb.fr/actu/sarkozy-hollande.html
http://www.siteweb.be/actu/sarkozy-hollande.html
http://www.siteweb.ch/actu/sarkozy-hollande.html
Solution :
1. Les balises multilingues
<link rel="alternate" hreflang="fr-fr" href=" http://www.siteweb.fr/actu/sarkozy-hollande.html " />
<link rel="alternate" hreflang="fr-be" href=" http://www.siteweb.fr/actu/sarkozy-hollande.html " />
<link rel="alternate" hreflang="fr-ch" href=" http://www.siteweb.fr/actu/sarkozy-hollande.html " />
"Duplicate content" : les solutions
5. Le DC multilingue
Solution :
2. Indiquer le pays-cible dans les Webmaster Tools (Configuration du site > Paramètres)
Le "Duplicate Content"
Conclusion
Conclusion
- Le DC n'est pas une pénalité pour un site (sauf spamdexing : http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=66359), mais donne une moins bonne visibilité aux pages dupliquées.
- Parfois le simple fait de corriger les problèmes de DC améliore grandement un référencement.
- Il n'est pas nécessaire de faire une demande de reconsidération de site à Google après avoir corrigé du DC.
- Les solutions existent.
- En règle générale, elles fonctionnent, mais c’est souvent très long ;-)
- Google devrait peut-être proposer une assistance adaptée aux gros sites web à ce sujet.
Conclusion
Petite webographie googlienne pour aller plus loin :
New markup for multilingual content (05/12/2011)http://googlewebmastercentral.blogspot.com/2011/12/new-markup-for-multilingual-content.html
More guidance on building high-quality sites (06/05/2011)http://googlewebmastercentral.blogspot.com/2011/05/more-guidance-on-building-high-quality.html
Handling legitimate cross-domain content duplication (15/12/2009)http://googlewebmastercentral.blogspot.com/2009/12/handling-legitimate-cross-domain.html
Reunifying duplicate content on your website (06/10/2009)http://googlewebmastercentral.blogspot.com/2009/10/reunifying-duplicate-content-on-your.html
Duplicate content and multiple site issues (15/09/2009)http://googlewebmastercentral.blogspot.com/2009/09/duplicate-content-and-multiple-site.html
Specify your canonical (12/02/2009)http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html
Demystifying the "duplicate content penalty" (12/09/2008)http://googlewebmastercentral.blogspot.com/2008/09/demystifying-duplicate-content-penalty.html
Duplicate content due to scrapers (09/06/2008)http://googlewebmastercentral.blogspot.com/2008/06/duplicate-content-due-to-scrapers.html
Deftly dealing with duplicate content (18/12/2006)http://googlewebmastercentral.blogspot.com/2006/12/deftly-dealing-with-duplicate-content.html
Plus d'infos : requête intitle:"duplicate content" site:googlewebmastercentral.blogspot.com
Conclusion
Petite webographie non-googlienne pour aller plus loin :Similarité et Duplicate content : L'indice de Jaccardhttp://b1n.sp1n.me/seo/similarite-duplicate-content-indice-jaccard.109.html
Algorithme de Simhash: Script PHP de calcul de similaritéhttp://www.seoblack-inside.com/php-calcul-similaire-texte-simhash/
Ne pas confondre similarité et duplication de contenus; cas d’écolehttp://www.webcontentspinning.com/ne-pas-confondre-similarite-et-duplication-de-contenus-cas-decole/
Détection de duplicate contenthttp://www.webcontentspinning.com/detection/
Dis papa c'est quoi le duplicate content ?http://www.cyroul.com/web12/dis-papa-cest-quoi-le-duplicate-content/
Vol de contenu et duplicate contenthttp://blog.axe-net.fr/duplicate-content-plagiat/
Google lutte contre les scrapers et encourage la dénonciationhttp://actu.abondance.com/2011/08/google-lutte-contre-les-scrapers-et.html
Tout savoir sur le filtre Contenus Dupliqués de Googlehttp://www.webrankinfo.com/dossiers/techniques/filtre-duplicate-content
Lutter contre le duplicate contenthttp://s.billard.free.fr/referencement/?2008/04/24/477-lutter-contre-le-duplicate-content
Google Patent Granted on Duplicate Content Detection in a Web Crawler Systemhttp://www.seobythesea.com/2009/12/google-patent-granted-on-duplicate-content-detection-in-a-web-crawler-system/
Duplicate and Near Duplicate Documents Detection: A Reviewhttp://www.eurojournals.com/ejsr_32_4_08.pdf
The Illustrated Guide to Duplicate Content in the Search Engineshttp://www.seomoz.org/blog/the-illustrated-guide-to-duplicate-content-in-the-search-engines