Le contenu dupliqué en SEO


Qu’est-ce qu’un contenu dupliqué ?

Le contenu dupliqué fait référence à des blocs de contenu qui sont soit complètement identiques les uns aux autres, soit très similaires. Le contenu quasi dupliqué fait lui référence à deux éléments de contenu avec seulement quelques différences mineures.

Sur le Web, le contenu dupliqué est un contenu identique (ou très similaire) que l’on trouve sur deux URL différentes.

Le contenu dupliqué peut être causé par de nombreux facteurs, allant de difficultés techniques ou d’erreurs involontaires à une action délibérée. Bien sûr, avoir un contenu similaire est naturel et parfois inévitable (par exemple, citer un autre article sur Internet).

Comment Google gère le contenu dupliqué ?

Google estime qu’entre 25 et 30 % du contenu d’Internet est constitué de textes dupliqués. Le fait que Google souhaite fournir les résultats les plus pertinents aux utilisateurs, il ne veut pas afficher le même contenu plus d’une fois dans les résultats de recherche.

Lorsque Google détecte des pages en double, l’algorithme détermine la meilleure version de la page et l’affiche dans son index.

Bien que Google ne nous indique pas vraiment leur technique pour choisir quelle page sera la « meilleure », nous pouvons faire quelques suppositions :

  • Quelle est la page qui a été publiée en premier ? la première étant normalement prioritaire.
  • Le nombre de backlinks vers une page, celle avec le plus de backlinks aura un avantage.
  • si la balise « canonical » est utilisée, cela détermine quelle page est la source du contenu.
  • L’autorité de domaine de la page.
  • Si un contenu indique « publié à l’origine le… » et renvoie à la source d’origine, la source originale prévaudra…

Une pénalité pour la duplication de contenu ?

Serez-vous pénalisé en cas de duplication de contenu ? Non.

Le contenu dupliqué nuit-il à votre site ? C’est une autre histoire.

Parce que Google n’aime pas beaucoup le contenu dupliqué, de nombreuses personnes ont supposé que cette pratique est punie par Google. Avec une pénalité !

“We don’t have a duplicate content penalty. It’s not that we would demote a site for having a lot of duplicate content.” John Mueller, Google

« Nous n’avons pas de pénalité pour le contenu dupliqué. Nous ne rétrograderons pas un site parce qu’il contient beaucoup de contenus dupliqués. » John Mueller, Google

Mais attention tout de même, Google tient un double discours, et dans quelques cas extrêmes peut prendre la décision d’appliquer une pénalité :

« Dans certains cas cependant, le contenu est délibérément dupliqué entre les domaines afin de manipuler le classement du site par les moteurs de recherche ou d’augmenter le trafic. Ce type de pratique trompeuse peut avoir des effets négatifs sur la navigation de l’internaute qui voit quasiment le même contenu se répéter dans un ensemble de résultats de recherche. » source

https://support.google.com/webmasters/answer/66359?hl=fr

Pourquoi Google n’aime-t-il pas les contenus dupliqués ou très similaires ?

Lorsque vous recherchez quelque chose sur Google, aimeriez-vous voir exactement le même contenu 10 fois ? Bien sûr que non ! Vous voulez des résultats différents, afin de pouvoir choisir.

Google veut éviter le SPAM et la surcharge inutile de son index et de ses serveurs. Il souhaite offrir à ses utilisateurs le meilleur contenu possible.

Les problèmes causés par le contenu dupliqué

Le Crawl budget

Google doit dépenser beaucoup de ressources pour explorer votre site Web. Bien que les ressources de Google semblent illimitées (et le sont probablement), le crawler s’arrête à un moment donné si un site Web est contient énormément de pages.

Si Google parcourt vos pages et trouve le même contenu encore et encore, il risque d’arrêter de parcourir votre site.

Cela peut laisser des pages importantes inexplorées, de sorte que les nouveaux contenus ou les modifications peuvent ne pas être prise en compte rapidement. Assurez-vous que toutes vos pages les plus importantes sont explorées et indexées en réduisant le nombre de pages non pertinentes que votre site envoie à Google. En savoir plus sur le crawl budget.

Dilution de l’autorité des pages

Lorsque vous obtenez des backlinks, ils pointent vers une URL spécifique. Cette URL devient de plus en plus « forte » au fur et à mesure que le nombre de liens augmente. Cependant….

Si vous avez 10 versions de la même page, différents sites Web peuvent avoir un lien vers différentes versions de cette page. Il faut mieux que chaque site fasse un lien vers une seule page.

Mauvaise expérience utilisateur

Parfois la duplication d’une page peut entraîner une mauvaise expérience utilisateur, ce qui peut nuire à votre site web à long terme.

Si vous finissez par positionner une page dans les premiers résultats de Google alors qu’elle n’est pas vraiment pertinente, les utilisateurs le remarqueront immédiatement (ex : indexer une page de recherche avec la couleur xyz quand vous n’avez aucun élément avec cette couleur).

Problèmes internes liés à la duplication de contenu

HTTP / HTTPS & WWW / non-WWWW

Imaginons que vous utilisez le sous-domaine « www » et le protocole HTTPS. Dans ce cas, votre site est disponible via https://www.exemple.com. C’est votre domaine canonique.

Si votre serveur web est mal configuré, votre contenu peut aussi être accessible par :

http://exemple.com

https://exemple.com

http://www.exemple.com

Choisissez la meilleure structure d’URL de votre domaine et mettez en place des redirections des versions non optimal vers la meilleure version.

Utilisation d’URL à structure hiérarchique pour les produits

Une structure hiérarchique des URL produits est un problème récurrent qui conduit à la duplication de contenu.

Supposons que vous ayez une boutique eCommerce avec de très nombreux produits et catégories, ou encore un blog avec de très nombreux articles et catégories.

Avec une structure d’URL hiérarchique, les URLs ressembleraient à ceci :

https://www.exemple.com/boutique/categorie/souscategorie/produit

https://www.exemple.com/blog/categorie/souscategorie/article

Au premier coup d’œil, tout semble normal. Le problème se pose lorsque vous avez le même produit ou le même article dans plusieurs catégories.

Il faut donc mieux éviter d’utiliser ce genre de structure d’URL si vous avez des produits qui peuvent se retrouver dans plusieurs catégories.

Pages d’index (index.html, index.php)

Sans que vous le sachiez, votre page d’accueil peut être accessible via plusieurs URL parce que votre serveur web est mal configuré. En plus de https://www.example.com, votre page d’accueil peut également être accessible via :

https://www.example.com/index.html

https://www.example.com/index.asp

https://www.example.com/index.aspx

https://www.example.com/index.php

Choisissez votre URL préférée et implémentez des redirections 301 des versions non préférées vers la version préférée.

Dans le cas où votre site Web utilise l’une de ces URL, assurez-vous de canonicaliser cette pages.

Variations d’URL (paramètres et ID de session)

Les sites Web utilisent souvent des paramètres dans les URL pour pouvoir offrir une fonctionnalité de filtrage. Prenez cette URL par exemple :

https://www.example.com/jouet/voiture?couleur=noir

Cette page afficherait toutes les petites voitures noires.

Bien que ce soit bien pour les visiteurs, cela peut causer des problèmes majeurs pour les moteurs de recherche. Les options de filtre génèrent souvent un nombre pratiquement infini de combinaisons lorsqu’il y a plus d’une option de filtre disponible. D’autant plus que les paramètres peuvent également être réorganisés.

Ces deux URL montreraient exactement le même contenu :

https://www.example.com/jouet/voiture?couleur=noir&type=course

https://www.example.com/jouet/voiture?type=course&couleur=noir

Implémentez des URL canoniques – une pour chaque page principale, non filtrée – pour éviter les duplications de contenu et consolider l’autorité de la page délivrée par le filtre. Veuillez noter que cela n’empêche pas les problèmes de crawl budget. Vous pouvez également utiliser la fonctionnalité de gestion des paramètres dans Google Search Console pour indiquer aux robots comment gérer les paramètres.

Environnement de pré-production / Tests

C’est une bonne pratique d’utiliser des environnements de pré-production pour déployer et tester de nouvelles fonctionnalités sur vos sites Web. Mais ceux-ci sont souvent laissés à tort accessibles et indexables par les moteurs de recherche.

Utilisez un système d’authentification pour empêcher l’accès aux environnements de pré-prod / tests. Un avantage supplémentaire est que vous empêchez également les concurrents d’y accéder.

Pages d’atterrissage des campagnes de pub

La recherche payante nécessite des pages d’atterrissage dédiées qui ciblent des mots-clés spécifiques. Les pages d’atterrissage sont souvent des reproductions de pages originales, qui sont ensuite ajustées pour cibler ces mots-clés spécifiques. Comme ces pages sont très similaires, elles produisent du contenu en double si elles sont indexées par les moteurs de recherche.

Empêchez les moteurs de recherche d’indexer ces pages de destination en implémentant l’attribut noindex des méta-robots. En général, il est préférable de ne pas créer de liens vers ces pages et de ne pas les inclure dans votre sitemap.

Page de résultat de recherche interne indexable

De nombreux sites permettent de faire des recherches internes. Les pages sur lesquelles les résultats de recherche sont affichés sont toutes très similaires, et dans la plupart des cas ne fournissent aucune valeur aux moteurs de recherche. C’est pourquoi il ne faut pas que ces pages soient indexables pour les moteurs de recherche.

Empêcher les moteurs de recherche d’indexer les pages de résultats de recherche en utilisant les attributs méta-robots noindex, follow. De plus, il est préférable de ne pas créer de liens vers les pages de résultats de recherche.

Contenu dupliqué externe

Quelqu’un vole votre contenu ?

Le contenu dupliqué peut également provenir d’autres personnes qui copient votre contenu et le publient ailleurs. C’est un problème en particulier si votre site Web a une autorité de domaine plutôt faible, et celui qui copie votre contenu a une autorité de domaine plus élevée. Les sites Web ayant une autorité de domaine plus élevé sont souvent explorés plus fréquemment, ce qui fait que le contenu copié est indexé en premier sur le site Web de celui qui a copié le contenu. Le risque est alors que ce contenu leurs soit attribué par Google et qu’ils se positionnent mieux sur les résultats de Google.

Assurez-vous que d’autres sites Web vous créditent en implémentant à la fois une URL canonique menant à votre page et un lien vers votre page. S’ils ne sont pas disposés à le faire, vous pouvez envoyer une demande de DMCA à Google et/ou intenter une action en justice.

Vous volez le contenu de quelqu’un d’autre ?

La copie du contenu d’autres sites Web est également une forme de contenu dupliqué. Google a documenté la meilleure façon de gérer cela du point de vue du référencement : un lien vers la source originale, combiné avec une URL canonique ou une balise noindex pour les méta-robots. Gardez à l’esprit que les éditeurs et webmasters ne sont pas tous super chaud pour que vous syndiquiez leur contenu, il est donc recommandé de demander l’autorisation d’utiliser leur contenu.

Comment identifier les problèmes de contenu dupliqué sur votre site ?

Pour vous aider à identifier du contenu dupliqué sur votre site internet, il existe des outils de Crawl (Par exemple Screaming Frog SEO ou Sitebulbe) qui vont parcourir et analyser votre site web.

Une fois votre site complétement Crawlé, il vous reste à vérifier les catégories suivantes :

  • Duplicate page Title
  • Duplicate meta description
  • Duplicate H1

Comment identifier les problèmes de contenu dupliqué hors de votre site

Si vous avez un petit site Web, vous pouvez essayer de chercher des phrases entre guillemets dans Google.

Vous pouvez également utiliser un service tel que Copyscape pour les sites Web plus gros. Copyscape parcourt le Web à la recherche de multiples occurrences d’un même contenu ou d’un contenu presque identique.

<

ou contactez-nous au