Contenu en double: Pourquoi Cela se produit et Comment le réparer

Responsable du contenu @Ahrefs (ou, en clair, je suis le gars responsable de veiller à ce que chaque article de blog que nous publions soit ÉPIQUE).

Vous cherchez à savoir ce qu’est le contenu en double et en quoi il pourrait nuire à votre référencement?

Le contenu en double est une source d’anxiété constante pour de nombreux propriétaires de sites.

Lisez presque n’importe quoi à ce sujet, et vous en repartirez en croyant que votre site est une bombe à retardement de problèmes de contenu en double. Une pénalité de Google ne dure que quelques jours.

Heureusement, ce n’est pas vrai — mais le contenu en double peut toujours causer des problèmes de référencement. Et avec 25 à 30% du contenu Web en double, il est utile de savoir comment éviter et résoudre de tels problèmes.

Dans ce guide, vous apprendrez:

  • Qu’est-ce que le contenu en double;
  • Pourquoi le contenu en double est mauvais pour le référencement;
  • Si Google a une pénalité de contenu en double;
  • Causes courantes du contenu en double;
  • Comment vérifier (et corriger) le contenu en double

Qu’est-ce que le contenu en double?

Le contenu en double est un contenu exact ou presque en double qui apparaît sur le Web à plusieurs endroits. Cela peut se produire sur un seul site Web ou un domaine transversal.

Par exemple, si je devais republier ce post à ahrefs.com/blog/duplicate-content-copy/, alors ce serait du contenu en double. Ce serait également vrai si je devais le republier sur un autre site Web.

Google déclare que la plupart des contenus dupliqués ne sont pas d’origine trompeuse.

Pourquoi le contenu en double est-il mauvais pour le référencement?

Le contenu dupliqué peut nuire à vos performances SEO pour plusieurs raisons.

  1. URL indésirables ou hostiles dans les résultats de recherche ;
  2. Dilution des liens entrants ;
  3. Brûle le budget d’exploration ;
  4. Contenu gratté ou syndiqué vous dépassant.

Explorons-les plus en profondeur.

URL indésirables ou hostiles dans les résultats de recherche

Imaginez qu’une même page soit disponible à trois URL différentes :

  1. domain.com/page /
  2. domain.com/page /?utm_content=buffer &utm_medium=social
  3. domain.com/category/page /

Le premier devrait apparaître dans les résultats de recherche, mais Google peut se tromper. Si cela se produit, une URL indésirable peut prendre sa place.

Parce que les gens peuvent être moins enclins à cliquer sur une URL hostile, vous pouvez obtenir moins de trafic organique.

Dilution des backlinks

Si le même contenu est disponible sur plusieurs URL, chacune de ces URL peut attirer des backlinks. Cela entraîne la division de « l’équité des liens » entre les URL.

Pour en montrer un exemple dans la nature, jetez un coup d’œil à ces deux pages sur buffer.com :

Ces pages sont presque exactement des doublons. Et ils ont respectivement 106 et 144 domaines de référence (liens de sites Web uniques).

Avant de paniquer, sachez que ce n’est pas toujours un problème à cause de la façon dont Google gère le contenu en double.

En termes simples, lorsqu’ils détectent du contenu en double, ils regroupent les URL en un seul cluster. Ils  » sélectionnent ensuite ce qui semble être la  » meilleure » URL pour représenter le cluster dans les résultats de recherche ” et  » consolident les propriétés des URL du cluster, telles que la popularité des liens, vers l’URL représentative. »

Ainsi, dans le cas ci-dessus, Google ne devrait afficher qu’une seule des URL de la recherche organique et attribuer tous les domaines référents du cluster (106 + 144) à cette URL.

Mais ce n’est pas ce qui se passe, car nous voyons les deux URL se classer dans Google pour des mots clés similaires.

Dans ce cas, Google ne consolide probablement pas « l’équité des liens” à une URL.

AVERTISSEMENT

Nous ne pouvons pas être sûrs de la façon dont Google voit ces deux URL, car nous n’avons pas accès au compte Google Search Console de Buffer. Il se peut qu’ils voient ces deux URL comme des doublons, et l’une d’entre elles disparaîtra bientôt de la recherche organique.

Brûle le budget d’exploration

Google trouve du nouveau contenu sur votre site Web via l’exploration, ce qui signifie qu’il suit les liens des pages existantes vers les nouvelles pages. Ils réécrivent également les pages qu’ils connaissent de temps en temps pour voir si quelque chose a changé.

Avoir du contenu en double ne sert qu’à créer plus de travail pour eux. Cela peut affecter la vitesse et la fréquence à laquelle ils explorent vos pages nouvelles ou mises à jour.

C’est mauvais car cela peut entraîner des retards dans l’indexation de nouvelles pages et la réindexation des pages mises à jour.

Note latérale.

Étant donné que la « limite de taux d’exploration » de Google est plus élevée pour les sites Web plus réactifs, cela pose davantage problème pour les sites Web lents avec des allocations de bande passante plus faibles. Leurs systèmes exploreront également moins souvent les URL en double.

Contenu gratté qui vous dépasse

À l’occasion, vous pouvez autoriser un autre site Web à republier votre contenu. C’est ce qu’on appelle la syndication. D’autres fois, les sites peuvent gratter votre contenu et le republier sans autorisation.

Ces deux scénarios conduisent à des doublons de contenu sur plusieurs domaines, mais ils ne posent généralement pas de problèmes. Ce n’est que lorsque le contenu gratté ou republié commence à dépasser l’original sur votre site que des problèmes surviennent.

La bonne nouvelle est que c’est un événement rare, mais cela peut arriver.

Google a-t-il une pénalité de contenu en double?

Google a déclaré à plusieurs reprises qu’il n’y avait pas de pénalité de contenu en double.

Nous n’avons pas de pénalité de contenu en double. Ce n’est pas que nous rétrograderions un site pour avoir beaucoup de contenu en double.
John Mueller, Webmaster Analyste des tendances Google
Mettons cela au lit une fois pour toutes, les gens: There’s no such thing as a duplicate content penalty.
Susan Moskwa, Former Webmaster Trends Analyst Google

DYK Google doesn’t have a duplicate content penalty.
Gary Illyes, Webmaster Trends Analyst Google

But, this isn’t entirely true. Si votre contenu en double est accidentel et n’est pas le résultat d’une manipulation intentionnelle des résultats de recherche ou de pratiques de spam, vous ne serez pas pénalisé. Si c’est le cas, alors vous pourriez.

Google le confirme ici:

Dans les rares cas où Google perçoit que du contenu en double peut être affiché avec l’intention de manipuler nos classements et de tromper nos utilisateurs, nous procéderons également aux ajustements appropriés dans l’indexation et le classement des sites concernés. En conséquence, le classement du site peut en souffrir, ou le site peut être entièrement supprimé de l’index Google, auquel cas il n’apparaîtra plus dans les résultats de recherche.

La question est de savoir ce qui compte comme « intention de manipuler nos classements et de tromper nos utilisateurs »?

Google a beaucoup d’informations à ce sujet ici. Mais fondamentalement, ce sont des choses comme:

  • Créant intentionnellement plusieurs pages, sous-domaines ou domaines avec beaucoup de contenu en double.
  • Publier beaucoup de contenu gratté
  • Publier du contenu affilié gratté à partir d’Amazon ou d’autres sites (et n’ajoutant aucune valeur supplémentaire)

Cependant, comme indiqué ci-dessus, le contenu en double peut toujours nuire au référencement, même sans pénalité.

Causes courantes de contenu en double

Il n’y a pas de cause unique de contenu en double. Il y en a beaucoup.

Navigation facettée/filtrée

La navigation facettée permet aux utilisateurs de filtrer et de trier les éléments de la page. Les sites de commerce électronique l’utilisent beaucoup.

Ce type de navigation ajoute des paramètres à la fin de l’URL.

Comme il existe généralement de nombreuses combinaisons de ces filtres, la navigation à facettes entraîne souvent beaucoup de contenu en double ou presque en double.

Jetez un coup d’œil à ces deux pages, par exemple :

Les URL sont uniques, mais le contenu est presque identique.

De plus, l’ordre des paramètres n’a souvent pas d’importance. Par exemple, la même page est accessible à ces deux URL:

Comment résoudre ce problème

La navigation à facettes est une bête complexe. Si vous pensez que cela est la cause de vos problèmes de contenu en double, lisez simplement ceci.

Paramètres de suivi

Les URL paramétrées sont également utilisées à des fins de suivi. Par exemple, vous pouvez utiliser les paramètres UTM pour suivre les visites d’une campagne de newsletter dans Google Analytics :

Exemple : example.com/page?utm_source=newsletter

Comment résoudre ce problème

Canonisez vos URL paramétrées en versions optimisées pour le référencement sans paramètres de suivi.

ID de session

Les ID de session stockent des informations sur vos visiteurs. Ils ajoutent généralement une longue chaîne à l’URL comme suit:

Exemple: example.com ?sessionId=jow8082345hnfn9234

How to solve this issue

Canonicalize the URLs to SEO-friendly versions.

HTTPS vs. HTTP, and non-www vs. www

Most websites are accessible at one of these four variations:

  • https://www.example.com (HTTPS, www)
  • https://example.com (HTTPS, non-www)
  • http://www.example.com (HTTP, www)
  • http://example.com (HTTP, non-www)

If you’re using HTTPS, it’ll be one of the first two. Que ce soit la version www ou non-www est votre choix.

Cependant, si vous ne configurez pas correctement votre serveur, votre site sera accessible à au moins deux de ces variantes. Ce n’est pas bon et peut entraîner des problèmes de contenu en double.

Comment résoudre ce problème

Utilisez les redirections pour vous assurer que votre site Web n’est accessible qu’à un seul endroit.

URL sensibles à la casse

Google considère les URL comme sensibles à la casse.

Les URL sont sensibles à la casse, mais choisissez le cas que vous voulez.— JohnJohn 2 (@JohnMu) 22 juin 2017

Sidenote.

Cela ne semble pas être le cas pour Bing, qui traite toutes les URL en minuscules.

Cela signifie que ces trois URL sont toutes différentes :

  • example.com/page
  • example.com/PAGE
  • example.com/pAgE
Comment résoudre ce problème

Être cohérent avec les liens internes (c’est-à-dire ne pas lier en interne à plusieurs versions d’URL). Si cela ne résout pas les choses, vous pouvez toujours canoniser ou rediriger.

Barres obliques de fin par rapport à les barres obliques sans fin

Google traite les URL avec et sans barres obliques comme uniques. Cela signifie que ces deux URL sont uniques aux yeux de Google :

  • example.com/page /
  • example.com/page

Si votre contenu est accessible aux deux URL, cela peut entraîner des problèmes de contenu en double.

Pour vérifier s’il s’agit d’un problème, essayez de charger une page avec et sans la barre oblique de fin. Idéalement, une seule version se chargera. L’autre redirigera.

Par exemple, si vous essayez de charger ce message sans la barre oblique de fin, il sera redirigé vers l’URL avec la barre oblique de fin.

Google déclare que ce comportement est idéal.

Si une seule version peut être renvoyée (c’est-à-dire que l’autre y redirige), c’est génial! Ce comportement est bénéfique car il réduit le contenu en double.

Comment résoudre ce problème

Redirigez la version indésirable (par exemple, sans barre oblique de fin) vers la version souhaitée (par exemple, avec barre oblique de fin). Vous devez également vous assurer de rester cohérent avec les liens internes. Ne pas lier aux versions avec des barres obliques de fin parfois, et sans autres fois. Choisissez-en un et respectez-le.

Url faciles à imprimer

Les versions faciles à imprimer ont le même contenu que l’original. C’est seulement l’URL qui diffère.

  • example.com/page
  • example.com/print/page
Comment résoudre ce problème

Canonisez la version imprimable à l’original.

URL adaptées aux mobiles

Les URL adaptées aux mobiles, comme les URL faciles à imprimer, sont des doublons.

  • example.com/page
  • m. exemple.com/page
Comment résoudre ce problème

Canonicaliser la version adaptée aux mobiles à l’original. Utilisez rel= »alternate » pour indiquer à Google que l’URL adaptée aux mobiles est une version alternative du contenu du bureau.

Lecture recommandée : Annotations pour les URL de bureau et mobiles

URL AMP

Les pages Mobiles accélérées (AMP) sont des doublons.

  • example.com/page
  • example.com/amp/page
Comment résoudre ce problème

Canonisez la version AMP vers la version non AMP. Utilisez rel="amphtml" pour indiquer à Google que l’URL AMP est une version alternative du contenu non AMP.

Si vous n’avez que du contenu AMP, utilisez une balise canonique auto-référencée.

Lecture recommandée: Rendez vos pages détectables – amp.dev

Pages de balises et de catégories

La plupart des CMS créent des pages de balises dédiées lorsque vous utilisez des balises.

Par exemple, si vous avez un article sur les protéines de lactosérum biologiques et que vous utilisez à la fois « poudre de protéine » et « lactosérum » comme balises, vous vous retrouverez avec deux pages de balises comme celles-ci:

Cela ne provoque pas toujours de contenu en double en soi, mais cela peut.

C’est le cas ici car il n’y a qu’une seule page sur le site avec ces deux balises — donc chaque page de balise est identique.

Comment résoudre ce problème

Deux options:

  1. N’utilisez pas de balises. La plupart du temps, ils ont peu ou pas de valeur de toute façon.
  2. Ne pas indexer vos pages de balises. Cela ne résout pas le problème du budget d’exploration, car Google perdra toujours du temps à explorer ces pages.

Notez que les pages de catégories peuvent causer des problèmes similaires aux pages de balises. Exemple :

Ces deux pages sont presque identiques car aucun produit n’est répertorié dans les deux catégories. Il ne nous reste donc plus que la copie du modèle standard.

Résolvez cela en utilisant un nombre raisonnable de catégories sur votre site, ou même en n’indexant pas vos pages de catégories.

URL d’image de pièce jointe

De nombreux CMS créent des pages dédiées pour les pièces jointes d’image. Ces pages ne montrent généralement que l’image et une copie standard.

Comme cette copie est la même sur toutes les pages générées automatiquement, elle conduit à dupliquer le contenu.

Comment résoudre ce problème

Désactivez les pages dédiées pour les images dans votre CMS. Dans WordPress, vous pouvez le faire en utilisant un plugin comme Yoast.

Commentaires paginés

WordPress et d’autres CMS permettent des commentaires paginés. Cela provoque un contenu en double car il crée efficacement plusieurs versions des mêmes URL.

  • example.com/post /
  • example.com/post/comment-page-2
  • example.com/post/comment-page-3
Comment résoudre ce problème

Désactivez la pagination des commentaires ou n’indexez pas vos pages paginées à l’aide d’un plugin comme Yoast.

Localisation

Si vous diffusez un contenu similaire à des personnes de différentes régions qui parlent la même langue, cela peut entraîner une duplication du contenu.

Par exemple, vous pouvez avoir différentes versions de votre site pour les utilisateurs aux États-Unis, au Royaume-Uni et en Australie. Étant donné qu’il n’y a probablement que des différences mineures entre le contenu servi à chaque emplacement (par exemple, les prix en dollars par rapport aux livres sterling), les versions seront presque des doublons.

Note latérale.

Selon John Mueller, le contenu traduit n’est pas un contenu en double.

Comment résoudre ce problème

Utilisez les balises hreflang pour informer les moteurs de recherche de la relation entre les variations.

Pages de résultats de recherche

Beaucoup de sites Web ont des boîtes de recherche. L’utilisation de ceux-ci vous amène généralement à une URL de recherche paramétrée.

Exemple: example.com?q=terme de recherche

L’ancien responsable du Webspam de Google, Matt Cutts, a déclaré que:

En règle générale, les résultats de recherche sur le Web n’ajoutent pas de valeur aux utilisateurs, et comme notre objectif principal est de fournir les meilleurs résultats de recherche possibles, nous excluons généralement les résultats de recherche de notre index de recherche sur le Web. (Toutes les URL contenant des éléments tels que « /results » ou « /search » ne sont bien sûr pas des résultats de recherche.)
Matt Cutts, Ancien responsable du Webspam Google
Comment résoudre ce problème

Utilisez une balise meta robots pour supprimer les pages de recherche de Google indexer ou bloquer l’accès aux pages de résultats de recherche dans les robots.txt. Évitez de créer des liens internes vers les pages de résultats de recherche.

Environnement de test

Un environnement de test est une version dupliquée ou quasi-dupliquée de votre site utilisée à des fins de test.

Par exemple, imaginez que vous souhaitiez installer un nouveau plugin ou modifier du code sur votre site Web. Vous ne voudrez peut-être pas pousser cela directement sur un site en direct avec des centaines de milliers de visiteurs quotidiens. Le risque de catastrophe est trop élevé. La solution consiste d’abord à tester les changements dans un environnement de transfert.

Les environnements de transfert deviennent un problème de référencement lorsque Google les indexe, car il en résulte un contenu en double.

Comment résoudre ce problème

Protégez votre environnement de transfert à l’aide de l’authentification HTTP, de la liste blanche IP ou de l’accès VPN. S’il est déjà indexé, utilisez une directive robots noindex pour le supprimer.

Comment vérifier le contenu en double sur votre site

Rendez-vous sur l’audit du site d’Ahrefs et lancez une analyse.

Une fois terminé, accédez au rapport de qualité du contenu.

Recherchez des groupes de doublons et de quasi-doublons sans canonique. Ceux-ci sont surlignés en orange.

Cliquez sur l’un de ces clusters pour voir les pages affectées.

Recherchez la raison du contenu dupliqué, puis prenez les mesures appropriées.

Notez que ce ne sont pas toujours des problèmes à corriger, en particulier dans le cas de doublons proches.

Pas un utilisateur Ahrefs ?

Recherchez ces avertissements liés au contenu en double dans Google Search Console:

  • Dupliquer sans duplication canonique sélectionnée par l’utilisateur
  • , Google a choisi une adresse canonique différente de celle de l’utilisateur
  • Dupliquer, l’URL soumise n’est pas sélectionnée comme canonique

Pour en savoir plus sur la façon de gérer ces avertissements, cliquez ici.

Pour voir comment Google traite une URL spécifique, utilisez l’outil d’inspection d’URL.

Vous pouvez également rechercher des balises de titre en double, des méta-descriptions et des H1 dans le rapport Balises HTML.

Les mauvais doublons sont ce que vous recherchez. Ce sont des pages avec des balises meta en double mais différentes canoniques.

Sélectionnez-les en cliquant sur le bouton ”Mauvais doublons » sous les balises HTML &contenu.

Cliquez sur l’une des barres jaunes pour voir les pages concernées.

Les pages avec des titres en double, des méta-descriptions ou des H1 sont souvent très similaires.

Par exemple, ces deux ont la même balise de titre, et le contenu est presque identique car le produit est le même. La seule différence est que l’une des pages est pour un paquet de 3 feux d’éclairage instantanés, tandis que l’autre est pour un seul.

Google indique que vous devez minimiser le contenu similaire comme celui-ci:

Si vous avez de nombreuses pages similaires, envisagez d’étendre chaque page ou de consolider les pages en une seule.

Cependant, il est peu probable qu’un petit nombre de pages similaires pose un problème.

Comment vérifier les problèmes de contenu en double sur le Web

Le grattage et la syndication de contenu peuvent également entraîner des problèmes de contenu en double. Mais ce n’est généralement un problème que si vous voyez des versions grattées de votre contenu vous dépasser.

Cela arrive-t-il? Oui, mais c’est souvent plus un problème pour les sites Web nouveaux ou faibles. Pourquoi? Parce que les sites qui grattent votre contenu font souvent plus autorité. Cela ”trompe » parfois Google en pensant que le leur est l’original.

Si vous avez un petit site Web, vous pouvez souvent trouver du contenu gratté en recherchant sur Google un extrait de texte de votre page entre guillemets.

Pour les sites plus grands, vous devrez utiliser un outil automatisé comme Copyscape. Cela permet de rechercher sur le Web d’autres occurrences du contenu de votre (vos) page(s).

Quelle que soit la méthode que vous utilisez, la plupart des résultats proviendront de sites spammés et de mauvaise qualité.

D’une manière générale, il n’y a rien à craindre. Cependant, si vous voyez qu’un site Web légitime a supprimé votre contenu et que vous craignez qu’il ne vole votre trafic, jetez l’URL dans l’explorateur de site d’Ahrefs pour voir une estimation du trafic organique.

S’il y a plus de trafic que votre page, il peut y avoir un problème.

Dans ce cas, vous avez trois options:

  1. Contactez-nous et demandez-leur de supprimer le contenu.
  2. Contactez-nous et demandez-leur d’ajouter un lien canonique vers l’original sur votre site.
  3. Soumettez une demande de retrait DMCA via Google.

Si vous syndiquez intentionnellement du contenu vers d’autres sites Web, il vaut la peine de leur demander d’ajouter un lien canonique vers l’original. Cela éliminera le risque de problèmes de contenu en double.

republier du contenu sur votre propre site ?

Si vous republiez du contenu provenant d’autres sites sur votre site, il existe deux façons d’éviter les problèmes de contenu en double :

  1. Canonisez pour revenir à l’original.
  2. Pas d’index de la page.

Pensées finales

Ne stressez pas trop le contenu en double. C’est généralement beaucoup moins un problème qu’on ne le pense.

Si vous avez une poignée de pages en double ou presque en double, il est peu probable qu’il y ait beaucoup de problèmes. Il en va de même lorsque vous citez du contenu d’un autre site Web ou d’autres pages de votre site. De petites quantités de contenu en double ou standard devraient être acceptables. Google a des systèmes en place pour faire face à de telles choses.

Vous devez être à l’affût des problèmes techniques de référencement qui conduisent à la génération de centaines ou de milliers de pages de contenu en double, telles que la mauvaise implémentation de la navigation à facettes sur les sites de commerce électronique.

Ceux-ci peuvent faire des ravages sur votre budget d’exploration, entre autres choses.



Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.