Duplicate Content: Warum es passiert und wie man es behebt
Duplicate Content ist für viele Websitebesitzer eine Quelle ständiger Angst.
Wenn Sie fast alles darüber lesen, werden Sie glauben, dass Ihre Website eine tickende Zeitbombe mit doppelten Inhalten ist. Eine Google Penalty ist nur wenige Tage entfernt.
Zum Glück stimmt das nicht — aber doppelte Inhalte können immer noch SEO-Probleme verursachen. Und da 25-30% des Webs doppelte Inhalte sind, ist es nützlich zu wissen, wie solche Probleme vermieden und behoben werden können.
In diesem Handbuch erfahren Sie:
- Was Duplicate Content ist;
- Warum Duplicate Content schlecht für SEO ist;
- Ob Google eine Duplicate Content Penalty hat;
- Häufige Ursachen von Duplicate Content;
- So prüfen (und beheben) Sie Duplicate Content
Was ist Duplicate Content?
Duplicate Content ist exakter oder nahezu duplizierter Inhalt, der im Web an mehr als einer Stelle erscheint. Es kann auf einer einzelnen Website oder Cross-Domain auftreten.
Wenn ich zum Beispiel diesen Beitrag unter ahrefs.com/blog/duplicate-content-copy/
erneut veröffentlichen würde, wäre das Duplicate Content. Das wäre auch wahr, wenn ich es auf einer anderen Website veröffentlichen würde.
Google gibt an, dass die meisten doppelten Inhalte nicht irreführend sind.
Warum ist Duplicate Content schlecht für SEO?
Duplicate Content kann Ihre SEO-Leistung aus mehreren Gründen beeinträchtigen.
- Unerwünschte oder unfreundliche URLs in den Suchergebnissen;
- Backlinkverdünnung;
- Verbrennt das Crawl-Budget;
- Gekratzte oder syndizierte Inhalte übertreffen Sie.
Lassen Sie uns diese eingehender untersuchen.
Unerwünschte oder unfreundliche URLs in den Suchergebnissen
Stellen Sie sich vor, dass dieselbe Seite unter drei verschiedenen URLs verfügbar ist:
- domain.com/page /
- domain.com/page/?utm_content=Puffer&utm_medium=sozial
- domain.com/category/page /
Der erste sollte in den Suchergebnissen angezeigt werden, aber Google kann dies falsch verstehen. In diesem Fall kann eine unerwünschte URL an ihre Stelle treten.
Da die Leute weniger geneigt sind, auf eine unfreundliche URL zu klicken, erhalten Sie möglicherweise weniger organischen Traffic.
Backlinkverdünnung
Wenn derselbe Inhalt auf vielen URLs verfügbar ist, kann jede dieser URLs Backlinks anziehen. Dies führt zur Aufteilung der „Link-Gerechtigkeit“ zwischen URLs.
Um ein Beispiel dafür in freier Wildbahn zu zeigen, werfen Sie einen Blick auf diese beiden Seiten auf buffer.com :
Diese Seiten sind fast exakte Duplikate. Und sie haben 106 und 144 verweisende Domains (Links von einzigartigen Websites).
Bevor Sie in Panik geraten, sollten Sie wissen, dass dies nicht immer ein Problem ist, da Google mit doppelten Inhalten umgeht.In einfachen Worten, wenn sie doppelte Inhalte erkennen, gruppieren sie die URLs in einem Cluster. Anschließend „wählen Sie die „beste“ URL aus, um den Cluster in den Suchergebnissen darzustellen“, und „konsolidieren Sie Eigenschaften der URLs im Cluster, z. B. die Linkpopularität, mit der repräsentativen URL.“
Im obigen Fall sollte Google also nur eine der URLs in der organischen Suche anzeigen und alle verweisenden Domains im Cluster (106 + 144) dieser URL zuordnen.
Aber das ist nicht das, was passiert, da wir beide URLs Ranking in Google für ähnliche Keywords sehen.
In diesem Fall konsolidiert Google wahrscheinlich nicht „Link Equity“ an einer URL.
Wir können nicht sicher sein, wie Google diese beiden URLs sieht, da wir keinen Zugriff auf das Google Search Console-Konto von Buffer haben. Es kann sein, dass sie beide URLs als Duplikate sehen, und einer von ihnen wird bald aus der organischen Suche verschwinden.
Verbrennt das Crawlingbudget
Google findet neue Inhalte auf Ihrer Website durch Crawlen, dh sie folgen Links von vorhandenen Seiten zu neuen Seiten. Sie kriechen auch Seiten, die sie kennen, von Zeit zu Zeit neu, um zu sehen, ob sich etwas geändert hat.
Duplicate Content dient nur dazu, mehr Arbeit für sie zu schaffen. Dies kann sich auf die Geschwindigkeit und Häufigkeit auswirken, mit der sie Ihre neuen oder aktualisierten Seiten crawlen.
Das ist schlecht, weil es zu Verzögerungen bei der Indizierung neuer Seiten und der Neuindizierung aktualisierter Seiten führen kann.
Scraped content outranking you
Gelegentlich können Sie einer anderen Website gestatten, Ihre Inhalte erneut zu veröffentlichen. Das nennt man Syndizierung. In anderen Fällen können Websites Ihre Inhalte kratzen und ohne Erlaubnis erneut veröffentlichen.
Beide Szenarien führen zu doppelten Inhalten über mehrere Domains hinweg, verursachen jedoch normalerweise keine Probleme. Erst wenn der gekratzte oder neu veröffentlichte Inhalt das Original auf Ihrer Website übertrifft, treten Probleme auf.
Die gute Nachricht ist, dass dies ein seltenes Ereignis ist, aber es kann passieren.
Hat Google eine Duplicate Content Penalty?
Google hat mehrfach erklärt, dass es keine Duplicate Content Penalty gibt.
Wir haben keine Strafe für doppelte Inhalte. Es ist nicht so, dass wir eine Website herabstufen würden, weil sie viele doppelte Inhalte enthält.John Mueller, Webmaster Trends Analyst Google
Lass uns das ein für alle Mal ins Bett bringen, Leute: There’s no such thing as a duplicate content penalty.Susan Moskwa, Former Webmaster Trends Analyst Google
DYK Google doesn’t have a duplicate content penalty.Gary Illyes, Webmaster Trends Analyst Google
But, this isn’t entirely true. Wenn Ihr Duplicate Content zufällig ist und nicht das Ergebnis vorsätzlicher Manipulation von Suchergebnissen oder Spam-Praktiken, werden Sie nicht bestraft. Wenn ja, dann könnten Sie.
Google bestätigt dies hier:
In den seltenen Fällen, in denen Google feststellt, dass Duplicate Content mit der Absicht angezeigt wird, unsere Rankings zu manipulieren und unsere Nutzer zu täuschen, werden wir auch entsprechende Anpassungen bei der Indizierung und dem Ranking der betroffenen Websites vornehmen. Infolgedessen kann das Ranking der Website darunter leiden oder die Website wird vollständig aus dem Google-Index entfernt.
Die Frage ist, was zählt als „Absicht, unsere Rankings zu manipulieren und unsere Nutzer zu täuschen“?
Google hat hier viele Informationen dazu. Aber im Grunde sind es Dinge wie:
- Absichtlich mehrere Seiten, Subdomains oder Domains mit vielen doppelten Inhalten erstellen.
- Veröffentlichen von viel gekratztem Inhalt
- Veröffentlichen von Affiliate—Inhalten, die von Amazon oder anderen Websites gekratzt wurden (und keinen zusätzlichen Wert hinzufügen)
Wie oben erläutert, kann Duplicate Content SEO jedoch immer noch schaden – auch ohne Strafe.
Häufige Ursachen für doppelten Inhalt
Es gibt keine einzige Ursache für doppelten Inhalt. Es gibt viele.
Facettierte/gefilterte Navigation
In der facettierten Navigation können Benutzer Elemente auf der Seite filtern und sortieren. E-Commerce-Websites verwenden es viel.
Diese Art der Navigation hängt Parameter an das Ende der URL an.
Da es normalerweise viele Kombinationen dieser Filter gibt, führt die facettierte Navigation häufig zu vielen doppelten oder nahezu doppelten Inhalten.
Schauen Sie sich zum Beispiel diese beiden Seiten an:
Die URLs sind eindeutig, aber der Inhalt ist fast identisch.
Außerdem spielt die Reihenfolge der Parameter oft keine Rolle. Zum Beispiel ist dieselbe Seite unter diesen beiden URLs zugänglich:
Facettierte Navigation ist ein komplexes Biest. Wenn Sie dies als Ursache für Ihre Probleme mit doppelten Inhalten vermuten, lesen Sie dies einfach.
Tracking-Parameter
Parametrisierte URLs werden auch für Tracking-Zwecke verwendet. Sie können beispielsweise UTM-Parameter verwenden, um Besuche aus einer Newsletter-Kampagne in Google Analytics zu verfolgen:
Beispiel: example.com/page?utm_source=newsletter
Kanonisieren Sie Ihre parametrisierten URLs in SEO-freundliche Versionen ohne Tracking-Parameter.
Session-IDs
Session-IDs speichern Informationen über Ihre Besucher. Sie hängen normalerweise eine lange Zeichenfolge wie folgt an die URL an:
Beispiel: example.com?sessionId=jow8082345hnfn9234
Canonicalize the URLs to SEO-friendly versions.
HTTPS vs. HTTP, and non-www vs. www
Most websites are accessible at one of these four variations:
- https://www.example.com (HTTPS, www)
- https://example.com (HTTPS, non-www)
- http://www.example.com (HTTP, www)
- http://example.com (HTTP, non-www)
If you’re using HTTPS, it’ll be one of the first two. Ob es die WWW- oder Nicht-WWW-Version ist, ist Ihre Wahl.
Wenn Sie Ihren Server jedoch nicht korrekt konfigurieren, ist Ihre Site in zwei oder mehr dieser Varianten zugänglich. Das ist nicht gut und kann zu Problemen mit doppelten Inhalten führen.
Verwenden Sie Weiterleitungen, um sicherzustellen, dass Ihre Website nur an einem Ort zugänglich ist.
Groß- und Kleinschreibung bei URLs
Google betrachtet URLs als Groß- und Kleinschreibung.
Bei URLs wird zwischen Groß- und Kleinschreibung unterschieden.— 🍌 John 🍌 (@JohnMu) 22. Juni 2017
Dies scheint bei Bing nicht der Fall zu sein, da alle URLs als Kleinbuchstaben behandelt werden.
Das bedeutet, dass diese drei URLs alle unterschiedlich sind:
- example.com/page
- example.com/PAGE
- example.com/pAgE
Seien Sie konsistent mit internen Links (dh verlinken Sie nicht intern auf mehrere Versionen von URLs). Wenn das die Dinge nicht löst, können Sie immer kanonisieren oder umleiten.
Schrägstriche vs. nicht nachgestellte Schrägstriche
Google behandelt URLs mit und ohne nachgestellte Schrägstriche als eindeutig. Das bedeutet, dass diese beiden URLs in Googles Augen eindeutig sind:
- example.com/page /
- example.com/page
Wenn Ihr Inhalt unter beiden URLs zugänglich ist, kann dies zu Problemen mit doppelten Inhalten führen.
Um zu überprüfen, ob dies ein Problem ist, versuchen Sie, eine Seite mit und ohne den abschließenden Schrägstrich zu laden. Idealerweise wird nur eine Version geladen. Der andere wird umleiten.
Wenn Sie beispielsweise versuchen, diesen Beitrag ohne den abschließenden Schrägstrich zu laden, wird er zur URL mit dem abschließenden Schrägstrich umgeleitet.
Google gibt an, dass dieses Verhalten ideal ist.
Wenn nur eine Version zurückgegeben werden kann (dh die andere leitet darauf um), ist das großartig! Dieses Verhalten ist vorteilhaft, da doppelte Inhalte reduziert werden.
Leiten Sie die unerwünschte Version (z. B. ohne Schrägstrich) auf die gewünschte Version um (z. B. mit Schrägstrich). Sie sollten auch sicherstellen, dass Sie mit der internen Verknüpfung konsistent bleiben. Verlinken Sie manchmal nicht auf Versionen mit abschließenden Schrägstrichen und ohne andere Zeiten. Wählen Sie eine und bleiben Sie dabei.
Druckfreundliche URLs
Druckfreundliche Versionen haben denselben Inhalt wie das Original. Nur die URL unterscheidet sich.
- example.com/page
- example.com/print/page
Kanonisieren Sie die druckfreundliche Version auf das Original.
Mobilfreundliche URLs
Mobilfreundliche URLs sind wie druckfreundliche URLs Duplikate.
- example.com/page
- m.Beispiel.com/page
Kanonisieren Sie die mobilfreundliche Version auf das Original. Verwenden Sie rel=“alternate“, um Google mitzuteilen, dass es sich bei der mobilfreundlichen URL um eine alternative Version des Desktop-Inhalts handelt.
Empfohlene Lektüre: Anmerkungen für Desktop- und mobile URLs
AMP-URLs
Accelerated Mobile Pages (AMP) sind Duplikate.
- example.com/page
- example.com/amp/page
Kanonisieren Sie die AMP-Version auf die Nicht-AMP-Version. Verwenden Sie rel="amphtml"
, um Google mitzuteilen, dass die AMP-URL eine alternative Version des Nicht-AMP-Inhalts ist.
Wenn Sie nur AMP-Inhalte haben, verwenden Sie ein selbstreferenzierendes Canonical-Tag.
Empfohlene Lektüre: Machen Sie Ihre Seiten auffindbar – amp.dev
Tag- und Kategorieseiten
Die meisten CMS erstellen dedizierte Tag-Seiten, wenn Sie Tags verwenden.
Wenn Sie beispielsweise einen Artikel über Bio-Molkenprotein haben und sowohl „Proteinpulver“ als auch „Molke“ als Tags verwenden, erhalten Sie zwei Tag-Seiten wie diese:
Das verursacht nicht immer doppelten Inhalt an sich, aber es kann.
Das ist hier der Fall, weil es nur eine Seite auf der Site mit diesen beiden Tags gibt – also ist jede Tag-Seite identisch.
Zwei Optionen:
- Verwenden Sie keine Tags. Meistens haben sie sowieso wenig bis gar keinen Wert.
- Noindex Ihre Tags Seiten. Dies löst das Problem des Crawl-Budgets nicht, da Google immer noch Zeit damit verschwendet, diese Seiten zu crawlen.
Beachten Sie, dass Kategorieseiten ähnliche Probleme wie Tags-Seiten verursachen können. Ein typisches Beispiel:
Beide Seiten sind nahezu identisch, da in keiner der beiden Kategorien Produkte aufgeführt sind. Alles, was uns bleibt, ist die Kopie der Boilerplate-Vorlage.Lösen Sie dies, indem Sie eine angemessene Anzahl von Kategorien auf Ihrer Website verwenden oder sogar Ihre Kategorieseiten nicht indizieren.
Attachment image URLs
Viele CMS erstellen dedizierte Seiten für Bildanhänge. Diese Seiten zeigen in der Regel nichts anderes als das Bild und einige Boilerplate-Kopie.
Da diese Kopie auf allen automatisch generierten Seiten gleich ist, führt dies zu doppelten Inhalten.
Deaktivieren Sie dedizierte Seiten für Bilder in Ihrem CMS. In WordPress können Sie dies mit einem Plugin wie Yoast tun.
Paginierte Kommentare
WordPress und andere CMS erlauben paginierte Kommentare. Dies führt zu doppelten Inhalten, da effektiv mehrere Versionen derselben URLs erstellt werden.
- example.com/post /
- example.com/post/comment-page-2
- example.com/post/comment-page-3
Deaktivieren Sie die Kommentarpaginierung oder Noindex Ihrer paginierten Seiten mit einem Plugin wie Yoast.
Lokalisierung
Wenn Sie ähnliche Inhalte für Personen in verschiedenen Gebietsschemas bereitstellen, die dieselbe Sprache sprechen, kann dies zu doppelten Inhalten führen.
Zum Beispiel haben Sie möglicherweise verschiedene Versionen Ihrer Website für Personen in den USA, Großbritannien und Australien. Da es wahrscheinlich nur geringfügige Unterschiede zwischen den Inhalten gibt, die für jedes Gebietsschema bereitgestellt werden (z. B. Preise in Dollar gegenüber Pfund Sterling), sind die Versionen nahezu Duplikate.
Laut John Mueller sind übersetzte Inhalte keine doppelten Inhalte.
Verwenden Sie hreflang-Tags, um Suchmaschinen über die Beziehung zwischen den Variationen zu informieren.
Suchergebnisseiten
Viele Websites haben Suchfelder. Wenn Sie diese verwenden, gelangen Sie normalerweise zu einer parametrisierten Such-URL.
Beispiel: example.com?q=search-term
Matt Cutts, ehemaliger Webspam-Chef von Google, erklärte:
In der Regel bieten Websuchergebnisse keinen Mehrwert für die Nutzer, und da unser Hauptziel darin besteht, die bestmöglichen Suchergebnisse bereitzustellen, schließen wir Suchergebnisse im Allgemeinen aus unserem Websuchindex aus. (Nicht alle URLs, die Dinge wie „/ results“ oder „/search“ enthalten, sind natürlich Suchergebnisse.)Matt Cutts, ehemaliger Leiter von Webspam Google
Verwenden Sie ein Robots-Meta-Tag, um Suchseiten aus dem Google-Index zu entfernen oder den Zugriff auf Suchergebnisseiten in Robots zu blockieren.txt. Verzichten Sie auf interne Links zu Suchergebnisseiten.
Staging-Umgebung
Eine Staging-Umgebung ist eine doppelte oder nahezu doppelte Version Ihrer Website, die zu Testzwecken verwendet wird.
Stellen Sie sich zum Beispiel vor, Sie möchten ein neues Plugin installieren oder einen Code auf Ihrer Website ändern. Vielleicht möchten Sie das nicht direkt auf eine Live-Site mit Hunderttausenden von täglichen Besuchern übertragen. Das Katastrophenrisiko ist zu hoch. Die Lösung besteht darin, die Änderungen zuerst in einer Staging-Umgebung zu testen.
Staging-Umgebungen werden zu einem SEO-Problem, wenn Google sie indiziert, da dies zu doppelten Inhalten führt.
Schützen Sie Ihre Staging-Umgebung mit HTTP-Authentifizierung, IP-Whitelisting oder VPN-Zugriff. Wenn es bereits indiziert ist, verwenden Sie eine robots noindex Direktive, um es zu entfernen.
So prüfen Sie auf doppelte Inhalte auf Ihrer Website
Gehen Sie zu Ahrefs ‚Site Audit und starten Sie einen Crawl.
Wenn Sie fertig sind, gehen Sie zum Content Quality Report.
Suchen Sie nach Clustern von Duplikaten und nahezu Duplikaten ohne kanonische. Diese sind orange hervorgehoben.
Klicken Sie auf einen dieser Cluster, um die betroffenen Seiten anzuzeigen.
Untersuchen Sie den Grund für den doppelten Inhalt und ergreifen Sie dann die entsprechenden Maßnahmen.
Beachten Sie, dass dies nicht immer Probleme sind, die behoben werden müssen, insbesondere bei nahezu Duplikaten.
Suchen Sie in der Google Search Console nach diesen Warnungen zu doppelten Inhalten:
- Duplizieren ohne vom Benutzer ausgewähltes canonical
- Duplizieren, Google hat ein anderes Canonical als den Benutzer ausgewählt
- Duplizieren, übermittelte URL nicht als canonical ausgewählt
Erfahren Sie hier mehr darüber, wie Sie mit diesen Warnungen umgehen können.
Um zu sehen, wie Google eine bestimmte URL behandelt, verwenden Sie das URL Inspection Tool.
Sie können im HTML-Tags-Bericht auch nach doppelten Titel-Tags, Meta-Beschreibungen und H1s suchen.
Schlechte Duplikate sind das, wonach Sie suchen. Dies sind Seiten mit doppelten Meta-Tags, aber unterschiedlichen kanonischen.
Wählen Sie diese aus, indem Sie unter HTML-Tags & content auf den Schalter „Bad duplicates“ klicken.
Klicken Sie auf einen der gelben Balken, um die betroffenen Seiten anzuzeigen.
Seiten mit doppelten Titeln, Meta-Beschreibungen oder H1s sind oft sehr ähnlich.
Zum Beispiel haben diese beiden das gleiche Titel-Tag, und der Inhalt ist fast identisch, weil das Produkt das gleiche ist. Der einzige Unterschied besteht darin, dass eine der Seiten für ein 3er‑Pack Instant Lighting Firelogs ist, während die andere nur für eine ist.
Google gibt an, dass Sie ähnliche Inhalte wie folgt minimieren sollten:
Wenn Sie viele Seiten haben, die ähnlich sind, sollten Sie jede Seite erweitern oder die Seiten zu einer konsolidieren.
Es ist jedoch unwahrscheinlich, dass eine kleine Anzahl ähnlicher Seiten ein großes Problem darstellt.
So prüfen Sie im gesamten Web nach doppelten Inhalten
Scraping und Syndizierung von Inhalten können ebenfalls zu Problemen mit doppelten Inhalten führen. Es ist jedoch normalerweise nur ein Problem, wenn Sie sehen, dass gekratzte Versionen Ihrer Inhalte Sie übertreffen.
Passiert das? Ja, aber es ist oft eher ein Problem für neue oder schwache Websites. Warum? Weil die Websites, die Ihre Inhalte scrapen, oft maßgeblicher sind. Das „täuscht“ Google manchmal vor zu denken, dass es das Original ist.
Wenn Sie eine kleine Website haben, können Sie häufig gekratzten Inhalt finden, indem Sie bei Google nach einem Textausschnitt von Ihrer Seite in Anführungszeichen suchen.
Für größere Websites müssen Sie ein automatisiertes Tool wie Copyscape verwenden. Dies durchsucht das Web nach anderen Vorkommen des Inhalts auf Ihrer Seite (n).
Unabhängig davon, welche Methode Sie verwenden, werden die meisten Ergebnisse von Spam- und minderwertigen Websites stammen.
Im Allgemeinen sind diese nichts zu befürchten. Wenn Sie jedoch feststellen, dass eine legitime Website Ihre Inhalte abgekratzt hat, und befürchten, dass sie möglicherweise Ihren Datenverkehr stiehlt, werfen Sie die URL in den Site Explorer von Ahrefs, um eine Schätzung des organischen Datenverkehrs anzuzeigen.
Wenn es mehr Verkehr als Ihre Seite bekommt, dann kann es ein Problem geben.
In diesem Fall haben Sie drei Möglichkeiten:
- Melden Sie sich und fordern Sie die Entfernung des Inhalts an.
- Erreichen Sie und fordern Sie sie auf, einen kanonischen Link zum Original auf Ihrer Website hinzuzufügen.
- Senden Sie eine DMCA-Deaktivierungsanfrage über Google.
Wenn Sie Inhalte absichtlich mit anderen Websites syndizieren, sollten Sie diese bitten, einen kanonischen Link zum Original hinzuzufügen. Dadurch wird das Risiko von Duplicate Content-Problemen beseitigt.
Wenn Sie Inhalte von anderen auf Ihrer Website erneut veröffentlichen, gibt es zwei Möglichkeiten, Duplicate Content-Probleme zu vermeiden:
- Canonicalize back to the original.
- Noindex die Seite.
Abschließende Gedanken
Betonen Sie Duplicate Content nicht zu sehr. Es ist normalerweise viel weniger ein Problem, als es gedacht ist.
Wenn Sie eine Handvoll doppelter oder nahezu doppelter Seiten haben, ist es unwahrscheinlich, dass ein großes Problem auftritt. Gleiches gilt, wenn Sie Inhalte von einer anderen Website oder anderen Seiten Ihrer Website zitieren. Kleine Mengen von Duplikaten oder Boilerplate-Inhalten sollten in Ordnung sein. Google hat Systeme eingerichtet, um mit solchen Dingen umzugehen.
Worauf Sie achten müssen, sind technische SEO-Pannen, die zur Generierung von Hunderten oder Tausenden von Seiten mit doppeltem Inhalt führen, wie z. B. die unsachgemäße Implementierung der facettierten Navigation auf E-Commerce-Websites.
Diese können unter anderem verheerende Auswirkungen auf Ihr Crawl-Budget haben.