Duplicate Content: waarom het gebeurt en hoe het te repareren
Duplicate content is een bron van constante angst voor veel site-eigenaren.
Lees er bijna alles over, en je zult denken dat je site een tikkende tijdbom is van dubbele inhoudsproblemen. Een Google penalty is slechts enkele dagen weg.
gelukkig is dit niet waar – maar dubbele inhoud kan nog steeds SEO problemen veroorzaken. En met 25-30% van het web wordt duplicate content, is het handig om te weten hoe te voorkomen en dergelijke problemen op te lossen.
In deze gids leert u:
- Wat duplicaatinhoud is;
- waarom duplicaatinhoud slecht is voor SEO;
- of Google een duplicaatinhoud boete heeft;
- veelvoorkomende oorzaken van dubbele inhoud;
- Hoe te controleren op (en repareren) dubbele inhoud
Wat is dubbele inhoud?
Duplicate content is exact of bijna-duplicate content die op meerdere plaatsen op het web verschijnt. Het kan optreden op een enkele website of cross-domain.
bijvoorbeeld, als ik dit bericht opnieuw zou publiceren op ahrefs.com/blog/duplicate-content-copy/
, dan zou dat dubbele inhoud zijn. Dat zou ook waar zijn als ik het opnieuw te publiceren op een andere website.
Google stelt dat de meeste duplicaatinhoud niet bedrieglijk is in oorsprong.
Waarom is duplicate content slecht voor SEO?
Duplicate content kan uw SEO-prestaties om een paar redenen schaden.
- ongewenste of onvriendelijke URL ‘ s in zoekresultaten;
- backlink verdunning;
- Burns crawl budget;
- geschrapte of gesyndiceerde inhoud die u overtreft.
laten we deze nader onderzoeken.
ongewenste of onvriendelijke URL ’s in zoekresultaten
stel je voor dat dezelfde pagina beschikbaar is op drie verschillende URL’ s:
- domain.com/page/
- domain.com/page/?utm_content = buffer&utm_medium = social
- domain.com/category/page/
De eerste zou in de zoekresultaten moeten verschijnen, maar Google kan dit fout doen. Als dat gebeurt, kan een ongewenste URL zijn plaats innemen.
omdat mensen minder geneigd zijn om op een onvriendelijke URL te klikken, kunt u minder organisch verkeer krijgen.
backlink verdunning
als dezelfde inhoud beschikbaar is op veel url ‘s, dan kan elk van deze URL’ s backlinks aantrekken. Dat resulteert in de splitsing van “link equity” tussen URL ‘ s.
om een voorbeeld hiervan in het wild te laten zien, bekijkt u deze twee pagina ’s op buffer.com:
deze pagina ‘ s zijn bijna exacte duplicaten. En ze hebben 106 en 144 verwijzende domeinen (links van unieke websites), respectievelijk.
voordat u in paniek raakt, weet dat dit niet altijd een probleem is vanwege de manier waarop Google met duplicate content omgaat.
in eenvoudige termen, wanneer ze dubbele inhoud detecteren, groeperen ze de URL ‘ s in één cluster. Vervolgens “selecteren wat de’ beste ‘URL is om het cluster in zoekresultaten weer te geven” en “consolideren eigenschappen van de URL’ s in het cluster, zoals link populariteit, naar de representatieve URL.”
dus, in het bovenstaande geval, zou Google slechts één van de URL ‘ s in organic search moeten tonen en alle verwijzende domeinen in het cluster (106+144) aan die URL moeten toewijzen.
maar dat is niet wat er gebeurt, want we zien beide URL ‘ s ranking in Google voor soortgelijke zoekwoorden.
in dit geval consolideert Google waarschijnlijk” link equity ” niet op één URL.
we weten niet zeker hoe Google deze twee url ‘ s ziet, omdat we geen toegang hebben tot buffers Google Search Console account. Het kan zijn dat ze zien beide van deze URL ‘ s als duplicaten, en een van hen zal verdwijnen uit organische zoekopdracht binnenkort.
Burns crawl budget
Google vindt nieuwe inhoud op uw website via crawling, wat betekent dat ze links van bestaande pagina ’s naar nieuwe pagina’ s volgen. Ze recrawl ook pagina ‘ s die ze kennen van tijd tot tijd om te zien of er iets is veranderd.
het hebben van dubbele inhoud dient alleen om meer werk voor hen te maken. Dat kan invloed hebben op de snelheid en frequentie waarmee ze uw nieuwe of bijgewerkte pagina ‘ s crawlen.
dat is slecht omdat het kan leiden tot vertragingen in het indexeren van nieuwe pagina ’s en het opnieuw uitpakken van bijgewerkte pagina’ s.
omdat de “crawl rate limit” van Google hoger is voor meer responsieve websites, is dit meer een probleem voor trage websites met kleinere bandbreedte. Hun systemen zullen ook de dubbele URL ‘ s minder vaak crawlen.
Scraped content overtreft u
af en toe kunt u toestaan dat een andere website uw content opnieuw publiceert. Dat is bekend als syndicatie. Andere keren, sites kunnen schrapen uw inhoud en opnieuw publiceren zonder toestemming.
beide scenario ‘ s leiden tot dubbele inhoud over meerdere domeinen, maar ze veroorzaken meestal geen problemen. Het is alleen wanneer de geschraapte of opnieuw gepubliceerde inhoud begint te overtreffen het origineel op uw site die problemen ontstaan.
het goede nieuws is dat dit een zeldzame gebeurtenis is, maar het kan gebeuren.
heeft Google een boete voor dubbele inhoud?
Google heeft meerdere malen verklaard dat ze geen dubbele contentboete hebben.
we hebben geen boete voor dubbele inhoud. Het is niet dat we een site zouden degraderen voor het hebben van veel dubbele inhoud.John Mueller, Webmaster Trends Analyst Googlelaten we dit voor eens en altijd achter de rug hebben, mensen: There’s no such thing as a duplicate content penalty.Susan Moskwa, Former Webmaster Trends Analyst GoogleDYK Google doesn’t have a duplicate content penalty.Gary Illyes, Webmaster Trends Analyst GoogleBut, this isn’t entirely true. Als uw duplicaat inhoud per ongeluk is en niet het resultaat van opzettelijke manipulatie van zoekresultaten of spammy praktijken, dan zul je niet gestraft worden. Als dat zo is, dan zou je het kunnen.
Google bevestigt dat hier:
in de zeldzame gevallen waarin Google merkt dat dubbele inhoud kan worden weergegeven met de bedoeling om onze rankings te manipuleren en onze gebruikers te misleiden, zullen we ook de juiste aanpassingen in de indexering en ranking van de betrokken sites. Als gevolg hiervan kan de ranking van de site eronder lijden, of kan de site volledig uit de Google-index worden verwijderd, in welk geval de site niet meer in de zoekresultaten wordt weergegeven.
de vraag is, wat telt als “intentie om onze rankings te manipuleren en onze gebruikers te misleiden”?
Google heeft hier veel informatie over. Maar in principe zijn het dingen als:
- opzettelijk meerdere pagina ‘ s, subdomeinen of domeinen maken met veel dubbele inhoud.
- publiceren van veel geschraapte inhoud
- publiceren van affiliate inhoud geschraapt van Amazon of andere sites (en het toevoegen van geen extra waarde)
echter, zoals hierboven besproken, kan duplicate content SEO nog steeds schaden—zelfs zonder een boete.
veelvoorkomende oorzaken van dubbele inhoud
Er is geen enkele oorzaak van dubbele inhoud. Er zijn er veel.
facet/gefilterde navigatie
Facetnavigatie is waar gebruikers items op de pagina kunnen filteren en sorteren. E-commerce websites gebruiken het veel.
Dit soort navigatie voegt parameters toe aan het einde van de URL.
omdat er meestal veel combinaties van deze filters zijn, resulteert faceted navigation vaak in veel duplicate-or-near-duplicate content.
kijk eens naar deze twee pagina ‘s, bijvoorbeeld:
De URL’ s zijn uniek, maar de inhoud is bijna identiek.
Plus, de volgorde van de parameters maakt vaak niet uit. Bijvoorbeeld, dezelfde pagina is toegankelijk op beide URL ‘ s:
hoe dit probleem op te lossenFaceted navigation is een complex beest. Als u vermoedt dat dit de oorzaak is van uw problemen met dubbele inhoud, lees dan gewoon dit.
Tracking parameters
geparametreerde URL ‘ s worden ook gebruikt voor tracking doeleinden. U kunt bijvoorbeeld UTM-parameters gebruiken om bezoeken van een nieuwsbrief-campagne bij te houden in Google Analytics:
voorbeeld: example.com/page?utm_source=newsletter
hoe dit probleem op te lossenKanonicalize uw geparametreerde URL ‘ s naar SEO-vriendelijke versies zonder tracking parameters.
sessie-id ‘s
sessie-id’ s slaan informatie over uw bezoekers op. Ze voegen meestal een lange string toe aan de URL als volgt:
voorbeeld: example.com?sessionId=jow8082345hnfn9234
How to solve this issueCanonicalize the URLs to SEO-friendly versions.
HTTPS vs. HTTP, and non-www vs. www
Most websites are accessible at one of these four variations:
- https://www.example.com (HTTPS, www)
- https://example.com (HTTPS, non-www)
- http://www.example.com (HTTP, www)
- http://example.com (HTTP, non-www)
If you’re using HTTPS, it’ll be one of the first two. Of het nu de www of niet-www versie is uw keuze.
echter, als u uw server niet correct configureert, zal uw site toegankelijk zijn op twee of meer van deze variaties. Dat is niet goed en kan leiden tot dubbele inhoud problemen.
hoe dit probleem op te lossengebruik omleidingen om ervoor te zorgen dat uw website slechts op één locatie toegankelijk is.
hoofdlettergevoelige URL ‘s
Google ziet URL’ s als hoofdlettergevoelig.
URL ‘ s zijn hoofdlettergevoelig, maar kies elk geval dat u wilt.— 🍌 John 🍌 (@JohnMu) June 22, 2017
Sidenote.dit lijkt niet het geval te zijn voor Bing, die alle URL ‘ s als kleine letters behandelt.
dat betekent dat deze drie URL ’s allemaal verschillend zijn:
- example.com/page
- example.com/PAGE
- example.com/pAgE
hoe dit probleem op te lossenwees consistent met interne links (dwz, niet intern linken naar meerdere versies van URL’ s). Als dat dingen niet oplost, kun je altijd canonicaliseren of omleiden.
slashes aan het eind vs. non-trailing-slashes
Google behandelt URL ‘ s met en zonder trailing slashes als uniek. Dat betekent dat deze twee url ’s uniek zijn in de ogen van Google:
- example.com/page/
- example.com/page
als uw inhoud toegankelijk is op beide URL’ s, dan kan dat leiden tot problemen met dubbele inhoud.
om te controleren of dit een probleem is, probeert u een pagina te laden met en zonder de achterliggende slash. Idealiter wordt slechts één versie geladen. De andere zal omleiden.
bijvoorbeeld, als je probeert dit bericht te laden zonder de slash aan het einde, zal het omleiden naar de URL met de slash aan het einde.
Google stelt dat dit gedrag ideaal is.
als slechts één versie kan worden geretourneerd (dat wil zeggen, de andere omleidingen ernaar), dat is geweldig! Dit gedrag is gunstig omdat het dubbele inhoud vermindert.
How to solve this issueRedirect the undesirable version (e.g., without trailing slash) to the gewenste version (e.g., with trailing slash). U moet er ook voor zorgen dat u consistent blijft met interne koppeling. Niet koppelen naar versies met trailing slashes soms, en zonder andere tijden. Kies er een en blijf erbij.
printvriendelijke URL ‘ s
printvriendelijke versies hebben dezelfde inhoud als het origineel. Het is alleen de URL die verschilt.
- example.com/page
- example.com/print/page
hoe dit probleem op te lossenCanonicalize the print-friendly version to the original.
mobiele-vriendelijke URL ‘s
mobiele-vriendelijke URL’ s, zoals print-Vriendelijke URL ‘ s, zijn duplicaten.
- example.com/page
- m.voorbeeld.com / page
How to solve this issueCanonicalize the mobile-friendly version to the original. Gebruik rel = “alternate” om Google te vertellen dat de mobiele-vriendelijke URL is een alternatieve versie van de desktop content.
aanbevolen lezing: annotaties voor desktop-en mobiele URL ‘s
amp-URL’ s
versnelde mobiele pagina ‘ s (amp) zijn duplicaten.
- example.com/page
- example.com/amp/page
hoe dit probleem op te lossenCanonicalize the AMP version to the non-AMP version. Gebruik
rel="amphtml"
om Google te vertellen dat de AMP-URL een alternatieve versie is van de niet-amp-inhoud.Als u alleen AMP-inhoud hebt, gebruik dan een canonieke tag voor zelfreferentiebepaling.
aanbevolen lezen: Maak uw pagina ‘ s vindbaar-amp.Dev
Tag-en categoriepagina’ s
De meeste CMS ‘maken speciale tagspagina’ s wanneer u tags gebruikt.
bijvoorbeeld, als je een artikel hebt over organic whey protein, en je gebruikt zowel “protein powder” als “whey” als tags, dan eindig je met twee tagpagina ‘ s zoals deze:
dat veroorzaakt niet altijd duplicaatinhoud op zichzelf, maar het kan.
dat is hier het geval omdat er maar één pagina op de site is met deze twee tags—dus elke tag pagina is identiek.
hoe dit probleem op te lossentwee opties:
- gebruik Geen tags. Meestal hebben ze toch weinig tot geen waarde.
- geen Index uw tags pagina ‘ s. Dit lost het probleem van crawl budget niet op, zoals Google nog steeds tijd zal verspillen met het crawlen van deze pagina ‘ s.
merk op dat categoriepagina ’s soortgelijke problemen kunnen veroorzaken als tags-pagina’ s. Voorbeeld:
beide pagina ‘ s zijn vrijwel identiek omdat er geen producten in beide categorieën zijn opgenomen. Dus alles wat we hebben is de standaardplaat sjabloon kopie.
los dit op door een redelijk aantal categorieën op uw site te gebruiken, of zelfs geen indexering van uw categoriepagina ‘ s.
Attachment image url’ s
veel CMS ‘maken speciale pagina’ s voor afbeeldingsbijlagen. Deze pagina ‘ s tonen meestal niets anders dan de afbeelding en een boilerplate kopie.
omdat deze kopie hetzelfde is voor alle automatisch gegenereerde pagina ‘ s, leidt dit tot dubbele inhoud.
hoe dit probleem op te lossenDeactiveer speciale pagina ‘ s voor afbeeldingen in uw CMS. In WordPress, kunt u dit doen met behulp van een plugin zoals Yoast.
gepagineerde commentaren
WordPress en andere CMS ‘ staan gepagineerde commentaren toe. Dit veroorzaakt dubbele inhoud omdat het effectief meerdere versies van dezelfde url ‘ s creëert.
- example.com/post/
- example.com/post/comment-page-2
- example.com/post/comment-page-3
hoe dit probleem op te lossenschakel commentaarpagina ‘ s of noindex uit met behulp van een plugin zoals Yoast.
lokalisatie
Als u vergelijkbare inhoud aanbiedt aan mensen in verschillende locales die dezelfde taal spreken, dan kan dat dubbele inhoud veroorzaken.
u kunt bijvoorbeeld verschillende versies van uw site hebben voor mensen in de VS, het Verenigd Koninkrijk en Australië. Omdat er waarschijnlijk slechts kleine verschillen zijn tussen de inhoud die naar elke lokale wordt geserveerd (bijvoorbeeld prijzen in dollars versus Pond sterling), zullen de versies in de buurt van duplicaten zijn.
Sidenote.volgens John Mueller is vertaalde inhoud geen dubbele inhoud.
hoe dit probleem op te lossengebruik hreflang-tags om zoekmachines te vertellen over de relatie tussen de variaties.
zoekresultaten pagina ‘ s
veel websites hebben zoekvakken. Met behulp van deze meestal neemt u een geparametreerde zoek-URL.
voorbeeld: example. com? q=zoekterm
Google ’s voormalige hoofd van Webspam, Matt Cutts, verklaarde dat:
meestal voegen zoekresultaten op het web geen waarde toe aan gebruikers, en omdat ons hoofddoel is om de best mogelijke zoekresultaten te bieden, sluiten we zoekresultaten over het algemeen uit van onze zoekindex op het web. (Niet alle URL ‘ s die dingen bevatten zoals “/results” of “/search” zijn natuurlijk zoekresultaten.)Matt Cutts, voormalig hoofd Webspam Googlehoe dit probleem op te lossenGebruik een meta-tag van robots om zoekpagina ’s uit de index van Google te verwijderen of toegang te blokkeren tot zoekresultaten pagina’ s in Robots.txt. Zich onthouden van intern linken naar pagina ‘ s met zoekresultaten.
Staging environment
een staging environment is een dubbele of bijna-dubbele versie van uw site die wordt gebruikt voor testdoeleinden.
bijvoorbeeld, stel je voor dat je een nieuwe plugin wilt installeren of een code op je website wilt wijzigen. Je zou niet willen duwen dat rechtstreeks naar een live site met honderdduizenden dagelijkse bezoekers. Het risico op catastrofes is te groot. De oplossing is om eerst de veranderingen in een staging omgeving te testen.
Staging omgevingen worden een SEO probleem wanneer Google ze indexeert omdat het resulteert in dubbele inhoud.
hoe dit probleem op te lossenBescherm uw staging-omgeving met behulp van HTTP-authenticatie, IP-whitelisting of VPN-toegang. Als het al geïndexeerd is, gebruik dan een robots noindex-richtlijn om het te verwijderen.
hoe te controleren op dubbele inhoud op uw site
Ga naar Ahrefs’ Site Audit en start een crawl.
Als u klaar bent, ga dan naar het Content quality report.
zoek naar clusters van duplicaten en bijna-duplicaten zonder canoniek. Deze zijn oranje gemarkeerd.
klik op een van deze clusters om de betreffende pagina ‘ s te zien.
onderzoek de reden voor de dubbele inhoud en voer de juiste actie uit.
merk op dat dit niet altijd problemen zijn die moeten worden gecorrigeerd, vooral in het geval van near duplicates.
geen Ahrefs-gebruiker?zoek naar deze duplicate-content-gerelateerde waarschuwingen in de Google Search Console:
- dupliceren zonder door de gebruiker geselecteerde canonieke
- dupliceren, Google koos een andere canonieke dan gebruiker
- dupliceren, aangeleverde URL niet geselecteerd als canonieke
meer informatie over hoe om te gaan met deze waarschuwingen hier.
om te zien hoe Google een specifieke URL behandelt, gebruikt u het URL-inspectieprogramma.
u kunt ook controleren op dubbele titellabels, metabeschrijvingen en H1s in het HTML-tags-rapport.
slechte duplicaten zijn wat u zoekt. Dit zijn pagina ‘ s met dubbele meta tags maar verschillende canonicals.
Selecteer deze door op “slechte duplicaten” te klikken onder HTML-tags & content.
klik op een van de gele balken om de betreffende pagina ‘ s te zien.
pagina ’s met dubbele titels, metabeschrijvingen of H1′ s lijken vaak erg op elkaar.
bijvoorbeeld, deze twee hebben dezelfde title tag, en de inhoud is bijna identiek omdat het product hetzelfde is. Het enige verschil is dat een van de pagina ‘ s is voor een 3‑pack van instant verlichting firelogs, terwijl de andere is voor slechts een.
Google stelt dat u soortgelijke inhoud als deze moet minimaliseren:
Als u veel pagina ’s hebt die vergelijkbaar zijn, overweeg dan elke pagina uit te breiden of de pagina’ s te consolideren in één.Het is echter onwaarschijnlijk dat een klein aantal soortgelijke pagina ‘ s een groot probleem zal zijn.
hoe te controleren op dubbele inhoudsproblemen op het web
inhoudschrapen en syndicatie kan ook leiden tot dubbele inhoudsproblemen. Maar het is meestal alleen een probleem als je ziet geschraapte versies van uw inhoud overtreffen u.
gebeurt dat? Ja, maar het is vaak meer een probleem voor nieuwe of zwakke websites. Waarom? Omdat de sites schrapen uw inhoud zijn vaak meer gezaghebbende. Dat soms” trucs ” Google in het denken dat hun is het origineel.
als u een kleine website hebt, kunt u vaak geschraapte inhoud vinden door op Google te zoeken naar een tekstfragment van uw pagina tussen aanhalingstekens.
voor grotere sites moet u een geautomatiseerd programma zoals Copyscape gebruiken. Dit doorzoekt het web voor andere voorvallen van de inhoud op uw pagina (‘s).
welke methode u ook gebruikt, de meeste resultaten zullen van spammy en sites van lage kwaliteit zijn.
over het algemeen zijn deze geen zorgen. Echter, als je ziet dat een legitieme website geschraapt uw inhoud, en zijn bezorgd dat het kan stelen van uw verkeer, gooi de URL in Ahrefs’ Site Explorer om een organische Traffic schatting te zien.
als het meer verkeer krijgt dan uw pagina, dan kan er een probleem zijn.
In dit geval hebt u drie opties:
- Reach out and request that they remove the content.
- neem contact op en vraag of ze een canonieke link naar het origineel op uw site toevoegen.
- dien een DMCA takedown verzoek in via Google.
Als u opzettelijk inhoud samenvoegt naar andere websites, dan is het de moeite waard om hen te vragen om een canonieke link toe te voegen aan het origineel. Dat zal het risico van dubbele inhoud problemen te elimineren.
inhoud opnieuw publiceren op uw eigen site?als u inhoud van anderen op uw site opnieuw publiceert, zijn er twee manieren om dubbele inhoudsproblemen te voorkomen:
- Canonicalize back to the original.
- geen index van de pagina.
laatste gedachten
stress niet te veel over dubbele inhoud. Het is meestal veel minder van een probleem dan wordt gedacht te zijn.
Als u een handvol dubbele of bijna-dubbele pagina ‘ s hebt, is er waarschijnlijk geen groot probleem. Hetzelfde geldt wanneer u inhoud citeert van een andere website of andere pagina ‘ s op uw site. Kleine hoeveelheden duplicaat of boilerplate inhoud moet oke zijn. Google heeft systemen in de plaats om te gaan met dergelijke dingen.
waar u op moet letten zijn technische SEO ongelukken die leiden tot het genereren van honderden of duizenden pagina ‘ s van duplicate content, zoals de onjuiste implementatie van gefacetteerde navigatie op e-commerce sites.
Deze kunnen onder andere schade aanrichten aan je crawl budget.