Duplicate Content: varför det händer och hur man fixar det
duplicerat innehåll är en källa till konstant ångest för många webbplatsägare.
Läs nästan vad som helst om det, och du kommer att komma undan och tro att din webbplats är en tickande tidsbomb av dubbla innehållsproblem. En Google straff är bara dagar bort.
Tack och lov är detta inte sant—men duplicerat innehåll kan fortfarande orsaka SEO-problem. Och med 25-30% av webben som duplicerat innehåll är det användbart att veta hur man undviker och åtgärdar sådana problem.
i den här guiden lär du dig:
- vad duplicerat innehåll är;
- Varför duplicerat innehåll är dåligt för SEO;
- Om Google har en straff för duplicerat innehåll;
- vanliga orsaker till duplicerat innehåll;
- hur man kontrollerar (och fixar) duplicerat innehåll
vad är duplicerat innehåll?
duplicerat innehåll är exakt eller nästan duplicerat innehåll som visas på webben på mer än ett ställe. Det kan förekomma på en enda webbplats eller tvärdomän.
om jag till exempel skulle publicera detta inlägg på ahrefs.com/blog/duplicate-content-copy/
, skulle det vara duplicerat innehåll. Det skulle också vara sant om jag skulle publicera det på en annan webbplats.
Google säger att de flesta duplicerade innehåll inte är vilseledande.
Varför är duplicerat innehåll dåligt för SEO?
duplicerat innehåll kan skada din SEO-prestanda av några skäl.
- oönskade eller ovänliga webbadresser i sökresultaten;
- backlink utspädning;
- Burns crawl budget;
- skrapat eller syndikerat innehåll överträffar dig.
Låt oss utforska dessa mer ingående.
oönskade eller ovänliga webbadresser i sökresultaten
Föreställ dig att samma sida finns på tre olika webbadresser:
- domain.com/page/
- domain.com/page/?utm_content=buffert&utm_medium = social
- domain.com/category/page /
den första ska dyka upp i sökresultaten, men Google kan få fel. Om det händer kan en oönskad URL ta sin plats.
eftersom människor kan vara mindre benägna att klicka på en ovänlig URL, kan du få mindre organisk trafik.
utspädning av bakåtlänkar
om samma innehåll är tillgängligt på många webbadresser kan var och en av dessa webbadresser locka bakåtlänkar. Det resulterar i uppdelningen av ”link equity” mellan webbadresser.
för att visa ett exempel på detta i naturen, ta en titt på dessa två sidor på buffer.com:
dessa sidor är nästan exakta dubbletter. Och de har 106 respektive 144 hänvisande domäner (länkar från unika webbplatser).
innan du får panik, vet att detta inte alltid är ett problem på grund av hur Google hanterar duplicerat innehåll.
enkelt uttryckt, när de upptäcker duplicerat innehåll, grupperar de webbadresserna i ett kluster. De ”väljer sedan vad som är den ”bästa” webbadressen för att representera klustret i sökresultaten” och ”konsoliderar egenskaperna för webbadresserna i klustret, till exempel länkpopularitet, till den representativa webbadressen.”
så i fallet ovan bör Google bara visa en av webbadresserna i organisk sökning och tillskriva alla hänvisande domäner i klustret (106+144) till den webbadressen.
men det är inte vad som händer, eftersom vi ser båda webbadresserna rankas i Google för liknande sökord.
i det här fallet konsoliderar Google sannolikt inte” länkkapital ” vid en URL.
Vi kan inte vara säkra på hur Google ser dessa två webbadresser, eftersom vi inte har tillgång till Bufferts Google Search Console-konto. Det kan hända att de ser båda dessa webbadresser som dubbletter, och en av dem kommer snart att försvinna från organisk sökning.
Burns crawl budget
Google hittar nytt innehåll på din webbplats via genomsökning, vilket innebär att de följer länkar från befintliga sidor till nya sidor. De recrawl också sidor de vet om från tid till annan för att se om något har förändrats.
att ha duplicerat innehåll tjänar bara till att skapa mer arbete för dem. Det kan påverka hastigheten och frekvensen med vilken de genomsöker dina nya eller uppdaterade sidor.
det är dåligt eftersom det kan leda till förseningar i indexering av nya sidor och återindexering av uppdaterade sidor.
eftersom Googles ”crawl rate limit” är högre för mer responsiva webbplatser är detta mer ett problem för långsamma webbplatser med mindre bandbreddstillägg. Deras system kommer också att genomsöka de dubbla webbadresserna mindre ofta.
skrapat innehåll som överträffar dig
Ibland kan du tillåta en annan webbplats att publicera ditt innehåll. Det kallas syndikering. Andra gånger kan webbplatser skrapa ditt innehåll och publicera det utan tillstånd.
båda dessa scenarier leder till duplicerat innehåll över flera domäner, men de orsakar vanligtvis inte problem. Det är först när det skrapade eller publicerade innehållet börjar överträffa originalet på din webbplats som problem uppstår.
den goda nyheten är att detta är en sällsynt händelse, men det kan hända.
har Google ett straff för duplicerat innehåll?
Google har vid flera tillfällen uppgett att de inte har ett straff för duplicerat innehåll.
vi har ingen straff för dubblettinnehåll. Det är inte så att vi skulle degradera en webbplats för att ha mycket duplicerat innehåll.John Mueller, Webmaster Trends Analyst Google
Låt oss lägga detta i säng en gång för alla, folk: There’s no such thing as a duplicate content penalty.Susan Moskwa, Former Webmaster Trends Analyst Google
DYK Google doesn’t have a duplicate content penalty.Gary Illyes, Webmaster Trends Analyst Google
But, this isn’t entirely true. Om ditt dubbla innehåll är oavsiktligt och inte resultatet av avsiktlig manipulation av sökresultat eller skräppostmetoder, kommer du inte att straffas. Om det är, då kanske du.
Google bekräftar att här:
i de sällsynta fall där Google uppfattar att duplicerat innehåll kan visas med avsikt att manipulera våra rankningar och lura våra användare, kommer vi också att göra lämpliga justeringar i indexeringen och rankningen av de berörda webbplatserna. Som ett resultat kan rankningen av webbplatsen drabbas, eller webbplatsen kan tas bort helt från Google-indexet, i vilket fall det inte längre visas i sökresultaten.
frågan är vad som räknas som ”avsikt att manipulera våra rankningar och lura våra användare”?
Google har mycket information om det här. Men i grund och botten är det saker som:
- avsiktligt skapa flera sidor, underdomäner eller domäner med massor av duplicerat innehåll.
- publicera massor av skrapat innehåll
- publicera affiliate-innehåll skrapat från Amazon eller andra webbplatser (och lägger till inget extra värde)
men som diskuterats ovan kan duplicerat innehåll fortfarande skada SEO—även utan straff.
vanliga orsaker till duplicerat innehåll
det finns ingen enskild orsak till duplicerat innehåll. Det finns många.
fasetterad / filtrerad navigering
fasetterad navigering är där användare kan filtrera och sortera objekt på sidan. E-handelswebbplatser använder det mycket.
den här typen av navigering lägger till parametrar i slutet av webbadressen.
eftersom det vanligtvis finns många kombinationer av dessa filter resulterar fasetterad navigering ofta i massor av duplicerat eller nästan duplicerat innehåll.
ta en titt på dessa två sidor, till exempel:
webbadresserna är unika, men innehållet är nästan identiskt.
plus, ordningen på parametrarna spelar ofta ingen roll. Till exempel är samma sida tillgänglig på båda dessa webbadresser:
facetterad navigering är ett komplext djur. Om du misstänker detta som orsaken till dina problem med duplicerat innehåll, Läs bara detta.
spårningsparametrar
parametriserade webbadresser används också för spårningsändamål. Du kan till exempel använda utm-parametrar för att spåra besök från en nyhetsbrevskampanj i Google Analytics:
exempel: example.com/page?utm_source=newsletter
kanonisera dina parametriserade webbadresser till SEO-vänliga versioner utan spårningsparametrar.
sessions-ID
sessions-ID lagrar information om dina besökare. De lägger vanligtvis till en lång sträng till webbadressen så här:
exempel: example.com?sessionId=jow8082345hnfn9234
Canonicalize the URLs to SEO-friendly versions.
HTTPS vs. HTTP, and non-www vs. www
Most websites are accessible at one of these four variations:
- https://www.example.com (HTTPS, www)
- https://example.com (HTTPS, non-www)
- http://www.example.com (HTTP, www)
- http://example.com (HTTP, non-www)
If you’re using HTTPS, it’ll be one of the first two. Oavsett om det är www eller icke-www-versionen är ditt val.
men om du inte konfigurerar din server korrekt kommer din webbplats att vara tillgänglig med två eller flera av dessa variationer. Det är inte bra och kan leda till problem med duplicerat innehåll.
använd omdirigeringar för att säkerställa att din webbplats endast är tillgänglig på en plats.
skiftlägeskänsliga webbadresser
Google ser webbadresser som skiftlägeskänsliga.
webbadresser är skiftlägeskänsliga, men välj vilket fall du vill.- 22 juni 2017
detta verkar inte vara fallet för Bing, som behandlar alla webbadresser som små bokstäver.
det betyder att dessa tre webbadresser är alla olika:
- example.com/page
- example.com/PAGE
- example.com/pAgE
överensstämma med interna länkar (dvs. länka inte internt till flera versioner av webbadresser). Om det inte löser saker kan du alltid kanonisera eller omdirigera.
avslutande snedstreck vs. icke-efterföljande snedstreck
Google behandlar webbadresser med och utan efterföljande snedstreck som unika. Det betyder att dessa två webbadresser är unika i Googles ögon:
- example.com/page/
- example.com/page
Om ditt innehåll är tillgängligt på båda webbadresserna kan det leda till problem med duplicerat innehåll.
för att kontrollera om det här är ett problem, försök att ladda en sida med och utan efterföljande snedstreck. Helst laddas bara en version. Den andra kommer att omdirigera.
om du till exempel försöker ladda det här inlägget utan det efterföljande snedstrecket omdirigeras det till webbadressen med det efterföljande snedstrecket.
Google säger att detta beteende är idealiskt.
Om bara en version kan returneras (dvs den andra omdirigerar till den), det är bra! Detta beteende är fördelaktigt eftersom det minskar duplicerat innehåll.
omdirigera den oönskade versionen (t.ex. utan efterföljande snedstreck) till önskad version (t. ex. med efterföljande snedstreck). Du bör också se till att hålla dig konsekvent med intern länkning. Länka inte till versioner med efterföljande snedstreck ibland och utan andra tider. Välj en och håll fast vid den.
utskriftsvänliga webbadresser
utskriftsvänliga versioner har samma innehåll som originalet. Det är bara webbadressen som skiljer sig åt.
- example.com/page
- example.com/print/page
kanonisera den utskriftsvänliga versionen till originalet.
mobilvänliga webbadresser
mobilvänliga webbadresser, som utskriftsvänliga webbadresser, är dubbletter.
- example.com/page
- m.exempel.com / page
kanonisera den mobilvänliga versionen till originalet. Använd rel= ”alternate” för att berätta för Google att den mobilvänliga webbadressen är en alternativ version av skrivbordsinnehållet.
Rekommenderad läsning: anteckningar för stationära och mobila webbadresser
AMP-webbadresser
Accelerated Mobile Pages (AMP) är dubbletter.
- example.com/page
- example.com/amp/page
kanonisera AMP-versionen till icke-AMP-versionen. Använd rel="amphtml"
för att berätta för Google att AMP-webbadressen är en alternativ version av innehållet som inte är AMP.
Om du bara har AMP-innehåll, använd en självrefererande kanonisk tagg.
Rekommenderad läsning: gör dina sidor upptäckbara-amp.dev
tagg-och kategorisidor
de flesta CMS skapar dedikerade taggsidor när du använder taggar.
om du till exempel har en artikel om organiskt vassleprotein, och du använder både” proteinpulver ”och” vassle ” som taggar, kommer du att sluta med två taggsidor som dessa:
det orsakar inte alltid duplicerat innehåll i sig, men det kan.
det är fallet här eftersom det bara finns en sida på webbplatsen med de två taggarna—så varje taggsida är identisk.
två alternativ:
- använd inte taggar. För det mesta har de lite eller inget värde ändå.
- Noindex dina taggar sidor. Detta löser inte problemet med genomsökningsbudget, eftersom Google fortfarande slösar bort tid på att genomsöka dessa sidor.
Observera att kategorisidor kan orsaka liknande problem som taggsidor. Typexempel:
båda dessa sidor är nästan identiska eftersom det inte finns några produkter listade under någon av kategorierna. Så allt vi är kvar med är standardtext Mall kopia.
Lös detta genom att använda ett rimligt antal kategorier på din webbplats, eller till och med noindexing dina kategorisidor.
bifogade bildadresser
många CMS skapar dedikerade sidor för bildbilagor. Dessa sidor visar oftast ingenting annat än bilden och vissa standardtext kopia.
eftersom den här kopian är densamma på alla automatiskt genererade sidor leder det till duplicerat innehåll.
inaktivera dedikerade sidor för bilder i ditt CMS. I WordPress kan du göra detta med ett plugin som Yoast.
paginerade kommentarer
WordPress och andra CMS’ tillåter paginerade kommentarer. Detta orsakar duplicerat innehåll eftersom det effektivt skapar flera versioner av samma webbadresser.
- example.com/post/
- example.com/post/comment-page-2
- example.com/post/comment-page-3
Stäng av kommentar pagination eller noindex dina paginerade sidor med ett plugin som Yoast.
Lokalisering
Om du serverar liknande innehåll som personer på olika platser som talar samma språk kan det orsaka duplicerat innehåll.
Du kan till exempel ha olika versioner av din webbplats för personer i USA, Storbritannien och Australien. Eftersom det sannolikt bara finns mindre skillnader mellan innehållet som serveras till varje lokal (t.ex. priser i Dollar kontra pund sterling) kommer versionerna att vara nära dubbletter.
enligt John Mueller är översatt innehåll inte duplicerat innehåll.
använd hreflang-taggar för att berätta för sökmotorer om förhållandet mellan variationerna.
sökresultatsidor
många webbplatser har sökrutor. Med hjälp av dessa tar du dig vanligtvis till en parametriserad sök-URL.
exempel: example. com?q=search-term
Googles tidigare chef för Webspam, Matt Cutts, uppgav att:
vanligtvis ger webbsökresultat inte mervärde för användarna, och eftersom vårt kärnmål är att ge bästa möjliga sökresultat utesluter vi i allmänhet sökresultat från vårt webbsökningsindex. (Inte alla webbadresser som innehåller saker som ”/resultat” eller ”/sök” är naturligtvis sökresultat.)Matt Cutts, tidigare chef för Webspam Google
använd en robots-metatagg för att ta bort söksidor från Google indexera eller blockera åtkomst till sökresultatsidor i robotar.txt. Avstå från att internt länka till sökresultatsidor.
Staging environment
en staging environment är en dubblett eller nästan dubblett version av din webbplats som används för teständamål.
Tänk dig till exempel att du vill installera ett nytt plugin eller ändra någon kod på din webbplats. Du kanske inte vill driva det direkt till en levande webbplats med hundratusentals dagliga besökare. Risken för katastrof är för hög. Lösningen är att testa förändringarna i en iscensättningsmiljö först.
Staging-miljöer blir ett SEO-problem när Google indexerar dem eftersom det resulterar i duplicerat innehåll.
skydda din staging-miljö med HTTP-autentisering, IP-vitlistning eller VPN-åtkomst. Om det redan är indexerat, använd ett robots noindex-direktiv för att ta bort det.
hur man söker efter duplicerat innehåll på din webbplats
gå över till Ahrefs Webbplatsgranskning och starta en genomsökning.
När du är klar, gå till innehållskvalitetsrapporten.
leta efter kluster av dubbletter och nästan dubbletter utan en kanonisk. Dessa är markerade i orange.
klicka på någon av dessa kluster för att se de berörda sidorna.
undersök orsaken till det dubbla innehållet och vidta sedan lämpliga åtgärder.
Observera att dessa inte alltid kommer att vara problem som behöver åtgärdas, särskilt när det gäller nära dubbletter.
leta efter dessa dubbla innehållsrelaterade varningar i Google Search Console:
- duplicera utan användarvald kanonisk
- duplicera, Google valde annan kanonisk än användaren
- duplicera, inlämnad URL inte vald som kanonisk
Läs mer om hur du hanterar dessa varningar här.
Om du vill se hur Google behandlar en viss webbadress använder du verktyget URL-inspektion.
Du kan också söka efter dubbla titeltaggar, metabeskrivningar och H1s i HTML-tagsrapporten.
dåliga dubbletter är vad du letar efter. Det här är sidor med dubbla metataggar men olika kanoniska.
Välj dessa genom att klicka på ”dåliga dubbletter” växla under HTML-taggar & innehåll.
klicka på någon av de gula staplarna för att se de berörda sidorna.
sidor med dubbla titlar, metabeskrivningar eller H1 är ofta mycket lika.
till exempel har dessa två samma titeltagg och innehållet är nästan identiskt eftersom produkten är densamma. Den enda skillnaden är att en av sidorna är för en 3‑pack omedelbar belysning firelogs, medan den andra är för bara en.
Google säger att du bör minimera liknande innehåll så här:
om du har många sidor som liknar, överväga att expandera varje sida eller konsolidera sidorna till en.
ett litet antal liknande sidor är dock osannolikt att vara mycket av ett problem.
hur man söker efter problem med duplicerat innehåll på webben
skrapning och syndikering av innehåll kan också leda till problem med duplicerat innehåll. Men det är bara vanligtvis ett problem om du ser skrapade versioner av ditt innehåll som överträffar dig.
händer det? Ja, men det är ofta mer ett problem för nya eller svaga webbplatser. Varför? Eftersom webbplatserna som skrapar ditt innehåll ofta är mer auktoritativa. Det” lurar ” ibland Google att tro att deras är originalet.
Om du har en liten webbplats kan du ofta hitta skrapat innehåll genom att söka på Google efter ett textutdrag från din sida i citat.
för större webbplatser måste du använda ett automatiserat verktyg som Copyscape. Detta söker på webben efter andra förekomster av innehållet på din sida(er).
oavsett vilken metod du använder kommer de flesta resultaten att vara från skräppost och lågkvalitativa webbplatser.
generellt sett är det inget att oroa sig för. Men om du ser att en legitim webbplats skrapade ditt innehåll och är orolig för att det kan stjäla din trafik, kasta webbadressen i Ahrefs Webbplatsutforskare för att se en organisk trafikuppskattning.
om det blir mer trafik än din sida kan det vara ett problem.
i det här fallet har du tre alternativ:
- nå ut och begär att de tar bort innehållet.
- nå ut och begär att de lägger till en kanonisk länk till originalet på din webbplats.
- skicka en begäran om DMCA-borttagning via Google.
om du avsiktligt syndikerar innehåll till andra webbplatser är det värt att be dem att lägga till en kanonisk länk till originalet. Det kommer att eliminera risken för problem med duplicerat innehåll.
Om du publicerar innehåll från andra på din webbplats finns det två sätt att förhindra problem med duplicerat innehåll:
- Canonicalize tillbaka till originalet.
- Noindex sidan.
slutliga tankar
stressa inte över duplicerat innehåll för mycket. Det är vanligtvis mycket mindre av ett problem än det tros vara.
Om du har en handfull dubbla eller nästan dubbla sidor är det osannolikt att det är mycket av ett problem. Detsamma gäller när du citerar innehåll från en annan webbplats eller andra sidor på din webbplats. Små mängder dubbletter eller standardtext innehåll bör vara okej. Google har system för att hantera sådana saker.
vad du behöver vara på jakt efter är tekniska SEO-missöden som leder till generering av hundratals eller tusentals sidor med duplikatinnehåll, till exempel felaktigt genomförande av fasetterad navigering på e-handelssajter.
dessa kan orsaka förödelse på din crawl budget, bland annat.