Conținut duplicat: De ce se întâmplă și cum se remediază

șef de conținut @ Ahrefs (sau, în engleză simplă, eu sunt tipul responsabil pentru asigurarea faptului că fiecare postare pe blog pe care o publicăm este epică).

căutați să aflați ce este conținutul duplicat și cum ar putea să vă rănească SEO-ul?

conținutul duplicat este o sursă de anxietate constantă pentru mulți proprietari de site-uri.

citiți aproape orice despre el și veți veni să credeți că site-ul dvs. este o bombă cu ceas cu probleme de conținut duplicat. O penalizare Google este la doar câteva zile distanță.

Din fericire, acest lucru nu este adevărat—dar conținutul duplicat poate provoca în continuare probleme SEO. Și cu 25-30% din conținutul web fiind duplicat, este util să știți cum să evitați și să remediați astfel de probleme.

în acest ghid, veți afla:

  • ce conținut duplicat este;
  • de ce conținutul duplicat este rău pentru SEO;
  • dacă Google are o penalizare de conținut duplicat;
  • cauze comune ale conținutului duplicat;
  • cum să verificați (și să remediați) conținutul duplicat

ce este conținutul duplicat?

conținutul duplicat este conținutul exact sau aproape duplicat care apare pe web în mai multe locuri. Poate apărea pe un singur site web sau pe mai multe domenii.

de exemplu, dacă ar fi să republicați această postare la ahrefs.com/blog/duplicate-content-copy/, atunci acesta ar fi conținut duplicat. Acest lucru ar fi, de asemenea, adevărat dacă ar fi să-l republicați pe un alt site web.

Google afirmă că majoritatea conținutului duplicat nu este înșelător în origine.

De ce este rău conținutul duplicat pentru SEO?

conținutul duplicat vă poate afecta performanța SEO din câteva motive.

  1. URL-uri nedorite sau neprietenoase în rezultatele de căutare;
  2. diluare Backlink;
  3. Burns crawl buget;
  4. fragmentat sau conținut sindicalizat outranking tine.

să le explorăm mai în profunzime.

URL-uri nedorite sau neprietenoase în rezultatele căutării

Imaginați-vă că aceeași pagină este disponibilă la trei URL-uri diferite:

  1. domain.com/page/
  2. domain.com/page/?utm_content = tampon& utm_medium=social
  3. domain.com/category/page/

primul ar trebui să apară în rezultatele căutării, dar Google poate greși acest lucru. Dacă se întâmplă acest lucru, o adresă URL nedorită îi poate lua locul.deoarece oamenii pot fi mai puțin înclinați să facă clic pe un URL neprietenos, este posibil să obțineți mai puțin trafic organic.

diluare Backlink

Dacă același conținut este disponibil la mai multe URL-uri, atunci fiecare dintre aceste URL-uri pot atrage backlink-uri. Acest lucru duce la divizarea „link equity” între URL-uri.

pentru a arăta un exemplu în acest sens în sălbăticie, aruncați o privire la aceste două pagini pe buffer.com:

aceste pagini sunt duplicate aproape exacte. Și au 106 și 144 de domenii de referință (link-uri de pe site-uri web unice), respectiv.

înainte de a intra în panică, știți că aceasta nu este întotdeauna o problemă din cauza modului în care Google gestionează conținutul duplicat.

în termeni simpli, atunci când detectează conținut duplicat, grupează adresele URL într-un singur cluster. Apoi „selectează ce cred că este URL-ul” cel mai bun „pentru a reprezenta clusterul în rezultatele căutării” și ” consolidează proprietățile URL-urilor din cluster, cum ar fi popularitatea link-ului, către URL-ul reprezentativ.”

Deci, în cazul de mai sus, Google ar trebui să afișeze doar una dintre adresele URL din căutarea organică și să atribuie toate domeniile de referință din cluster (106+144) acelei adrese URL.

dar nu asta se întâmplă, deoarece vedem ambele adrese URL clasate în Google pentru cuvinte cheie similare.

În acest caz, Google probabil nu este consolidarea „link equity” la un URL.

DISCLAIMER

Nu putem fi siguri cum vede Google aceste două adrese URL, deoarece nu avem acces la contul Buffer Google Search Console. Este posibil ca aceștia să vadă ambele adrese URL ca duplicate, iar una dintre ele va dispărea în curând din căutarea organică.

Burns crawl budget

Google găsește conținut nou pe site-ul dvs. prin accesarea cu crawlere, ceea ce înseamnă că urmează linkuri de la paginile existente la pagini noi. De asemenea, ei recrawl pagini ei știu despre din timp în timp pentru a vedea dacă ceva sa schimbat.

având conținut duplicat servește doar pentru a crea mai mult de lucru pentru ei. Acest lucru poate afecta viteza și frecvența cu care accesează cu crawlere paginile noi sau actualizate.

este rău, deoarece poate duce la întârzieri în indexarea paginilor noi și reindexarea paginilor actualizate.

notă laterală.

deoarece „limita ratei de accesare cu crawlere” a Google este mai mare pentru site-urile web mai receptive, aceasta este mai mult o problemă pentru site-urile web lente cu cote de lățime de bandă mai mici. Sistemele lor vor accesa cu crawlere adresele URL duplicate mai rar.

conținut fragmentat care vă depășește

ocazional, puteți permite unui alt site web să vă republice conținutul. Asta se numește sindicalizare. Alteori, site-urile vă pot răzui conținutul și îl pot Republica fără permisiune.

ambele scenarii duc la duplicarea conținutului pe mai multe domenii, dar de obicei nu cauzează probleme. Numai atunci când conținutul răzuit sau republicat începe să depășească originalul de pe site-ul dvs. apar probleme.vestea bună este că aceasta este o întâmplare rară, dar se poate întâmpla.

are Google o penalizare de conținut duplicat?

Google a declarat în mai multe rânduri că nu au o penalizare de conținut duplicat.

nu avem o penalizare de conținut duplicat. Nu este că am retrograda un site pentru că are mult conținut duplicat.
John Mueller, Webmaster tendințe analist Google

să punem acest lucru la culcare o dată pentru totdeauna, oameni buni: There’s no such thing as a duplicate content penalty.
Susan Moskwa, Former Webmaster Trends Analyst Google

DYK Google doesn’t have a duplicate content penalty.
Gary Illyes, Webmaster Trends Analyst Google

But, this isn’t entirely true. Dacă conținutul duplicat este accidental și nu este rezultatul manipulării intenționate a rezultatelor căutării sau a practicilor spam, atunci nu veți fi penalizat. Dacă este, atunci s-ar putea.

Google confirmă că aici:

în cazurile rare în care Google percepe că conținutul duplicat poate fi afișat cu intenția de a manipula clasamentele noastre și de a înșela utilizatorii noștri, vom face, de asemenea, ajustări adecvate în indexarea și clasarea site-urilor implicate. Ca urmare, clasamentul site-ului poate suferi sau site-ul ar putea fi eliminat în întregime din indexul Google, caz în care acesta nu va mai apărea în rezultatele căutării.

întrebarea este, ce contează ca”intenția de a manipula clasamentele noastre și de a înșela utilizatorii noștri”?

Google are o mulțime de informații despre asta aici. Dar, practic, sunt lucruri de genul:

  • crearea intenționată a mai multor pagini, subdomenii sau domenii cu mult conținut duplicat.
  • publicarea o mulțime de conținut fragmentat
  • publicarea de conținut afiliat fragmentat de la Amazon sau alte site—uri (și adăugarea de nici o valoare suplimentară)

cu toate acestea, așa cum sa discutat mai sus, conținut duplicat poate răni în continuare SEO-chiar și fără o penalizare.

cauze comune ale conținutului duplicat

nu există o singură cauză a conținutului duplicat. Sunt mulți.

navigare fațetată/filtrată

navigarea fațetată este locul în care utilizatorii pot filtra și sorta elementele din pagină. Site-urile de comerț electronic îl folosesc foarte mult.

acest tip de navigare adaugă parametri la sfârșitul URL-ului.

deoarece există de obicei multe combinații ale acestor filtre, navigarea fațetată duce adesea la o mulțime de conținut duplicat sau aproape duplicat.

uitați-vă la aceste două pagini, de exemplu:

adresele URL sunt unice, dar conținutul este aproape identic.

în plus, ordinea parametrilor de multe ori nu contează. De exemplu, aceeași pagină este accesibilă la ambele adrese URL:

cum se rezolvă această problemă

navigarea fațetată este o bestie complexă. Dacă bănuiți că acest lucru este cauza problemelor dvs. de conținut duplicat, citiți acest lucru.

parametrii de urmărire

url-urile parametrizate sunt, de asemenea, utilizate în scopuri de urmărire. De exemplu, puteți utiliza parametrii UTM pentru a urmări vizitele dintr-o campanie de newsletter în Google Analytics:

exemplu: example.com/page?utm_source=newsletter

cum de a rezolva această problemă

Canonicalizați adresele URL parametrizate la versiuni SEO-friendly fără parametri de urmărire.

ID-urile de sesiune

ID-urile de sesiune stochează informații despre vizitatorii dvs. De obicei, adaugă un șir lung la adresa URL astfel:

exemplu: example.com?sessionId=jow8082345hnfn9234

How to solve this issue

Canonicalize the URLs to SEO-friendly versions.

HTTPS vs. HTTP, and non-www vs. www

Most websites are accessible at one of these four variations:

  • https://www.example.com (HTTPS, www)
  • https://example.com (HTTPS, non-www)
  • http://www.example.com (HTTP, www)
  • http://example.com (HTTP, non-www)

If you’re using HTTPS, it’ll be one of the first two. Fie că este vorba de versiunea www sau non-www este alegerea ta.

cu toate acestea, dacă nu vă configurați corect serverul, site-ul dvs. va fi accesibil la două sau mai multe dintre aceste variații. Acest lucru nu este bun și poate duce la probleme de conținut duplicat.

cum se rezolvă această problemă

utilizați redirecționări pentru a vă asigura că site-ul dvs. web este accesibil doar într-o singură locație.

URL-uri sensibile la majuscule

Google Vede URL-urile sensibile la majuscule.

adresele URL sunt sensibile la majuscule, dar alegeți orice caz doriți.- Ioqc. ioqc. ioqc. (@Ioqc. M) 22 iunie 2017

notă laterală.

acest lucru nu pare să fie cazul pentru Bing, care tratează toate adresele URL cu litere mici.

asta înseamnă că aceste trei URL-uri sunt toate diferite:

  • example.com/page
  • example.com/PAGE
  • example.com/pAgE
cum se rezolvă această problemă

fiți în concordanță cu legăturile interne (adică nu conectați intern la mai multe versiuni de adrese URL). Dacă asta nu rezolvă lucrurile, puteți oricând canonicaliza sau redirecționa.

Trailing slashes vs. non-trailing-slash-uri

Google tratează URL-uri cu și fără trailing slash-uri ca unic. Asta înseamnă că aceste două URL-uri sunt unice în ochii Google:

  • example.com/page/
  • example.com/page

dacă conținutul dvs. este accesibil la ambele adrese URL, atunci acest lucru poate duce la probleme de conținut duplicat.

pentru a verifica dacă aceasta este o problemă, încercați să încărcați o pagină cu și fără slash-ul final. În mod ideal, se va încărca o singură versiune. Celălalt va redirecționa.

de exemplu, dacă încercați să încărcați acest post fără slash trailing, acesta va redirecționa către URL-ul cu slash trailing.

Google afirmă că acest comportament este ideal.

dacă o singură versiune poate fi returnată (adică cealaltă redirecționează către ea), este minunat! Acest comportament este benefic deoarece reduce conținutul duplicat.

cum se rezolvă această problemă

redirecționați versiunea nedorită (de exemplu, fără slash trailing) la versiunea dorită (de exemplu, cu slash trailing). De asemenea, trebuie să vă asigurați că rămâneți în concordanță cu legătura internă. Nu vă conectați la versiunile cu bare oblice uneori și fără alte momente. Alege una și rămâi cu ea.

URL-uri compatibile cu imprimarea

versiunile compatibile cu imprimarea au același conținut ca și originalul. Este doar URL-ul care diferă.

  • example.com/page
  • example.com/print/page
Cum de a rezolva această problemă

Canonicalizarea versiunea print-Friendly la original.

URL-uri mobile-friendly

url-uri mobile-friendly, cum ar fi URL-uri de imprimare-friendly, sunt duplicate.

  • example.com/page
  • m. exemplu.com / page
Cum de a rezolva această problemă

Canonicalizați versiunea mobilă la original. Utilizați rel=” alternate ” pentru a spune Google că adresa URL prietenoasă pentru mobil este o versiune alternativă a conținutului desktop.

lectură recomandată: adnotările pentru adresele URL desktop și mobile

URL-urile AMP

paginile mobile accelerate (AMP) sunt duplicate.

  • example.com/page
  • example.com/amp/page
cum se rezolvă această problemă

Canonicalizați versiunea AMP la versiunea non-AMP. Utilizați rel="amphtml" pentru a spune Google că URL-ul AMP este o versiune alternativă a conținutului non-AMP.

dacă aveți doar conținut AMP, utilizați o etichetă canonică cu auto-referire.

lectură recomandată: Faceți paginile dvs. descoperibile — amp.dev

tag-ul și categoria pagini

cele mai multe CMS’ crea pagini tag-uri dedicate atunci când utilizați tag-uri.

de exemplu, dacă aveți un articol despre proteine din zer organic, și utilizați atât” praf de proteine „și” zer ” ca tag-uri, atunci veți termina cu două pagini tag-ul ca acestea:

care nu provoacă întotdeauna conținut duplicat în sine, dar poate.

acesta este cazul aici, deoarece există o singură pagină pe site cu aceste două etichete—deci fiecare pagină de etichete este identică.

cum se rezolvă această problemă

Două opțiuni:

  1. nu folosiți etichete. De cele mai multe ori, oricum nu au nicio valoare.
  2. Noindex paginile tag-uri. Acest lucru nu rezolvă problema bugetului de accesare cu crawlere, deoarece Google va pierde în continuare timpul accesând cu crawlere aceste pagini.

rețineți că paginile de categorii pot cauza probleme similare paginilor de etichete. Exemplu în acest sens:

ambele pagini sunt aproape identice, deoarece nu există produse listate în niciuna dintre categorii. Deci, tot ce ne-a rămas este copia șablonului de șabloane.

rezolva acest lucru prin utilizarea unui număr rezonabil de categorii de pe site-ul dvs., sau chiar noindexing paginile Categorie.

URL-uri imagine atașament

multe CMS’ crea pagini dedicate pentru atașamente imagine. Aceste pagini arată, de obicei, nimic, dar imaginea și unele copie boilerplate.

deoarece această copie este aceeași în toate paginile generate automat, aceasta duce la conținut duplicat.

cum se rezolvă această problemă

dezactivați paginile dedicate pentru imaginile din CMS. În WordPress, puteți face acest lucru folosind un plugin precum Yoast.

Comentarii paginate

WordPress și alte CMS’ permit comentarii paginate. Acest lucru provoacă conținut duplicat, deoarece creează în mod eficient mai multe versiuni ale acelorași adrese URL.

  • example.com/post/
  • example.com/post/comment-page-2
  • example.com/post/comment-page-3
Cum de a rezolva această problemă

opriți comentariu paginare sau noindex paginile paginate folosind un plugin ca Yoast.

localizare

dacă difuzați conținut similar persoanelor din locații diferite care vorbesc aceeași limbă, atunci acest lucru poate provoca conținut duplicat.

de exemplu, este posibil să aveți versiuni diferite ale site-ului dvs. pentru persoane din SUA, Marea Britanie și Australia. Deoarece există probabil doar diferențe minore între conținutul servit fiecărei locații (de exemplu, prețurile în dolari față de lire sterline), versiunile vor fi aproape duplicate.

notă laterală.potrivit lui John Mueller, conținutul tradus nu este conținut duplicat.
cum se rezolvă această problemă

utilizați etichetele hreflang pentru a spune motoarelor de căutare despre relația dintre variații.

paginile cu rezultatele căutării

multe site-uri web au casete de căutare. Utilizarea acestora vă duce de obicei la o adresă URL de căutare parametrizată.

Example: example.com?q=termen de căutare

fostul șef al Webspam-ului Google, Matt Cutts, a declarat că:

de obicei, rezultatele căutării web nu adaugă valoare utilizatorilor și, deoarece obiectivul nostru principal este de a oferi cele mai bune rezultate de căutare posibile, excludem în general rezultatele căutării din indexul nostru de căutare web. (Nu toate adresele URL care conțin lucruri precum” /rezultate „sau” / căutare ” sunt, desigur, rezultate ale căutării.)
Matt Cutts, fostul șef al Webspam Google

Cum de a rezolva această problemă

utilizați un robot meta tag pentru a elimina paginile de căutare de la Google index sau bloca accesul la paginile cu rezultatele căutării în roboți.txt. Abțineți-vă de la conectarea internă la paginile cu rezultatele căutării.

mediu de intermediere

un mediu de intermediere este o versiune duplicată sau aproape duplicată a site-ului dvs. utilizată în scopuri de testare.

de exemplu, imaginați-vă că doriți să instalați un plugin nou sau să modificați un cod pe site-ul dvs. web. S-ar putea să nu doriți să împingeți acest lucru direct pe un site live cu sute de mii de vizitatori zilnici. Riscul de catastrofă este prea mare. Soluția este de a testa mai întâi modificările într-un mediu de așteptare.

mediile de intermediere devin o problemă SEO atunci când Google le indexează, deoarece are ca rezultat conținut duplicat.

cum se rezolvă această problemă

Protejați-vă mediul de așteptare utilizând autentificarea HTTP, Lista albă IP sau accesul VPN. Dacă este deja indexat, utilizați o directivă robots noindex pentru ao elimina.

cum să verificați conținutul duplicat pe site-ul dvs.

mergeți la auditul site-ului Ahrefs și începeți un crawl.

după ce ați terminat, mergeți la raportul de calitate a conținutului.

căutați grupuri de duplicate și aproape duplicate fără un canonic. Acestea sunt evidențiate în portocaliu.

Faceți clic pe oricare dintre aceste clustere pentru a vedea paginile afectate.

investigați motivul conținutului duplicat, apoi luați măsurile corespunzătoare.

rețineți că acestea nu vor fi întotdeauna probleme care trebuie rectificate, mai ales în cazul duplicatelor apropiate.

nu este un utilizator Ahrefs?

căutați aceste avertismente legate de conținut duplicat în Google Search Console:

  • duplicat fără canonic selectat de utilizator
  • duplicat, Google a ales canonic diferit de utilizator
  • duplicat, URL-ul prezentat nu este selectat ca canonic

Aflați mai multe despre cum să se ocupe de aceste avertismente aici.

pentru a vedea cum tratează Google o anumită adresă URL, utilizați instrumentul de inspecție URL.

de asemenea, puteți verifica etichetele de titlu duplicate, meta descrierile și H1s în raportul tagurilor HTML.

duplicatele proaste sunt ceea ce căutați. Acestea sunt pagini cu meta tag-uri duplicate, dar canonice diferite.

selectați-le făcând clic pe comutatorul „duplicate greșite” sub etichete HTML& conținut.

Faceți clic pe oricare dintre barele galbene pentru a vedea paginile afectate.

paginile cu titluri duplicate, meta descrieri sau H1 sunt adesea foarte asemănătoare.

de exemplu, aceste două au aceeași etichetă de titlu, iar conținutul este aproape identic, deoarece produsul este același. Singura diferență este că una dintre pagini este pentru un pachet de 3 firelogs de iluminare instantanee, în timp ce cealaltă este doar pentru una.

Google afirmă că ar trebui să minimalizați conținutul similar astfel:

dacă aveți multe pagini similare, luați în considerare extinderea fiecărei pagini sau consolidarea paginilor într-una.

cu toate acestea, este puțin probabil ca un număr mic de pagini similare să fie o problemă.

cum să verificați problemele de conținut duplicat pe web

răzuirea și sindicalizarea conținutului pot duce, de asemenea, la probleme de conținut duplicat. Dar, de obicei, este o problemă numai dacă vedeți versiuni răzuite ale Conținutului dvs. care vă depășesc.

se întâmplă asta? Da, dar este adesea mai mult o problemă pentru site-urile noi sau slabe. De ce? Deoarece site-urile care vă răzuiesc conținutul sunt adesea mai autoritare. Că uneori” păcălește ” Google să creadă că al lor este originalul.

Dacă aveți un site web mic, atunci puteți găsi adesea conținut fragmentat căutând pe Google un fragment de text din pagina dvs. între ghilimele.

pentru site-uri mai mari, va trebui să utilizați un instrument automat, cum ar fi Copyscape. Aceasta caută pe web alte apariții ale conținutului de pe pagina(paginile) dvs.

indiferent de metoda pe care o utilizați, majoritatea rezultatelor vor fi de la site-uri spam și de calitate scăzută.

în general vorbind, acestea nu sunt nimic să vă faceți griji. Cu toate acestea, dacă vedeți că un site web legitim v-a răzuit conținutul și sunteți îngrijorat de faptul că vă poate fura traficul, aruncați adresa URL în Exploratorul de Site-uri Ahrefs pentru a vedea o estimare organică a traficului.

dacă devine mai mult trafic decât pagina dvs., atunci poate exista o problemă.

în acest caz, aveți trei opțiuni:

  1. contactați și solicitați eliminarea conținutului.
  2. ajungeți și solicitați adăugarea unui link canonic la original pe site-ul dvs.
  3. trimiteți o cerere de eliminare DMCA prin Google.

dacă sindicalizați intenționat conținut pe alte site-uri web, atunci merită să le cereți să adauge un link canonic la original. Acest lucru va elimina riscul de probleme de conținut duplicat.

republicarea conținutului pe propriul site?

dacă republicați conținut de la alții pe site-ul dvs., există două modalități de a preveni problemele de conținut duplicat:

  1. Canonicalizați înapoi la original.
  2. Noindex pagina.

gânduri finale

nu stres peste conținut duplicat prea mult. Este, de obicei, mult mai puțin de o problemă decât se crede a fi.

Dacă aveți o mână de pagini duplicate sau aproape duplicate, este puțin probabil să existe o mare problemă. Același lucru este valabil și atunci când citați conținut de pe un alt site web sau alte pagini de pe site-ul dvs. Cantități mici de conținut duplicat sau boilerplate ar trebui să fie în regulă. Google are sisteme în loc să se ocupe de astfel de lucruri.

ceea ce trebuie să fiți în căutarea sunt ghinioanele tehnice SEO care duc la generarea a sute sau mii de pagini de conținut duplicat, cum ar fi implementarea necorespunzătoare a navigării fațetate pe site-urile de comerț electronic.

acestea pot face ravagii în bugetul dvs. de accesare cu crawlere, printre altele.



Lasă un răspuns

Adresa ta de email nu va fi publicată.