Duplicate Content: Perché succede e come risolverlo

Head of Content @ Ahrefs (o, in parole povere, sono il responsabile di garantire che ogni post sul blog che pubblichiamo sia EPICO).

Stai cercando di imparare cos’è il contenuto duplicato e come potrebbe danneggiare il tuo SEO?

Il contenuto duplicato è una fonte di ansia costante per molti proprietari di siti.

Leggi quasi nulla a riguardo e verrai via credendo che il tuo sito sia una bomba a orologeria di problemi di contenuti duplicati. Una penalità di Google è solo giorni di distanza.

Per fortuna, questo non è vero, ma i contenuti duplicati possono ancora causare problemi SEO. E con il 25-30% del web che è contenuto duplicato, è utile sapere come evitare e risolvere tali problemi.

In questa guida, imparerai:

  • Cos’è il contenuto duplicato;
  • Perché il contenuto duplicato è dannoso per SEO;
  • Se Google ha una penalità per il contenuto duplicato;
  • Cause comuni dei contenuti duplicati;
  • Come verificare (e correggere) i contenuti duplicati

Che cos’è il contenuto duplicato?

Il contenuto duplicato è contenuto esatto o quasi duplicato che appare sul Web in più di un luogo. Può verificarsi su un singolo sito web o tra domini.

Ad esempio, se dovessi ripubblicare questo post suahrefs.com/blog/duplicate-content-copy/, allora sarebbe un contenuto duplicato. Sarebbe anche vero se dovessi ripubblicarlo su un altro sito web.

Google afferma che la maggior parte dei contenuti duplicati non è ingannevole in origine.

Perché i contenuti duplicati sono dannosi per SEO?

I contenuti duplicati possono danneggiare le prestazioni SEO per alcuni motivi.

  1. URL indesiderati o ostili nei risultati di ricerca;
  2. Backlink diluizione;
  3. Brucia crawl budget;
  4. Raschiato o contenuti sindacato outranking voi.

Esploriamo questi in modo più approfondito.

URL indesiderati o ostili nei risultati di ricerca

Immagina che la stessa pagina sia disponibile in tre URL diversi:

  1. domain.com/page/
  2. domain.com/page/?utm_content = buffer & utm_medium = social
  3. domain.com/category/page /

Il primo dovrebbe apparire nei risultati di ricerca, ma Google può sbagliare. Se ciò accade, un URL indesiderato potrebbe prendere il suo posto.

Poiché le persone potrebbero essere meno inclini a fare clic su un URL ostile, potresti ottenere meno traffico organico.

Backlink diluition

Se lo stesso contenuto è disponibile in molti URL, ognuno di questi URL può attrarre backlink. Ciò si traduce nella suddivisione di “link equity” tra gli URL.

Per mostrare un esempio di questo in natura, dai un’occhiata a queste due pagine su buffer.com:

Queste pagine sono duplicati quasi esatti. E hanno 106 e 144 domini di riferimento (link da siti Web unici), rispettivamente.

Prima di andare nel panico, sappi che questo non è sempre un problema a causa del modo in cui Google gestisce i contenuti duplicati.

In termini semplici, quando rilevano contenuti duplicati, raggruppano gli URL in un cluster. Quindi “seleziona quale pensa sia l’URL “migliore” per rappresentare il cluster nei risultati di ricerca ” e ” consolida le proprietà degli URL nel cluster, ad esempio link popularity, all’URL rappresentativo.”

Quindi, nel caso precedente, Google dovrebbe mostrare solo uno degli URL nella ricerca organica e attribuire tutti i domini di riferimento nel cluster (106+144) a quell’URL.

Ma non è quello che succede, come vediamo entrambi gli URL classifica in Google per parole chiave simili.

In questo caso, Google probabilmente non sta consolidando “link equity” in un URL.

DISCLAIMER

Non possiamo essere sicuri di come Google vede questi due URL, in quanto non abbiamo accesso all’account Google Search Console di Buffer. Può darsi che vedano entrambi questi URL come duplicati e uno di essi scomparirà presto dalla ricerca organica.

Burns crawl budget

Google trova nuovi contenuti sul tuo sito Web tramite la scansione, il che significa che seguono i link dalle pagine esistenti alle nuove pagine. Hanno anche recrawl pagine che conoscono di tanto in tanto per vedere se qualcosa è cambiato.

Avere contenuti duplicati serve solo a creare più lavoro per loro. Ciò può influenzare la velocità e la frequenza con cui strisciano le tue pagine nuove o aggiornate.

Questo è brutto perché potrebbe causare ritardi nell’indicizzazione di nuove pagine e nella reindicizzazione delle pagine aggiornate.

Nota laterale.

Poiché il “limite di velocità di scansione” di Google è più alto per i siti Web più reattivi, questo è più un problema per i siti Web lenti con minori margini di banda. I loro sistemi eseguiranno anche la scansione degli URL duplicati meno spesso.

Contenuti raschiati outranking voi

Occasionalmente, si può permettere un altro sito web per ripubblicare il contenuto. Questo è noto come syndication. Altre volte, i siti possono raschiare il contenuto e ripubblicarlo senza autorizzazione.

Entrambi questi scenari portano a duplicare contenuti su più domini, ma di solito non causano problemi. È solo quando il contenuto raschiato o ripubblicato inizia a superare l’originale sul tuo sito che sorgono problemi.

La buona notizia è che questo è un evento raro, ma può accadere.

Google ha una penalità di contenuti duplicati?

Google ha dichiarato in più occasioni che non hanno una penalità di contenuti duplicati.

Non abbiamo una penalità per il contenuto duplicato. Non è che avremmo retrocedere un sito per avere un sacco di contenuti duplicati.

John Mueller, analista di tendenze Webmaster Google
Mettiamolo a letto una volta per tutte, gente: There’s no such thing as a duplicate content penalty.
Susan Moskwa, Former Webmaster Trends Analyst Google

DYK Google doesn’t have a duplicate content penalty.
Gary Illyes, Webmaster Trends Analyst Google

But, this isn’t entirely true. Se il tuo contenuto duplicato è accidentale e non è il risultato di una manipolazione intenzionale dei risultati di ricerca o di pratiche di spam, non verrai penalizzato. Se lo è, allora potresti.

Google conferma che qui:

Nei rari casi in cui Google percepisce che i contenuti duplicati possono essere mostrati con l’intento di manipolare le nostre classifiche e ingannare i nostri utenti, faremo anche le opportune modifiche nell’indicizzazione e nella classifica dei siti coinvolti. Di conseguenza, la classifica del sito potrebbe risentirne o il sito potrebbe essere rimosso interamente dall’indice di Google, nel qual caso non apparirà più nei risultati di ricerca.

La domanda è: cosa conta come “intento a manipolare le nostre classifiche e ingannare i nostri utenti”?

Google ha molte informazioni su questo qui. Ma fondamentalmente, sono cose come:

  • Creando intenzionalmente più pagine, sottodomini o domini con molti contenuti duplicati.
  • Pubblicare un sacco di contenuti raschiati
  • Pubblicare contenuti affiliati raschiati da Amazon o altri siti (e senza aggiungere alcun valore aggiuntivo)

Tuttavia, come discusso sopra, i contenuti duplicati possono ancora danneggiare SEO—anche senza penalità.

Cause comuni di contenuti duplicati

Non esiste una singola causa di contenuti duplicati. Ce ne sono molti.

Navigazione sfaccettata/filtrata

La navigazione sfaccettata è dove gli utenti possono filtrare e ordinare gli elementi nella pagina. I siti di e-commerce lo usano molto.

Questo tipo di navigazione aggiunge i parametri alla fine dell’URL.

Poiché di solito ci sono molte combinazioni di questi filtri, la navigazione sfaccettata spesso produce molti contenuti duplicati o quasi duplicati.

Dai un’occhiata a queste due pagine, ad esempio:

Gli URL sono unici, ma il contenuto è quasi identico.

Inoltre, l’ordine dei parametri spesso non ha importanza. Ad esempio, la stessa pagina è accessibile a entrambi questi URL:

Come risolvere questo problema

La navigazione sfaccettata è una bestia complessa. Se sospetti che questo sia la causa dei tuoi problemi di contenuto duplicato, leggi questo.

Parametri di tracciamento

Gli URL parametrizzati vengono utilizzati anche per scopi di tracciamento. Ad esempio, è possibile utilizzare i parametri UTM per monitorare le visite da una campagna di newsletter in Google Analytics:

Esempio: example.com/page?utm_source=newsletter

Come risolvere questo problema

Canonicalizza i tuoi URL parametrizzati in versioni SEO-friendly senza parametri di tracciamento.

ID di sessione

Gli ID di sessione memorizzano le informazioni sui visitatori. Di solito aggiungono una stringa lunga all’URL in questo modo:

Esempio: example.com?sessionId=jow8082345hnfn9234

How to solve this issue

Canonicalize the URLs to SEO-friendly versions.

HTTPS vs. HTTP, and non-www vs. www

Most websites are accessible at one of these four variations:

  • https://www.example.com (HTTPS, www)
  • https://example.com (HTTPS, non-www)
  • http://www.example.com (HTTP, www)
  • http://example.com (HTTP, non-www)

If you’re using HTTPS, it’ll be one of the first two. Che si tratti della versione www o non www è la vostra scelta.

Tuttavia, se non configuri correttamente il tuo server, il tuo sito sarà accessibile a due o più di queste varianti. Questo non è buono e può portare a problemi di contenuti duplicati.

Come risolvere questo problema

Usa i reindirizzamenti per assicurarti che il tuo sito web sia accessibile solo in una posizione.

URL Case-sensitive

Google vede gli URL come case-sensitive.

Gli URL sono case-sensitive, ma scegliere qualunque caso si desidera.- John John John (@JohnMu) 22 giugno 2017

Nota laterale.

Questo non sembra essere il caso di Bing, che tratta tutti gli URL come minuscoli.

Ciò significa che questi tre URL sono tutti diversi:

  • example.com/page
  • example.com/PAGE
  • example.com/pAgE
Come risolvere questo problema

Essere coerenti con i collegamenti interni (cioè, non collegare internamente a più versioni di URL). Se questo non risolve le cose, puoi sempre canonicalizzare o reindirizzare.

Barre finali vs. non-trailing-slash

Google considera gli URL con e senza barre finali come univoci. Ciò significa che questi due URL sono unici agli occhi di Google:

  • example.com/page/
  • example.com/page

Se il contenuto è accessibile a entrambi gli URL, allora che può portare a problemi di contenuti duplicati.

Per verificare se questo è un problema, prova a caricare una pagina con e senza la barra finale. Idealmente, verrà caricata solo una versione. L’altro reindirizzerà.

Ad esempio, se si tenta di caricare questo post senza la barra finale, verrà reindirizzato all’URL con la barra finale.

Google afferma che questo comportamento è ideale.

Se solo una versione può essere restituita (cioè l’altra reindirizza ad essa), è fantastico! Questo comportamento è utile perché riduce il contenuto duplicato.

Come risolvere questo problema

Reindirizzare la versione indesiderata (ad esempio, senza barra finale) alla versione desiderata (ad esempio, con barra finale). Dovresti anche assicurarti di rimanere coerente con il collegamento interno. Non collegare a versioni con barre finali a volte e senza altre volte. Scegli uno e bastone con esso.

URL compatibili con la stampa

Le versioni compatibili con la stampa hanno lo stesso contenuto dell’originale. È solo l’URL che differisce.

  • example.com/page
  • example.com/print/page
Come risolvere questo problema

Canonicalizzare la versione stampabile all’originale.

URL compatibili con i dispositivi mobili

Gli URL compatibili con i dispositivi mobili, come gli URL compatibili con la stampa, sono duplicati.

  • example.com/page
  • m.esempio.com / page
Come risolvere questo problema

Canonicalizzare la versione mobile-friendly all’originale. Utilizzare rel = “alternate” per dire a Google che l’URL mobile-friendly è una versione alternativa del contenuto desktop.

Lettura consigliata: Annotazioni per URL desktop e mobile

AMP URL

Accelerated Mobile Pages (AMP) sono duplicati.

  • example.com/page
  • example.com/amp/page
Come risolvere questo problema

Canonicalizzare la versione AMP alla versione non-AMP. Usa rel="amphtml" per dire a Google che l’URL AMP è una versione alternativa del contenuto non AMP.

Se hai solo contenuti AMP, usa un tag canonico autoreferenziale.

Lettura consigliata: Rendere le pagine rilevabili-amp.dev

Pagine di tag e categorie

La maggior parte dei CMS crea pagine di tag dedicate quando si utilizzano tag.

Ad esempio, se hai un articolo sulle proteine del siero di latte organiche e usi sia” proteine in polvere “che” siero di latte” come tag, finirai con due pagine di tag come queste:

Che non sempre causa contenuti duplicati in sé, ma può.

Questo è il caso qui perché c’è solo una pagina sul sito con quei due tag, quindi ogni pagina di tag è identica.

Come risolvere questo problema

Due opzioni:

  1. Non usare i tag. La maggior parte del tempo, hanno poco o nessun valore comunque.
  2. Noindex le pagine dei tag. Questo non risolve il problema del budget di scansione, poiché Google continuerà a perdere tempo a scansionare queste pagine.

Si noti che le pagine delle categorie possono causare problemi simili alle pagine dei tag. Caso in questione:

Entrambe queste pagine sono quasi identiche perché non ci sono prodotti elencati in nessuna delle due categorie. Quindi tutto ciò che ci rimane è la copia del modello boilerplate.

Risolvere questo problema utilizzando un numero ragionevole di categorie sul tuo sito, o anche noindexing le pagine di categoria.

URL delle immagini degli allegati

Molti CMS creano pagine dedicate per gli allegati delle immagini. Queste pagine di solito non mostrano altro che l’immagine e qualche copia boilerplate.

Poiché questa copia è la stessa in tutte le pagine generate automaticamente, porta a duplicare il contenuto.

Come risolvere questo problema

Disabilita le pagine dedicate per le immagini nel tuo CMS. In WordPress, puoi farlo usando un plugin come Yoast.

Commenti impaginati

WordPress e altri CMS consentono commenti impaginati. Ciò causa contenuti duplicati in quanto crea in modo efficace più versioni degli stessi URL.

  • example.com/post/
  • example.com/post/comment-page-2
  • example.com/post/comment-page-3
Come risolvere questo problema

Disattiva l’impaginazione dei commenti o noindex le tue pagine impaginate usando un plugin come Yoast.

Localizzazione

Se stai servendo contenuti simili a persone in locali diversi che parlano la stessa lingua, allora questo può causare contenuti duplicati.

Ad esempio, potresti avere versioni diverse del tuo sito per le persone negli Stati Uniti, nel Regno Unito e in Australia. Poiché ci sono probabilmente solo piccole differenze tra i contenuti serviti per ogni locale (ad esempio, i prezzi in dollari contro sterline inglesi), le versioni saranno quasi duplicati.

Nota laterale.

Secondo John Mueller, i contenuti tradotti non sono contenuti duplicati.

Come risolvere questo problema

Usa i tag hreflang per dire ai motori di ricerca la relazione tra le variazioni.

Pagine dei risultati di ricerca

Molti siti web hanno caselle di ricerca. L’utilizzo di questi in genere ti porta a un URL di ricerca parametrizzato.

Esempio: example.com?q=search-term

L’ex responsabile di Webspam di Google, Matt Cutts, ha dichiarato che:

In genere, i risultati di ricerca web non aggiungono valore agli utenti, e poiché il nostro obiettivo principale è fornire i migliori risultati di ricerca possibili, generalmente escludiamo i risultati di ricerca dal nostro indice di ricerca web. (Non tutti gli URL che contengono cose come “/ results “o” / search” sono risultati di ricerca, ovviamente.)
Matt Cutts, L’ex Capo del Webspam di Google

Come risolvere questo problema

Usare il meta tag robots per rimuovere le pagine di ricerca dall’indice di Google o bloccare l’accesso alle pagine dei risultati di ricerca in robot.txt. Astenersi dal collegamento interno alle pagine dei risultati di ricerca.

Ambiente di staging

Un ambiente di staging è una versione duplicata o quasi duplicata del sito utilizzato a scopo di test.

Ad esempio, immagina di voler installare un nuovo plugin o modificare del codice sul tuo sito web. Si potrebbe non voler spingere che dritto a un sito dal vivo con centinaia di migliaia di visitatori al giorno. Il rischio di catastrofe è troppo alto. La soluzione consiste nel testare prima le modifiche in un ambiente di staging.

Gli ambienti di staging diventano un problema SEO quando Google li indicizza perché si traduce in contenuti duplicati.

Come risolvere questo problema

Proteggi il tuo ambiente di staging usando l’autenticazione HTTP, la whitelist IP o l’accesso VPN. Se è già indicizzato, utilizzare una direttiva robots noindex per rimuoverlo.

Come verificare la presenza di contenuti duplicati sul tuo sito

Vai all’audit del sito di Ahrefs e inizia una scansione.

Una volta fatto, vai al rapporto sulla qualità dei contenuti.

Cerca cluster di duplicati e quasi duplicati senza un canonico. Questi sono evidenziati in arancione.

Fare clic su uno di questi cluster per visualizzare le pagine interessate.

Indagare sul motivo del contenuto duplicato, quindi intraprendere l’azione appropriata.

Si noti che questi non saranno sempre problemi che devono essere corretti, specialmente nel caso di duplicati vicini.

Non sei un utente Ahrefs?

Cerca questi avvisi relativi ai contenuti duplicati in Google Search Console:

  • Duplicare senza canonical
  • Duplicato selezionato dall’utente, Google ha scelto canonical diverso dall’utente
  • Duplicato, URL inviato non selezionato come canonical

Ulteriori informazioni su come gestire questi avvisi qui.

Per vedere come Google tratta un URL specifico, utilizzare lo strumento di ispezione URL.

È anche possibile verificare la presenza di tag titolo duplicati, meta descrizioni e H1 nel report tag HTML.

I duplicati errati sono ciò che stai cercando. Queste sono pagine con meta tag duplicati ma diversi canonici.

Selezionali facendo clic sull’interruttore “Duplicati non validi” sotto i tag HTML & contenuto.

Fare clic su una delle barre gialle per visualizzare le pagine interessate.

Le pagine con titoli duplicati, meta descrizioni o H1 sono spesso molto simili.

Ad esempio, questi due hanno lo stesso tag title e il contenuto è quasi identico perché il prodotto è lo stesso. L’unica differenza è che una delle pagine è per un pacchetto 3 di firelog di illuminazione istantanea, mentre l’altra è solo per uno.

Google afferma che dovresti ridurre al minimo contenuti simili come questo:

Se hai molte pagine simili, considera di espandere ogni pagina o consolidare le pagine in una sola.

Tuttavia, è improbabile che un piccolo numero di pagine simili sia un problema.

Come verificare la presenza di problemi di contenuti duplicati sul web

Content scraping e syndication possono anche portare a problemi di contenuti duplicati. Ma di solito è solo un problema se vedi versioni raschiate dei tuoi contenuti che ti superano.

Succede? Sì, ma spesso è più un problema per i siti Web nuovi o deboli. Perché? Perché i siti che raschiano i tuoi contenuti sono spesso più autorevoli. Che a volte “trucchi” Google a pensare che la loro è l’originale.

Se hai un piccolo sito web, puoi spesso trovare contenuti raschiati cercando su Google un frammento di testo dalla tua pagina tra virgolette.

Per siti più grandi, è necessario utilizzare uno strumento automatico come Copyscape. Questo cerca sul web altre occorrenze del contenuto della tua pagina (s).

Qualunque sia il metodo utilizzato, la maggior parte dei risultati sarà da siti di spam e di bassa qualità.

In generale, questi non sono nulla di cui preoccuparsi. Tuttavia, se vedi che un sito web legittimo ha raschiato il tuo contenuto e sei preoccupato che possa rubare il tuo traffico, lancia l’URL in Ahrefs’ Site Explorer per vedere una stima del traffico organico.

Se sta ricevendo più traffico della tua pagina, potrebbe esserci un problema.

In questo caso, hai tre opzioni:

  1. Raggiungi e richiedi che rimuovano il contenuto.
  2. Raggiungi e richiedi di aggiungere un link canonico all’originale sul tuo sito.
  3. Invia una richiesta di rimozione DMCA tramite Google.

Se si associano intenzionalmente contenuti ad altri siti web, vale la pena chiedere loro di aggiungere un link canonico all’originale. Ciò eliminerà il rischio di problemi di contenuti duplicati.

ripubblicare contenuti sul proprio sito?

Se stai ripubblicando contenuti da altri sul tuo sito, ci sono due modi per prevenire problemi di contenuti duplicati:

  1. Canonicalizzare di nuovo all’originale.
  2. Noindex la pagina.

Considerazioni finali

Non stressare troppo il contenuto duplicato. Di solito è molto meno di un problema di quanto si pensi.

Se hai una manciata di pagine duplicate o quasi duplicate, è improbabile che ci sia un grosso problema. Lo stesso vale quando si citano contenuti da un altro sito web o altre pagine del tuo sito. Piccole quantità di contenuti duplicati o boilerplate dovrebbero essere a posto. Google ha sistemi in atto per affrontare queste cose.

Ciò di cui hai bisogno per essere alla ricerca sono contrattempi tecnici SEO che portano alla generazione di centinaia o migliaia di pagine di contenuti duplicati, come l’implementazione impropria della navigazione sfaccettata sui siti di e-commerce.

Questi possono devastare il tuo budget di scansione, tra le altre cose.



Lascia un commento

Il tuo indirizzo email non sarà pubblicato.