Conteúdo duplicado: Por que Isso Acontece e Como Corrigir

Cabeça do Conteúdo @ Ahrefs (ou, em inglês simples, eu sou o cara responsável por garantir que cada post do blog que publica é ÉPICO).

procurando aprender o que é o conteúdo duplicado, e como pode estar a prejudicar o seu SEO?

conteúdo duplicado é uma fonte de ansiedade constante para muitos proprietários do site.

Leia quase tudo sobre isso, e você vai se afastar acreditando que o seu site é uma bomba relógio de problemas de conteúdo duplicados. Uma penalidade do Google é apenas a dias de distância.

felizmente, isso não é verdade – mas conteúdo duplicado ainda pode causar problemas de SEO. E com 25-30% da web sendo conteúdo duplicado, é útil saber como evitar e corrigir tais problemas.

neste guia, irá aprender:

  • o conteúdo duplicado é;
  • Por Que o conteúdo duplicado é mau para o SEO;
  • Se o Google tem uma penalização duplicada pelo conteúdo;
  • causas comuns do conteúdo duplicado;
  • Como verificar (e corrigir) o conteúdo duplicado

O que é o conteúdo duplicado?

conteúdo duplicado é um conteúdo exato ou quase duplicado que aparece na web em mais de um lugar. Pode ocorrer em um único site ou cross-domain.

Por exemplo, se eu fosse Republicar este post em ahrefs.com/blog/duplicate-content-copy/, então isso seria conteúdo duplicado. Isso também seria verdade se eu fosse republicá-lo em outro site.

O Google afirma que a maioria dos conteúdos duplicados não é enganosa na origem.

porque é que o conteúdo duplicado é mau para o SEO?

conteúdo duplicado pode prejudicar o seu desempenho SEO por algumas razões.

  1. URLs indesejáveis ou não amigáveis nos resultados da pesquisa;
  2. diluição da ligação de trás;
  3. orçamento de Burns crawl;conteúdo raspado ou sindicado à sua volta.vamos explorá-los com mais profundidade.

    Indesejáveis ou hostil URLs nos resultados de busca

    Imagine que a mesma página está disponível em três diferentes URLs:

    1. domain.com/page/
    2. domain.com/page/?utm_content=buffer&utm_medium=social
    3. domain.com/category/page/

    O primeiro deve aparecer em resultados de pesquisa, mas o Google pode obter esta errado. Se isso acontecer, uma URL indesejável pode tomar o seu lugar.

    porque as pessoas podem estar menos inclinadas a clicar em uma URL hostil, você pode obter menos tráfego orgânico.

    diluição de Backlink

    Se o mesmo conteúdo estiver disponível em muitos URLs, então cada um desses URLs pode atrair backlinks. Isso resulta na divisão do “link equity” entre URLs.

    Para mostrar um exemplo na natureza, dê uma olhada nestas duas páginas em buffer.com:

    Estas páginas são quase duplicatas exatas. E eles têm 106 e 144 domínios de referência (links de sites únicos), respectivamente.

    Antes de entrar em pânico, saiba que isto nem sempre é um problema devido à forma como o Google lida com conteúdos duplicados.

    em termos simples, quando eles detectam conteúdo duplicado, eles agrupam os URLs em um único conjunto. Eles então “selecionam o que pensa ser o ‘melhor’ URL para representar o cluster nos resultados de pesquisa” e “consolidam as propriedades dos URLs no cluster, como a popularidade do link, para o URL representativo.”

    assim, no caso acima, o Google deve mostrar apenas um dos URLs em pesquisa orgânica e atribuir todos os domínios de referência no cluster (106+144) a esse URL.

    mas isso não é o que acontece, como vemos ambos os URLs ranking no Google para palavras-chave semelhantes.

    nesta instância, o Google likely não está consolidando “link equity” em um URL.

    DISCLAIMER

    não podemos ter a certeza de como o Google vê estes dois URLs, uma vez que não temos acesso à conta da consola de Pesquisa Google Buffer. Pode ser que eles vejam ambos os URLs como duplicados, e um deles irá desaparecer da pesquisa orgânica em breve.

    Burns crawl budget

    Google finds new content on your website via crawling, which means they follow links from existing pages to new pages. Eles também recauchl páginas que eles sabem de vez em quando para ver se alguma coisa mudou.

    ter conteúdo duplicado serve apenas para criar mais trabalho para eles. Isso pode afetar a velocidade e frequência em que eles rastejam suas páginas novas ou atualizadas.

    isso é ruim porque pode levar a atrasos na indexação de novas páginas e reinexagem de páginas atualizadas.

    Sidenote.

    porque o “limite de taxa rastejante” do Google é maior para sites mais sensíveis, este é mais um problema para sites lentos com menores licenças de largura de banda. Seus sistemas também rastejarão os URLs duplicados com menos frequência.ocasionalmente, pode permitir que outro site publique o seu conteúdo. Isso é conhecido como sindicação. Outras vezes, sites podem raspar seu conteúdo e republicá-lo sem permissão.

    ambos os cenários levam a duplicar o conteúdo em vários domínios, mas eles geralmente não causam problemas. Só quando o conteúdo raspado ou republicado começa a ultrapassar o original no seu site é que surgem problemas.

    A boa notícia é que esta é uma ocorrência rara, mas pode acontecer.

    o Google tem uma penalidade de conteúdo duplicada?

    o Google afirmou em várias ocasiões que eles não têm uma penalidade de conteúdo duplicado.

    We don’t have a duplicate content penalty. Não é que nós rebaixássemos um site por ter um monte de conteúdo duplicado.
    John Mueller, Webmasters e Tendências Analista Google

    Vamos colocar isso para a cama de uma vez por todas, a gente: There’s no such thing as a duplicate content penalty.
    Susan Moskwa, Former Webmaster Trends Analyst Google

    DYK Google doesn’t have a duplicate content penalty.
    Gary Illyes, Webmaster Trends Analyst Google

    But, this isn’t entirely true. Se o seu conteúdo duplicado for acidental e não o resultado de manipulação intencional de resultados de pesquisa ou práticas de spammy, então você não vai ser penalizado. Se for, talvez o faças.

    A Google confirma que aqui:

    nos raros casos em que a Google percebe que o conteúdo duplicado pode ser mostrado com a intenção de manipular os nossos rankings e enganar os nossos utilizadores, também faremos os ajustes adequados na indexação e classificação dos sites envolvidos. Como resultado, o ranking do site pode sofrer, ou o site pode ser removido inteiramente do Índice Google, caso em que ele não aparecerá mais em resultados de pesquisa.

    a questão é, o que conta como “intenção de manipular nossos rankings e enganar nossos usuários”?

    A Google tem um monte de informações sobre isso aqui. Mas basicamente, são coisas como:

    • intencionalmente criando várias páginas, subdomínios ou domínios com lotes de conteúdo duplicado.
    • publicando lotes de conteúdo raspado
    • publicando conteúdo de afiliados raspados da Amazon ou outros sites (e adicionando nenhum valor adicional)

    No entanto, como discutido acima, conteúdo duplicado ainda pode prejudicar SEO—mesmo sem uma penalidade.

    causas comuns de conteúdo duplicado

    não há uma causa única de conteúdo duplicado. Há muitos.

    navegação facetada/filtrada

    navegação facetada é onde os utilizadores podem filtrar e ordenar itens na página. Sites de comércio eletrônico usá-lo muito.

    Este tipo de navegação adiciona parâmetros ao fim do URL.

    porque existem geralmente muitas combinações destes filtros, navegação facetada muitas vezes resulta em lotes de conteúdo duplicado ou quase duplicado.

    dê uma olhada nestas duas páginas, por exemplo:

    as URLs são únicas, mas o conteúdo é quase idêntico.

    Mais, A Ordem dos parâmetros muitas vezes não importa. Por exemplo, a mesma página é acessível em ambos os URLs:

    como resolver este problema

    navegação facetada é uma besta complexa. Se você suspeita que isso é a causa de seus problemas de conteúdo duplicado, basta ler isso.

    Parâmetros de seguimento

    URLs parametrizados também são utilizados para fins de seguimento. Por exemplo, você pode usar UTM parâmetros para controlar as visitas a partir de um boletim de campanha no Google Analytics:

    Exemplo: example.com/page?utm_source=newsletter

    Como resolver este problema

    Canoniza o seu parametrizada URLs SEO-friendly versões sem parâmetros de controle.

    IDs de sessão

    IDs de sessão armazenam informações sobre os seus visitantes. Eles normalmente adicionam um texto longo ao URL assim:

    exemplo: example.com?sessionId=jow8082345hnfn9234

    How to solve this issue

    Canonicalize the URLs to SEO-friendly versions.

    HTTPS vs. HTTP, and non-www vs. www

    Most websites are accessible at one of these four variations:

    • https://www.example.com (HTTPS, www)
    • https://example.com (HTTPS, non-www)
    • http://www.example.com (HTTP, www)
    • http://example.com (HTTP, non-www)

    If you’re using HTTPS, it’ll be one of the first two. Se é a versão www ou não-www é sua escolha.

    no entanto, se você não configurar corretamente o seu servidor, o seu site será acessível em duas ou mais destas variações. Isso não é bom e pode levar a problemas de conteúdo duplicados.

    como resolver este problema

    Use redirects para garantir que o seu site só está acessível em um local.

    URLs sensíveis a maiúsculas

    a Google vê os URLs como sensíveis a maiúsculas.

    URLs são sensíveis à capitalização, mas escolha o caso que quiser.- 🍌John 🍌 (@JohnMu) June 22, 2017

    Sidenote.

    este não parece ser o caso de Bing, que trata todos os URLs como minúsculos.

    isso significa Que essas três URLs são todos diferentes:

    • example.com/page
    • example.com/PAGE
    • example.com/pAgE
    Como resolver este problema

    Ser consistente com links internos (i.é., não internamente link para várias versões de URLs). Se isso não resolver as coisas, você pode sempre canonicalizar ou redirecionar.

    traços finais vs. non-trailing-slashes

    Google trata os URLs com e sem seguir slashes como únicos. Isso significa que estes dois URLs são únicos aos olhos do Google:

    • example.com/page/
    • example.com/page

    Se o seu conteúdo estiver acessível em ambos os URLs, então isso pode levar a problemas de conteúdo duplicados.

    para verificar se este é um problema, tente carregar uma página com e sem a barra final. Idealmente, apenas uma versão será carregada. O outro vai redireccionar.

    Por exemplo, se você tentar carregar este post sem a barra final, ele irá redirecionar para o URL com a barra final.

    O Google afirma que este comportamento é ideal.

    se apenas uma versão pode ser devolvida (ou seja, o outro redireciona para ele), isso é ótimo! Este comportamento é benéfico porque reduz o conteúdo duplicado.

    como resolver esta questão

    redirecione a versão indesejável (por exemplo, sem seguir a barra) para a versão desejada (por exemplo, com barra invertida). Você também deve se certificar de manter consistente com a ligação interna. Não se conecte às versões com cortes de trilho às vezes, e sem outras vezes. Escolhe um e fica com ele.

    os Url ‘ s amigáveis à impressão

    as versões amigáveis à impressão têm o mesmo conteúdo que o original. É só a URL que difere.

    • example.com/page
    • example.com/print/page
    Como resolver este problema

    Canoniza a imprimir versão amigável para o original.

    URLs móveis amigáveis

    URLs móveis amigáveis, como os URLs impressos, são duplicados.

    • example.com/page exemplo.com / page
    How to solve this issue

    Canonicalize the mobile-friendly version to the original. Use rel= “alternate” para dizer ao Google que a URL amiga do celular é uma versão alternativa do conteúdo desktop.

    reading Recommended: Annotations for desktop and mobile URLs

    AMP URLs

    Accelerated Mobile Pages (AMP) are duplicates.

    • example.com/page
    • example.com/amp/page
    Como resolver este problema

    Canonizar o AMP versão para o não-AMP versão. Use rel="amphtml" para dizer ao Google que a URL AMP é uma versão alternativa do conteúdo não AMP.

    Se você só tem conteúdo AMP, use uma etiqueta canônica auto-referenciada.

    leitura recomendada: torne as suas páginas visíveis-amp.dev

    páginas de marcas e categorias

    a maioria do CMS’ cria páginas de marcas dedicadas quando usa marcas.por exemplo, se você tem um artigo sobre proteína orgânica de soro de leite, e você usa tanto “proteína em pó” e “soro de leite” como tags, então você vai acabar com duas páginas de tag como estas:

    que nem sempre causa conteúdo duplicado em si, mas pode.

    Este é o caso aqui porque há apenas uma página no site com essas duas tags—então cada tag page é idêntico.

    Como resolver este problema

    Duas opções:

    1. não use tags. Na maioria das vezes, eles têm pouco ou nenhum valor de qualquer maneira.
    2. Noindex as suas páginas de etiquetas. Isso não resolve a questão do orçamento crawl, como o Google ainda vai perder tempo rastejando essas páginas.

    Note que as páginas de categoria podem causar problemas semelhantes às páginas de tags. Caso em questão:

    ambas as páginas são quase idênticas porque não existem produtos incluídos em qualquer das categorias. Só nos resta a cópia do modelo boilerplate.

    resolva isso usando um número razoável de categorias em seu site, ou mesmo semindexing suas páginas de categoria.

    URLs de imagens de anexo

    muitos CMS’ criam páginas dedicadas para anexos de imagens. Estas páginas normalmente não mostram nada a não ser a imagem e alguma cópia de boilerplate.

    porque esta cópia é a mesma em todas as páginas auto-geradas, ela leva a conteúdo duplicado.

    como resolver este problema

    desactivar páginas dedicadas para imagens no seu CMS. Em WordPress, você pode fazer isso usando um plugin como Yoast.

    comentários paginados

    WordPress e outros CMS ‘ permitem comentários paginados. Isso faz com que o conteúdo duplicado como ele efetivamente cria várias versões dos mesmos URLs.

    • example.com/post/
    • example.com/post/comment-page-2
    • example.com/post/comment-page-3
    Como resolver este problema

    desligar comentário paginação ou noindex seu paginado páginas usando um plugin como o Yoast.

    localização

    Se você está servindo conteúdo similar a pessoas em locais diferentes que falam a mesma língua, então isso pode causar conteúdo duplicado.

    Por exemplo, você pode ter diferentes versões do seu site para Pessoas nos EUA, REINO UNIDO e Austrália. Porque há provavelmente apenas pequenas diferenças entre o conteúdo servido a cada local (por exemplo, preços em Dólares versus Libras esterlinas), as versões serão quase duplicados.

    Sidenote.

    de acordo com John Mueller, conteúdo traduzido não é conteúdo duplicado.

    como resolver este problema

    Use tags hreflang para informar os motores de busca sobre a relação entre as variações.

    páginas de resultados de Pesquisa

    Muitos sites têm caixas de pesquisa. Usar estes normalmente leva – o a um URL de pesquisa parametrizado.

    Exemplo: exemplo.com?q=pesquisa-termo

    o Google, ex-Chefe de Webspam, Matt Cutts, afirmou que:

    Normalmente, resultados de pesquisa da web não agregam valor para os usuários, e já que o nosso objectivo principal é fornecer os melhores resultados possíveis, que, em geral, excluem os resultados da pesquisa de nosso índice de pesquisa da web. (Nem todos os URLs que contêm coisas como “/results” ou “/search” são resultados de pesquisa, é claro.)
    Matt Cutts, O ex-Chefe de Webspam do Google

    Como resolver este problema

    Use a meta tag robots para remover páginas de pesquisa do índice do Google ou bloquear o acesso a páginas de resultados de pesquisa em robôs.txt. Abster-se de ligar internamente às páginas de resultados de pesquisa.

    ambiente de estadiamento

    um ambiente de estadiamento é uma versão duplicada ou quase duplicada do seu site usada para fins de teste.

    por exemplo, imagine que você quer instalar um novo plugin ou alterar algum código em seu site. Você pode não querer empurrar isso diretamente para um site ao vivo com centenas de milhares de visitantes diários. O risco de catástrofe é demasiado elevado. A solução é testar as mudanças em um ambiente de teste primeiro.

    os ambientes de estadiamento tornam-se uma questão SEO quando o Google os indexa porque resulta em conteúdo duplicado.

    omo resolver este problema

    Proteja o seu ambiente de teste usando autenticação HTTP, Lista de IP ou acesso VPN. Se já está indexado, use uma diretriz de robôs noindex para removê-lo.

    Como verificar o conteúdo duplicado no seu site

    vá para a auditoria do site do Ahrefs e comece a rastejar.

    Uma vez feito, dirija-se ao relatório de qualidade do conteúdo.

    Procure por conjuntos de duplicados e quase duplicados sem um canônico. Estas são destacadas em laranja.

    clique em qualquer um destes grupos para ver as páginas afetadas.

    investiga a razão para o conteúdo duplicado e, em seguida, toma as medidas adequadas.

    Note que estas nem sempre serão questões que precisam ser corrigidas, especialmente no caso de duplicados próximos.

    não é um utilizador de Ahrefs?

    procure estes avisos relacionados com o conteúdo duplicado na consola de pesquisa do Google:

    • Duplicar sem selecionado pelo usuário canônico
    • Duplicar, o Google optou por diferentes canônico de usuário
    • Duplicar, submetidos URL não estiver seleccionada como canônico

    Saiba mais sobre como lidar com esses avisos aqui.

    para ver como o Google trata um URL específico, use a ferramenta de inspeção de URL.

    Pode também verificar se existem marcas de título duplicadas, meta-descrições e H1s no relatório de marcas HTML.

    duplicados ruins são o que você está procurando. Estas são páginas com meta tags duplicadas, mas diferentes canonicals.

    selecione estes, clicando nos “duplicados maus”comuta sob tags HTML & conteúdo.

    clique em qualquer uma das barras amarelas para ver as páginas afetadas.

    páginas com títulos duplicados, Descrições meta, ou H1 são muitas vezes muito semelhantes.

    por exemplo, estes dois têm a mesma marca de Título, e o conteúdo é quase idêntico porque o produto é o mesmo. A única diferença é que uma das páginas é para um pacote de três‑pack de iluminação instantânea fielogs, enquanto o outro é para apenas um.

    oogle afirma que você deve minimizar conteúdos semelhantes como este:

    Se você tem muitas páginas que são semelhantes, considere expandir cada página ou consolidar as páginas em uma.

    No entanto, é pouco provável que um pequeno número de Páginas semelhantes seja um grande problema.

    Como verificar se há problemas de conteúdo duplicados na web

    raspagem e sindicação de conteúdo também pode levar a problemas de conteúdo duplicados. Mas normalmente só é um problema se você ver versões raspadas de seu conteúdo superando você.isso acontece? Sim, mas muitas vezes é mais um problema para sites novos ou fracos. Por quê? Porque os sites raspando seu conteúdo são muitas vezes mais autoritários. Que às vezes” engana ” o Google a pensar que o seu é o original.

    Se você tem um pequeno site, então você pode muitas vezes encontrar conteúdo raspado, pesquisando o Google por um trecho de texto de sua página, entre aspas.

    para sites maiores, você precisará usar uma ferramenta automatizada como Copyscape. Isto procura na web outras ocorrências do conteúdo na(s) Sua (s) Página (s).

    qualquer que seja o método utilizado, a maioria dos resultados serão de sites de qualidade média e baixa.em termos gerais, não há motivo para preocupações. No entanto, se você ver que um site legítimo raspou o seu conteúdo, e estão preocupados que ele pode estar roubando o seu tráfego, jogue a URL no Site Explorer da Ahrefs para ver uma estimativa de tráfego orgânico.

    Se ele está recebendo mais tráfego do que sua página, então pode haver um problema.

    neste caso, você tem três opções:

    1. alcance e solicite que eles removam o conteúdo.
    2. estenda e solicite que adicione um link canônico para o original em seu site.
    3. submete um pedido de Takedown DMCA via Google.

    Se você intencionalmente distribuir conteúdo para outros sites, então vale a pena pedir-lhes para adicionar um link canônico para o original. Isso eliminará o risco de duplicações de conteúdo.conteúdo de republicação no seu próprio site?

    Se você está republicando o conteúdo de outros no seu site, existem duas maneiras de evitar problemas de conteúdo duplicados:

    1. Canonicalize de volta para o original.
    2. Noindex a página.

    Pensamentos finais

    não stresses demasiado com conteúdo duplicado. Normalmente é muito menos um problema do que se pensa ser.

    Se você tem um punhado de páginas duplicadas ou quase duplicadas, não é provável que haja muito de um problema. O mesmo é verdade ao citar conteúdo de outro site ou outras páginas em seu site. Pequenas quantidades de conteúdo em duplicado ou em boilerplate devem estar bem. O Google tem sistemas para lidar com essas coisas.

    O que você precisa estar atento são acidentes técnicos SEO que levam à geração de centenas ou milhares de páginas de conteúdo duplicado, tais como a implementação inadequada de navegação facetada em sites de comércio eletrônico.

    estes podem causar estragos no seu orçamento rastejante, entre outras coisas.



Deixe uma resposta

O seu endereço de email não será publicado.