Contenido duplicado: por Qué Ocurre y Cómo solucionarlo

Jefe de Contenido de @ Ahrefs (o, en la llanura inglés, yo soy el hombre responsable de asegurar que cada entrada del blog publicamos, es ÉPICA).

que quieren aprender lo que el contenido duplicado es, y cómo puede estar perjudicando tu SEO?

El contenido duplicado es una fuente de ansiedad constante para muchos propietarios de sitios.

Lea casi cualquier cosa al respecto, y llegará a creer que su sitio es una bomba de tiempo de problemas de contenido duplicado. Una penalización de Google es solo unos días.

Afortunadamente, esto no es cierto, pero el contenido duplicado aún puede causar problemas de SEO. Y con un 25-30% de contenido duplicado en la web, es útil saber cómo evitar y solucionar estos problemas.

En esta guía, aprenderás:

  • Qué es el contenido duplicado;
  • Por qué el contenido duplicado es malo para el SEO;
  • Si Google tiene una penalización por contenido duplicado;
  • Causas comunes del contenido duplicado;
  • Cómo comprobar (y corregir) el contenido duplicado

¿Qué es el contenido duplicado?

El contenido duplicado es contenido exacto o casi duplicado que aparece en la web en más de un lugar. Puede ocurrir en un solo sitio web o en dominios cruzados.

Por ejemplo, si tuviera que volver a publicar este post en ahrefs.com/blog/duplicate-content-copy/, entonces eso sería contenido duplicado. Eso también sería cierto si lo volviera a publicar en otro sitio web.

Google afirma que la mayoría de los contenidos duplicados no tienen un origen engañoso.

¿Por qué el contenido duplicado es malo para el SEO?

El contenido duplicado puede dañar tu rendimiento SEO por algunas razones.

  1. Url indeseables u hostiles en los resultados de búsqueda;
  2. Dilución de Backlinks;
  3. Quema el presupuesto de rastreo;
  4. Contenido raspado o sindicado que te supera en rango.

Exploremos esto con más profundidad.

Url indeseables u hostiles en los resultados de búsqueda

Imagine que la misma página está disponible en tres URL diferentes:

  1. domain.com/page/
  2. domain.com/page/?utm_content=buffer& utm_medium = social
  3. domain.com/category/page/

El primero debería aparecer en los resultados de búsqueda, pero Google puede equivocarse. Si eso sucede, una URL no deseada puede ocupar su lugar.

Debido a que las personas pueden estar menos inclinadas a hacer clic en una URL hostil, es posible que obtengas menos tráfico orgánico.

Dilución de backlinks

Si el mismo contenido está disponible en muchas URL, entonces cada una de esas URL puede atraer backlinks. Eso resulta en la división de» equidad de enlace » entre las URL.

Para mostrar un ejemplo de esto en la naturaleza, eche un vistazo a estas dos páginas en buffer.com:

Estas páginas son duplicados casi exactos. Y tienen 106 y 144 dominios de referencia (enlaces de sitios web únicos), respectivamente.

Antes de entrar en pánico, sepa que esto no siempre es un problema debido a cómo Google maneja el contenido duplicado.

En términos simples, cuando detectan contenido duplicado, agrupan las URL en un clúster. A continuación, «seleccionan cuál es la mejor URL para representar el clúster en los resultados de búsqueda» y «consolidan las propiedades de las URL del clúster, como la popularidad de los enlaces, a la URL representativa.»

Por lo tanto, en el caso anterior, Google debe mostrar solo una de las URL en la búsqueda orgánica y atribuir todos los dominios de referencia en el clúster (106+144) a esa URL.

Pero eso no es lo que sucede, ya que vemos que ambas URL se clasifican en Google por palabras clave similares.

En este caso, es probable que Google no esté consolidando» equidad de enlace » en una URL.

DESCARGO DE RESPONSABILIDAD

No podemos estar seguros de cómo ve Google estas dos URL, ya que no tenemos acceso a la cuenta de Google Search Console de Buffer. Puede ser que vean ambas URL como duplicadas, y una de ellas desaparecerá de la búsqueda orgánica pronto.

Quema el presupuesto de rastreo

Google encuentra contenido nuevo en tu sitio web a través del rastreo, lo que significa que siguen enlaces de páginas existentes a páginas nuevas. También vuelven a rastrear páginas que conocen de vez en cuando para ver si algo ha cambiado.

Tener contenido duplicado solo sirve para crear más trabajo para ellos. Eso puede afectar la velocidad y la frecuencia con la que rastrean tus páginas nuevas o actualizadas.

Eso es malo porque puede provocar retrasos en la indexación de páginas nuevas y el reindexado de páginas actualizadas.

Nota lateral.

Debido a que el «límite de velocidad de rastreo» de Google es más alto para los sitios web más receptivos, esto es más problemático para los sitios web lentos con asignaciones de ancho de banda más pequeñas. Sus sistemas también rastrearán las URL duplicadas con menos frecuencia.

Contenido raspado que le supera

Ocasionalmente, puede permitir que otro sitio web vuelva a publicar su contenido. Eso se conoce como sindicación. Otras veces, los sitios pueden raspar su contenido y volver a publicarlo sin permiso.

Ambos escenarios dan lugar a contenido duplicado en varios dominios, pero por lo general no causan problemas. Es solo cuando el contenido raspado o republicado comienza a superar al original en tu sitio que surgen problemas.

La buena noticia es que esta es una ocurrencia rara, pero puede suceder.

¿Google tiene una penalización por contenido duplicado?

Google ha declarado en múltiples ocasiones que no tienen una penalización por contenido duplicado.

No tenemos una penalización por contenido duplicado. No es que degrademos un sitio por tener mucho contenido duplicado.
John Mueller, Webmaster Trends Analyst Google

Vamos a poner esto a la cama de una vez por todas, la gente: There’s no such thing as a duplicate content penalty.
Susan Moskwa, Former Webmaster Trends Analyst Google

DYK Google doesn’t have a duplicate content penalty.
Gary Illyes, Webmaster Trends Analyst Google

But, this isn’t entirely true. Si tu contenido duplicado es accidental y no es el resultado de una manipulación intencional de los resultados de búsqueda o de prácticas de spam, entonces no serás penalizado. Si lo es, puede que sí.

Google confirma que aquí:

En los raros casos en que Google perciba que se puede mostrar contenido duplicado con la intención de manipular nuestras clasificaciones y engañar a nuestros usuarios, también haremos los ajustes apropiados en la indexación y clasificación de los sitios involucrados. Como resultado, la clasificación del sitio puede sufrir, o el sitio puede eliminarse por completo del índice de Google, en cuyo caso ya no aparecerá en los resultados de búsqueda.

La pregunta es, ¿qué cuenta como «intención de manipular nuestras clasificaciones y engañar a nuestros usuarios»?

Google tiene mucha información sobre eso aquí. Pero básicamente, son cosas como:

  • Crear intencionalmente varias páginas, subdominios o dominios con mucho contenido duplicado.
  • Publicar gran cantidad de contenido raspado
  • Publicar contenido de afiliados raspado de Amazon u otros sitios (y no agregar valor adicional)

Sin embargo, como se mencionó anteriormente, el contenido duplicado puede perjudicar al SEO, incluso sin penalización.

Causas comunes de contenido duplicado

No hay una sola causa de contenido duplicado. Hay muchos.

Navegación facetada / filtrada

La navegación facetada es donde los usuarios pueden filtrar y ordenar elementos de la página. Los sitios web de comercio electrónico lo usan mucho.

Este tipo de navegación añade parámetros al final de la URL.

Debido a que generalmente hay muchas combinaciones de estos filtros, la navegación por facetas a menudo da como resultado un montón de contenido duplicado o casi duplicado.

Eche un vistazo a estas dos páginas, por ejemplo:

Las URL son únicas, pero el contenido es casi idéntico.

Además, el orden de los parámetros a menudo no importa. Por ejemplo, se puede acceder a la misma página en ambas direcciones URL:

Cómo resolver este problema

La navegación por facetas es una bestia compleja. Si sospecha que esto es la causa de sus problemas de contenido duplicado, simplemente lea esto.

Parámetros de seguimiento

Las URL parametrizadas también se utilizan con fines de seguimiento. Por ejemplo, puede usar parámetros UTM para realizar un seguimiento de las visitas de una campaña de boletines en Google Analytics:

Ejemplo: example.com/page?utm_source=newsletter

Cómo resolver este problema

Canonice sus URL parametrizadas a versiones compatibles con SEO sin parámetros de seguimiento.

ID de sesión

Los ID de sesión almacenan información sobre sus visitantes. Por lo general, añaden una cadena larga a la URL como así:

Ejemplo: example.com?sessionId=jow8082345hnfn9234

How to solve this issue

Canonicalize the URLs to SEO-friendly versions.

HTTPS vs. HTTP, and non-www vs. www

Most websites are accessible at one of these four variations:

  • https://www.example.com (HTTPS, www)
  • https://example.com (HTTPS, non-www)
  • http://www.example.com (HTTP, www)
  • http://example.com (HTTP, non-www)

If you’re using HTTPS, it’ll be one of the first two. Ya sea la versión www o no www es su elección.

Sin embargo, si no configura correctamente su servidor, su sitio será accesible en dos o más de estas variaciones. Eso no es bueno y puede generar problemas de contenido duplicado.

Cómo resolver este problema

Use redireccionamientos para asegurarse de que su sitio web solo sea accesible en una ubicación.

URL sensibles a mayúsculas y minúsculas

Google ve las URL como sensibles a mayúsculas y minúsculas.

Las URL distinguen entre mayúsculas y minúsculas, pero elige el caso que quieras.- John John John (@JohnMu) 22 de junio de 2017

Nota lateral.

Este no parece ser el caso de Bing, que trata todas las URL como minúsculas.

eso significa Que estas tres direcciones Url son todas diferentes:

  • example.com/page
  • example.com/PAGE
  • example.com/pAgE
de Cómo resolver este problema

Ser coherente con los enlaces internos (es decir, no internamente enlace a varias versiones de Url). Si eso no resuelve las cosas, siempre puedes canonizar o redirigir.

Trailing barras vs

Google trata las URL con y sin barras finales como únicas. Esto significa que estas dos URL son únicas a los ojos de Google:

  • example.com/page/
  • example.com/page

Si se puede acceder a tu contenido en ambas direcciones URL, esto puede generar problemas de contenido duplicado.

Para comprobar si se trata de un problema, intente cargar una página con y sin la barra diagonal final. Idealmente, solo se cargará una versión. El otro lo redirigirá.

Por ejemplo, si intentas cargar este post sin la barra diagonal, se redirigirá a la URL con la barra diagonal.

Google afirma que este comportamiento es ideal.

Si solo se puede devolver una versión (es decir, la otra redirige a ella), ¡es genial! Este comportamiento es beneficioso porque reduce el contenido duplicado.

Cómo resolver este problema

Redirige la versión no deseada (por ejemplo, sin barra diagonal) a la versión deseada (por ejemplo, con barra diagonal). También debes asegurarte de mantener la coherencia con los enlaces internos. No vincule a versiones con barras al final a veces, y sin otras veces. Elige uno y sigue con él.

URL para imprimir

Las versiones para imprimir tienen el mismo contenido que el original. Es solo la URL la que difiere.

  • example.com/page
  • example.com/print/page
de Cómo resolver este problema

Normalizar la versión impresa del original.

Mobile-friendly URLs

Mobile-friendly URLs, como imprimir direcciones Url amigables, son duplicados.

  • example.com/page
  • m.ejemplo.com / page
Cómo resolver este problema

Canonice la versión compatible con dispositivos móviles a la original. Usa rel = «alternate» para decirle a Google que la URL compatible con dispositivos móviles es una versión alternativa del contenido de escritorio.

Lectura recomendada: Las anotaciones para URL de escritorio y móviles

URL de AMP

Las páginas móviles aceleradas (AMP) son duplicadas.

  • example.com/page
  • example.com/amp/page
de Cómo resolver este problema

Normalizar las APLICACIONES de la versión para la no-APLICACIONES de la versión. Usa rel="amphtml" para decirle a Google que la URL de AMP es una versión alternativa del contenido que no es de AMP.

Si solo tienes contenido AMP, utiliza una etiqueta canónica autorreferencial.

Lectura recomendada: Haz que tus páginas sean visibles-amp.dev

Páginas de etiquetas y categorías

La mayoría de los CMS crean páginas de etiquetas dedicadas cuando usas etiquetas.

Por ejemplo, si tienes un artículo sobre proteína de suero orgánica y usas» proteína en polvo «y» suero » como etiquetas, terminarás con dos páginas de etiquetas como estas:

Eso no siempre causa contenido duplicado en sí mismo, pero puede hacerlo.

Este es el caso aquí porque solo hay una página en el sitio con esas dos etiquetas, por lo que cada página de etiqueta es idéntica.

de Cómo resolver este problema

Dos opciones:

  1. no use las etiquetas. La mayoría de las veces, tienen poco o ningún valor de todos modos.
  2. No indexar tus páginas de etiquetas. Esto no resuelve el problema del presupuesto de rastreo, ya que Google seguirá perdiendo tiempo rastreando estas páginas.

Tenga en cuenta que las páginas de categorías pueden causar problemas similares a las páginas de etiquetas. Ejemplo de ello:

Ambas páginas son casi idénticas porque no hay productos en ninguna de las categorías. Así que todo lo que nos queda es la copia de plantilla repetitiva.

Resuelva esto utilizando un número razonable de categorías en su sitio, o incluso sin incluir las páginas de sus categorías.

Url de imágenes de adjuntos

Muchos CMS crean páginas dedicadas para archivos adjuntos de imágenes. Estas páginas generalmente no muestran nada más que la imagen y alguna copia repetitiva.

Debido a que esta copia es la misma en todas las páginas generadas automáticamente, conduce a contenido duplicado.

Cómo resolver este problema

Deshabilitar páginas dedicadas para imágenes en su CMS. En WordPress, puedes hacer esto usando un plugin como Yoast.

Comentarios paginados

WordPress y otros CMS permiten comentarios paginados. Esto causa contenido duplicado, ya que crea varias versiones de las mismas URL.

  • example.com/post/
  • example.com/post/comment-page-2
  • example.com/post/comment-page-3
de Cómo resolver este problema

apague la paginación de comentarios o noindex su paginado páginas utilizando un plugin como el de Yoast.

Localización

Si está sirviendo contenido similar a personas en diferentes lugares que hablan el mismo idioma, eso puede causar contenido duplicado.

Por ejemplo, es posible que tengas diferentes versiones de tu sitio para personas en EE.UU., Reino Unido y Australia. Debido a que es probable que solo haya diferencias menores entre el contenido servido a cada lugar (por ejemplo, precios en dólares versus libras esterlinas), las versiones estarán casi duplicadas.

Nota lateral.

Según John Mueller, el contenido traducido no es contenido duplicado.

Cómo resolver este problema

Use etiquetas hreflang para informar a los motores de búsqueda sobre la relación entre las variaciones.

Páginas de resultados de búsqueda

Muchos sitios web tienen cuadros de búsqueda. El uso de estos normalmente te lleva a una URL de búsqueda parametrizada.

Ejemplo: example.com?q=término de búsqueda

El ex jefe de Webspam de Google, Matt Cutts, declaró que:

Normalmente, los resultados de búsqueda en la web no agregan valor a los usuarios, y dado que nuestro objetivo principal es proporcionar los mejores resultados de búsqueda posibles, generalmente excluimos los resultados de búsqueda de nuestro índice de búsqueda en la web. (No todas las URL que contienen cosas como «/results» o «/search» son resultados de búsqueda, por supuesto.)
matt Cutts, Ex jefe de Webspam Google

Cómo resolver este problema

Use una meta etiqueta de robots para eliminar páginas de búsqueda de Google indexar o bloquear el acceso a las páginas de resultados de búsqueda en robots.txt. Abstenerse de enlazar internamente a páginas de resultados de búsqueda.

Entorno de ensayo

Un entorno de ensayo es una versión duplicada o casi duplicada de su sitio que se utiliza con fines de prueba.

Por ejemplo, imagine que desea instalar un nuevo complemento o cambiar algún código en su sitio web. Es posible que no desee empujar eso directamente a un sitio en vivo con cientos de miles de visitantes diarios. El riesgo de catástrofe es demasiado alto. La solución es probar primero los cambios en un entorno de ensayo.

Los entornos de preparación se convierten en un problema de SEO cuando Google los indexa porque da como resultado contenido duplicado.

Cómo resolver este problema

Proteja su entorno de ensayo mediante autenticación HTTP, listas blancas de IP o acceso VPN. Si ya está indexado, use una directiva noindex de robots para eliminarlo.

Cómo comprobar si hay contenido duplicado en tu sitio

Dirígete a la Auditoría del sitio de Ahrefs e inicia un rastreo.

una Vez hecho esto, dirígete a la calidad del Contenido del informe.

Busque grupos de duplicados y casi duplica sin canónica. Estos están resaltados en naranja.

Haga clic en cualquiera de estos clústeres para ver las páginas afectadas.

Investigue el motivo del contenido duplicado y, a continuación, tome las medidas adecuadas.

Tenga en cuenta que estos no siempre serán problemas que deban rectificarse, especialmente en el caso de casi duplicados.

¿No es un usuario de Ahrefs?

Busque estas advertencias relacionadas con contenido duplicado en la Consola de búsqueda de Google:

  • Duplicado sin duplicado canónico seleccionado por el usuario
  • , Google eligió un DUPLICADO canónico diferente al del usuario
  • URL enviada no seleccionada como canónico

Obtenga más información sobre cómo manejar estas advertencias aquí.

Para ver cómo Google trata una URL específica, usa la herramienta de inspección de URL.

También puede buscar etiquetas de título duplicadas, meta descripciones y H1s en el informe de etiquetas HTML.

Los duplicados incorrectos son lo que estás buscando. Estas son páginas con metaetiquetas duplicadas pero diferentes canónicos.

Selecciónelos haciendo clic en el botón» Duplicados defectuosos » en etiquetas HTML & contenido.

haga Clic en cualquiera de las barras amarillas para ver las paginas afectadas.

Las páginas con títulos duplicados, meta descripciones o H1 son a menudo muy similares.

Por ejemplo, estos dos tienen la misma etiqueta de título y el contenido es casi idéntico porque el producto es el mismo. La única diferencia es que una de las páginas es para un paquete de 3 lemas de iluminación instantánea, mientras que la otra es para una sola.

Google afirma que debe minimizar el contenido similar como este:

Si tiene muchas páginas que son similares, considere expandir cada página o consolidar las páginas en una sola.

Sin embargo, es poco probable que un pequeño número de páginas similares sea un gran problema.

Cómo comprobar si hay problemas de contenido duplicado en la web

El raspado y la sindicación de contenido también pueden generar problemas de contenido duplicado. Pero por lo general, solo es un problema si ves versiones raspadas de tu contenido que te superan en rango.

¿Eso sucede? Sí, pero a menudo es más un problema para sitios web nuevos o débiles. ¿Por qué? Porque los sitios que raspan tu contenido a menudo tienen más autoridad. Eso a veces» engaña » a Google para que piense que el suyo es el original.

Si tienes un sitio web pequeño, a menudo puedes encontrar contenido raspado buscando en Google un fragmento de texto de tu página entre comillas.

Para sitios más grandes, deberá usar una herramienta automatizada como Copyscape. Esto busca en la web otras ocurrencias del contenido de su(s) página (s).

Sea cual sea el método que utilice, la mayoría de los resultados serán de sitios de spam y de baja calidad.

En términos generales, no hay de qué preocuparse. Sin embargo, si ves que un sitio web legítimo raspó tu contenido y te preocupa que pueda estar robando tu tráfico, introduce la URL en el Explorador de sitios de Ahrefs para ver una estimación orgánica del tráfico.

Si está recibiendo más tráfico que tu página, entonces puede haber un problema.

En este caso, usted tiene tres opciones:

  1. Llegar y solicitar que se retire el contenido.
  2. Contacta y solicita que agreguen un enlace canónico al original en tu sitio.
  3. Enviar una solicitud de eliminación de DMCA a través de Google.

Si intencionalmente sindicas contenido a otros sitios web, vale la pena pedirles que agreguen un enlace canónico al original. Eso eliminará el riesgo de problemas de contenido duplicado.

republicar contenido en su propio sitio?

Si vas a republicar contenido de otras personas en tu sitio, hay dos formas de evitar problemas de contenido duplicado:

  1. Canonizar de nuevo al original.
  2. Noindex la página.

Pensamientos finales

No te estreses demasiado por el contenido duplicado. Por lo general, es un problema mucho menor de lo que se cree.

Si tienes un puñado de páginas duplicadas o casi duplicadas, es poco probable que haya un gran problema. Lo mismo es cierto cuando se cita contenido de otro sitio web u otras páginas de su sitio. Pequeñas cantidades de contenido duplicado o repetitivo deberían estar bien. Google tiene sistemas para lidiar con tales cosas.

Lo que debe buscar son contratiempos técnicos de SEO que conducen a la generación de cientos o miles de páginas de contenido duplicado, como la implementación incorrecta de la navegación facetada en los sitios de comercio electrónico.

Estos pueden causar estragos en tu presupuesto de rastreo, entre otras cosas.



Deja una respuesta

Tu dirección de correo electrónico no será publicada.