¿Cómo encontrar y corregir problemas de contenido duplicado?

En este episodio hablamos de un tema clave para el SEO, el contenido duplicado, te explicamos en detalle qué es, cómo afecta al SEO, cómo corregirlo y las herramientas que usamos para auditarlo.

¿Qué es el contenido duplicado?

El contenido duplicado es contenido idéntico (o muy parecido) entre dos páginas de un mismo sitio o de distintos sitios.

Si bien hoy en día se conoce que Google no penaliza a los sitios por esto, aún así puede, por distintos motivos, tener efectos negativos en tu estrategia de SEO.

episodio 6 contenido duplicado

¿Por qué el contenido duplicado afecta negativamente al SEO?

El problema del contenido duplicado de cara al SEO, es que, básicamente, los motores de búsqueda ante la existencia de dos o más páginas iguales no saben cuál posicionar. Si hay dos páginas que son iguales, ¿cuál gana?

Entonces, el problema es que estas páginas con contenido duplicado terminan compitiendo entre sí, lo cual quiere decir que no termina posicionando ninguna o, si alguna lo hace, termina posicionando mejor solo una de ellas, y esto quiere decir que podría posicionarse mucho mejor si no tuviera su contraparte duplicada.

En sitios de gran tamaño, el contenido duplicado puede ser perjudicial porque afecta al Crawl Budget. No es lo mismo rastrear 30 mil o 40 mil URLs, que rastrear 100 mil (que es lo que puede suceder en definitiva si tenemos problemas de duplicidad del contenido).

Otro inconveniente es la pérdida de Link Equity. Si tenemos dos paginas iguales con el mismo contenido coexistiendo en el mismo sitio, y recibimos links internos o externos hacia ese contenido, no podemos controlar (sobre todo de links externos) hacia donde nos enlazan. Aquellas personas que realizan links externos, desconocen cuál de las páginas deben enlazar, por lo que pueden enlazar cualquiera de las dos. Entonces la fuerza de los enlaces se diluye.

Si una página con el contenido original tiene 5 enlaces y la duplicada tiene otros 4 enlaces, entonces tenemos el enlazado distribuido en dos páginas diferentes en lugar de tener 9 enlaces a una misma página, de esta manera termina perjudicando el posicionamiento del sitio.

Pero hay un punto importante que hay que desmitificar: el contenido duplicado NO penaliza. Perjudica el posicionamiento, pero no es penalizado por los buscadores. Solo se penaliza si se detecta que hay una copia exacta o casi exacta de otro sitio. Para profundizar más sobre este tema podemos observar los lineamientos de Google para despejar dudas.

Problemas más comunes que causan contenido duplicado

Ya sabes de qué manera puede afectar a tu estrategia SEO, ahora te contamos cuáles son los errores más recurrentes relacionados al contenido duplicado:

Contenido duplicado
Dublicate content word concept on cubes

Coexistencia de versiones navegables

En este caso hay dos tipos de problemas:

  1. Sitios con versión HTTPS y HTTP. Este problema de coexistencia de versiones navegables se da cuando podemos acceder al sitio con el protocolo de seguridad y sin el protocolo de seguridad (es decir la versión HTTPS y la HTTP respectivamente).
    No deberían coexistir estas dos versiones. La solución ante este tipo de problemas es que, cuando tenemos implementado el protocolo de seguridad debemos asegurar que los usuarios que ingresen a la versión HTTP sean redireccionados automáticamente a la versión HTTPS.
  2. Sitios con www y sin www. El segundo tipo de problema de coexistencia de versiones navegables se da entre los sitios con y sin www. No hay una versión mejor que otra, pero sí debería haber una única. En este caso se puede optar por cualquiera de las 2, solo hay que asegurarse que haya una sola versión navegable. Si optas por la versión sin www, la versión con www debería redirigir de forma inmediata a la versión sin, y viceversa.
    ¿Cómo se puede corregir esto? En general se puede resolver de forma fácil desde el hosting. Existen maneras de resolverlo de modo manual pero la más fácil por lejos es hablar con el hosting y que ellos hagan las redirecciones correspondientes.

URLs con y sin barra final

Para Google esto no es lo mismo y vas a tener contenido duplicado con la barra final y sin la barra final. No debe haber dos versiones conviviendo dentro del sitio. Para solucionar este problema, debemos definir única opción y redirigir hacia esa versión.

Contenido duplicado por parámetros

Es común que en un sitio web se agreguen parámetros al final de la URL, ya sea porque queremos rastrear un determinado evento o versión de una URL. Lo que debemos hacer con este contenido es canonicalizarlo hacia la URL principal.

Contenido duplicado por taxonomías

Este problema se genera cuando tenemos páginas iguales (o muy similares) generadas por categorías o etiquetas que duplican el contenido del sitio. Idealmente, generemos contenido único y optimizado para cada una de las categorías y, a menos que por algún motivo lo necesitemos, mantengamos las etiquetas como “noindex”.

Problemas por mayúsculas

Las URLs para los motores de búsqueda son sensibles a las mayúsculas y las minúsculas. Una misma URL con variaciones de minúscula y mayúscula, ya se corresponde a dos URLs diferentes. Como regla general se deberán poner las URLs en minúscula para evitar caer en este error. Y si tienes alguna URL que está ya indexada (o no indexada también) con mayúsculas, se debería redirigir a su versión en minúscula.

Páginas orientadas a distintos países en el mismo idioma

Situación típica de los sitios de e-commerce que ofrecen sus productos en varios países y se generan páginas iguales, cambiando únicamente la moneda (por ejemplo España: Euros y Argentina: Pesos). Entonces, se puede dar este problema cuando la página, o páginas, no tienen la etiqueta hreflang incluida para indicarle al buscador qué página tiene que mostrar según el idioma y/o el país de donde se realiza la búsqueda.

La solución en este caso es sencilla: debemos colocar la etiqueta hreflang para indicarle a Google en qué caso debe mostrar cada página según el país de origen y el idioma de la búsqueda.

Contenido duplicado por búsquedas internas

Se da cuando tenemos un buscador dentro del sitio. Las búsquedas que realizan los usuarios generan nuevas páginas y si esas páginas están configuradas como indexables, se genera una infinidad de nuevas URLs con el mismo contenido que la página principal.

La solución es desindexar las páginas generadas por los buscadores internos y bloquearlas por robots.txt para que no las rastree el motor de búsqueda.

Corregir problemas de contenido duplicado dentro del sitio

Claro que es posible que tengas problemas de contenido duplicado sin que siquiera lo sepas. Por eso es importante que realices un análisis detallado de tu sitio, de modo que puedas corregir a tiempo esta situación. Para esto hay dos herramientas que puedes utilizar.

Imagen copyright - Contenido duplicado

Herramientas para corregir problemas de contenido duplicado

Las herramientas recomendadas para buscar problemas de contenido duplicado y corregirlo son:

Google Search Console

Esta herramienta gratuita tiene en el índice de cobertura 3 reportes vinculados a los problemas de contenido duplicado.

  1. El primer reporte es el que dice “Páginas duplicadas. El usuario no ha indicado ninguna versión canonical”. Justamente cuando no indicamos una versión canonical de una página y Google entiende que tiene contenido duplicado. La forma de corregirlo es agregarle la etiqueta canonical a la página correspondiente.
  2. “Duplicada. Google ha elegido una versión canonical diferente a la del usuario”. Acá hemos definido una URL canonical, pero Google elige otra URL que responde mejor al contenido desarrollado en esa página. Debemos ver si la que eligió Google es mejor a la que definimos nosotros (Spoiler: generalmente Google tiene razón). Ahí deberíamos agregar nosotros manualmente la etiqueta canonical que Google eligió por defecto.
  3. El último reporte es el que indica las “Páginas duplicadas. La URL enviada no se ha  seleccionado como canonical”. La diferencia con el primer punto es que en este caso “enviada” indica que la URL está ingresada en el sitemap y ese sitemap está cargado en Search Console. Acá le estamos diciendo a Google que indexe una pagina, pero no definimos la etiqueta canonical y google las considera duplicadas de otras páginas y asigna una canonical por su cuenta. Acá debemos colocar manualmente la etiqueta canonical a la pagina que debería ser indexada (la que sugiere el reporte de Search Console).

Screaming Frog

Esta plataforma descargable cuenta con un reporte de contenido duplicado. Lo que podemos hacer es ver cada una de las páginas que tiene su contraparte duplicada y tomar la decisión correspondiente, es decir, si el contenido duplicado debe ser eliminado, indexado, canonicalizado, etc.

Paso previo al rastreo: Para ver el reporte debemos ir a Configuración > Contenido > Duplicados > y habilitar el contenido duplicado. Si bien el porcentaje es configurable, lo recomendable es un 90%. Es decir que si hay un 90% o más de contenido duplicado lo va a colocar en el reporte.

Luego exportando el reporte, podemos ver dos informes que se llaman: Near Duplicates y Exact Duplicates. Bajamos esos dos reportes y analizamos el contenido que la herramienta nos muestra como duplicado y realizamos las acciones que mencionamos anteriormente.

Corregir problemas de contenido duplicado con otros sitios

Para páginas pequeñas podemos usar la típica técnica de agarrar una frase, ponerla entre comillas en Google y ver si hay algún resultado que tenga el mismo contenido. Para webs muy grandes hay algunas herramientas que hacen esto de manera automática como Copyscape.

Normalmente si encuentras contenido duplicado de otro sitio (es decir, que se lo copiaron a ustedes) no va a generar mayor problema, difícilmente Google lo muestre en la primera página de resultados.

Pero, si el contenido que les fue copiado llegara a posicionar por encima, lo que se podría hacer es hacer un DMCA (Digital Millennium Copyright Act) takedown, que es básicamente la ley que regula los derechos de autor. Esto se realiza mediante la herramienta que tiene Google para denunciar el contenido duplicado. Simplemente se carga ahí la URL, se realiza la solicitud y tenemos que esperar que Google actúa y haga la remoción del contenido duplicado.