¿Cómo encontrar y corregir errores en el archivo Robots.txt?

20 septiembre, 2021

El archivo robots.txt es un elemento indispensable en el SEO. Conoce cómo identificar y usar correctamente este archivo para que los motores de búsqueda rastreen tu sitio correctamente.

¿Qué es el archivo robots.txt?

Es un archivo robots.txt se utiliza para indicarle a los motores de búsqueda dónde pueden y dónde no pueden entrar. En definitiva, el archivo robots.txt permite definir las preferencias de rastreo que se desea tener en el sitio web.

¿Por qué es importante el archivo robots.txt para el SEO?

El archivo robots.txt es importante para el SEO por varios motivos. En primer lugar, podemos prevenir el contenido duplicado del sitio como, por ejemplo, cuando tenemos problemas de parámetros. Robots.txt nos permite bloquear el rastreo a todas las URLs con parámetros que se generan automáticamente.

Por otro lado nos permite definir las preferencias de rastreo para no malgastar el crawl budget del sitio, asegurándonos que las URLs que queremos posicionar serán las rastreadas y no otras. El rastreo de los motores de búsqueda no es ilimitado, éstos rastrean una cierta cantidad de URLs de nuestro sitio en función de la importancia y el tamaño del mismo.

Entonces será conveniente que las URLs que rastreen los bots, sean aquellas relevantes para nuestro proyecto y no cualquier URL que esté disponible y que desperdicie el crawl budget.

Bots principales

Como en el archivo robots.txt lo que hacemos es decirle a dónde pueden o no ingresar a los bots, se pueden declarar indicaciones específicas para cada motor de búsqueda. Estos son los principales bots que se pueden declarar en el archivo robots.txt:

Googlebot (Google)
Bingbot (Bing)
Slurp (Yahoo)
Baiduspider (Baidu)

Hay más de cien bots, ya que cada motor de búsqueda tiene el suyo, pero esos son los cuatro principales.

Robots.txt permite declarar directivas de manera específica o general para los distintos bots. Por ejemplo, si queremos declarar directivas para un bot en particular, Googlebot por ejemplo, lo hacemos escribiendo:

User-agent: Googlebot
[directiva 1]
[directiva 2]
[directiva …]

Ahora, si queremos declarar directivas para todos los bots al mismo tiempo, podemos hacerlo utilizando un comodín (*). Esto lo hacemos del siguiente modo:

User-agent: *
[directiva 1]
[directiva 2]
[directiva …]

¿Cómo es el archivo robots.txt y dónde se encuentra?

El robots.txt lo podemos encontrar en la URL https://www.domio/robots.txt, allí podrán ver cómo lo tienen configurado. Se trata de un archivo común, plano, justamente con extensión “.txt”, en donde podemos declarar las directivas.

Para crear el archivo, se pueden hacer desde en un archivo común (.txt) o con un generador de robots.txt. Esta última opción es la más recomendable para minimizar cualquier tipo de error que se pueda cometer.

Si usan WordPress, los principales plugins de SEO, como Rank Math y Yoast, ya tienen la posibilidad de configurar el archivo de robots.txt desde allí de manera simple.

Siempre lo recomendable es subir el archivo robots.txt a la carpeta raíz para que éste impacte en todo el dominio, por ejemplo: https://www.domio/robots.txt. Si esto lo quieren aplicar únicamente a un subdominio, sería el mismo procedimiento y quedaría de la siguiente forma: https://www.subdomio/robots.txt.

Directivas de Robots.txt

Las directivas son las reglas que queremos que sigan los bots de los motores de búsqueda. Estas son las 3 directivas admitidas actualmente por los buscadores:

Disallow

Se utiliza esta directiva para indicarle a los motores de búsqueda a qué páginas no pueden entrar. Es decir que le restringimos las rutas (o path) a los bots. Es importante aclarar que, a menos que nosotros declaremos lo contrario, las directivas siempre se aplican a rutas, no a páginas específicas.

Si nosotros tenemos un e-commerce que vende ropa y queremos que no nos rastree una determinada categoría, por ejemplo la categoría “zapatos”, declararemos

User-agent: *
Disallow: /zapatos/

Lo que sucederá entonces es que va a restringir a esa URL y cualquier página que dependa de esa categoría, es decir que tampoco rastreará: “/zapatos/cuero” o “zapatos/gamuza”.

Allow

Esta directiva permite que los motores de búsqueda rastreen una determinada ruta, cuando ha sido previamente bloqueada (con “Disallow”) una categoría de nivel superior. Por ejemplo:

User-agent: *
Disallow: /zapatos/
Allow: /zapatos/cuero

En este caso el bot no rastreará las URLs: /zapatos/, /zapatos/gamuza, /zapatos/lona, pero sí lo hará con /zapatos/cuero.

¿Qué pasa cuando declaramos directivas contradictorias?

Si declaramos directivas contradictorias (que no debe ocurrir), por ejemplo:

User-agent: *
Disallow: /zapatos/
Allow: /zapatos

En el caso que se cometa este error, Google toma como directiva ganadora es la que tiene más caracteres, que en este caso sería la que tiene la barra final, /zapatos/ (que tiene 9 carateres vs. /zapatos que tiene 8).

Sitemap

Por último, esta directiva se utiliza para declarar la ubicación específica del sitemap de sitio para que los motores de búsqueda puedan localizarlo fácilmente. Para eso, declaramos dentro del archivo robot.txt la ubicación de nuestro sitemap, de la siguiente forma:

Sitemap: https://www.dominio.com/sitemap.xml

Nota: cambia “dominio” por el dominio real de tu sitio.

Errores típicos del archivo robots.txt y cómo corregirlos

Mencionamos los 5 errores más comunes relacionados con robot.txt que solemos encontrar en los sitios web:

1) Declarar “disallow: /” para todos los bots

Se está indicando al bot que no puede entrar a ningún lado. Ejemplo del error:

User-agent: *
Disallow: /

Acá la solución es remover esa directiva y ser específico en la directiva que queremos indicarle al bot, es decir bloquear un path específico.

2) No usar la barra final para restringir el acceso a carpetas de idiomas

Por ejemplo, si tenemos un sitio en inglés, alemán y español, y por algún motivo no queremos que entre el bot a nuestra versión en español y lo declaramos con:

User-agent: *
Disallow: /es

Lo que estamos indicando con esta directiva (Disallow: /es) es que no rastree cualquier ruta que comience con “/es”. De esta forma estaríamos bloqueado las páginas:

/especial
/escuela
/estudio

Entonces, si nuestra intención es que no no se rastree la versión en español, debemos colocar la birra final (/) para evitar este problema, sería así:

User-agent: *
Disallow: /es/

De esta forma estamos bloqueado URLs, del tipo: /es/zapatos.

3) Poner muchas directivas en la misma línea

Las directivas se declaran en líneas diferentes (es decir que solo se coloca una por renglón y si queremos agregar otra, debemos presionar “enter”). Si nosotros ponemos:

User-agent: *
Disallow: /zapatos/ Disallow: /camperas”

Lo más probable es que el motor de búsqueda ignore la directiva.

La forma correcta de declararlo sería la siguiente:

User-agent: *
Disallow: /zapatos/
Disallow: /camperas/

4) Repetir los bots en las directivas

Por ejemplo, en el caso de que quisiéramos restringir un único bot, como Googlebot, y le queremos declarar varias directivas, debemos declarar el bot una sola vez. En lugar de ponerlo de esta forma:

User-agent: Googlebot
Disallow: /zapatos/
User-agent: Googlebot
Disallow: /camperas/

Deberíamos declararlo así:

User-agent: Googlebot
Disallow: /zapatos/
Disallow: /camperas/

5) Repetir las directivas en lugar de usar comodines

Los comodines, asteriscos, se utilizan para evitar repetir directivas cuando éstas están en la misma ruta. Por ejemplo, si quisiéramos bloquear el acceso a parámetros, en lugar de poner:

User-agent: *
Disallow: /ropa/zapatos?
Disallow: /ropa/camperas?
Disallow: /ropa/pantalones?

Podríamos poner:

User-agent: *
Disallow: /ropa/*?

De esta manera nos ahorramos tener que repetir todas las subcatgorías.

Conclusión

Los robot.txt son un tema crítico para el SEO porque si llega a estar mal configurado puede traer problemas muy serios. Para evitar eso es importante tener en cuenta los conceptos que repasamos en este artículo. Dedicarle tiempo a la configuración de Robots.txt y hacerlo de forma ordenada nos ayudará a tener un SEO prolijo para los motores de búsqueda.

Si tienes te gustó este post o tienes alguna pregunta, puedes escribirme por Twitter.