El Robots.txt es un archivo de texto que contiene instrucciones para los bots de los buscadores, de esta manera se indica que páginas pueden rastrear y cuales no. Estas indicaciones se especifican “dando permiso” o “desautorizando” el rastreo de los robots.
Este es el aspecto del robot.txt de una web:
Aunque inicialmente parecen complicados, presentan un lenguaje informático bastante sencillo. A lo largo de este artículo veremos todo lo relacionado con él para que puedas comprender y utilizar con eficacia este archivo.
Importancia del archivo robots.txt
Ayuda a gestionar las actividades de los rastreadores web para que no hagan trabajo en vano y no indexen páginas que no nos interesan que sean vistas por los usuarios.
Los motivos para tenerlo bien actualizado son las siguientes:
- Optimizar el crawl Budget. El “presupuesto de rastreo” es el tiempo que asigna Google para rastrear una página web. Este, se ve influido por la autoridad, accesibilidad, calidad y velocidad del sitio web. Este presupuesto es importante, ya que, si el número de páginas indexadas es demasiado amplio y el robots.txt no está optimizado, habrá páginas que se queden sin indexar, y por lo tanto, sin posicionarse.
- Bloquear las páginas duplicadas. No todas las páginas de un sitio web tienen que indexarse. Un claro ejemplo de esto son aquellas páginas de los sitios de pruebas o las páginas duplicadas.
Funcionamiento de un archivo robots.txt
Estos archivos indican a los motores de búsqueda que Urls pueden rastrear y cuáles no. Por lo tanto, tienen dos objetivos: rastrear la web y indexar el contenido.
Lo primero que hará un bot al llegar a un sitio web es buscar un archivo robots.txt. Si lo encuentra, lo leerá antes de hacer cualquier otra cosa, de ahí la importancia en tenerlo y además, que se encuentre actualizado y optimizado.
La sintaxis es bastante sencilla:
- Asignas reglas a los bots utilizando “User-agent”.
- Para asignar comandos a todos los user-agent utilizamos el *.
- El comando sitemap. Indica a los motores de búsqueda donde se encuentra.
Estas son las reglas básicas que tienes que conocer para la optimización del archivo.
Ubicación de un archivo robots.txt
Este archivo se encuentra alojado en el servidor. Se puede localizar escribiendo la URL completa de la página web y añadiendo /robots.txt: https://www.conectasoftware.com/robots.txt
Este se debe encontrar siempre en la raíz del dominio para que los rastreadores asuman que tienes el archivo.
Creación del archivo
Se puede crear de manera sencilla a través de una herramienta generadora de archivos robots txt.
- Crea un archivo y nómbralo. Abre un archivo con cualquier editor de texto y nómbralo robots.txt.
- Añade comandos. Añade los comandos vistos anteriormente para que los rastreadores puedan detectar las directrices.
- Sube el archivo. Súbelo a tu web para que este a disposición de los rastreadores. Deberás acudir a tu hosting para realizar este paso.
- Testea tu robots.txt. Verifica si tu archivo es accesible públicamente. A través de Google Search Console podrás comprobar el marcado robots.txt.
Para cada subdominio se deberá crear un archivo robots.txt distinto, ya que, estos solo controlan el comportamiento de rastreo en el subdominio donde se encuentra alojado.
Ahora que ya sabes como puedes crear y optimizar tu web para que los bots la puedan rastrear, ¡llévala al siguiente nivel!