Aprende cómo Crear y Configurar el Archivo Robots.txt
Aprender cómo Crear y Configurar el Archivo Robots.txt te ayudará a indicar a las arañas de los buscadores que partes de tu web rastrear.
Las “arañas” no son más que los robots de búsqueda o bots (crawler) que rastrea todo tipo de páginas web con el fin de buscar en cada una de estas una característica específica de acuerdo al tipo de bot relacionado. Los bots pueden rastrear desde contenido nuevo hasta cambios que hayan sido hechos en las estructuras de los enlaces. Pero en algunas ocasiones hay ciertos tipos de cambios que se quieren ocultar del rastreo de estos bots. Y es en estos casos cuando el archivo txt es de utilidad.
Pero antes de ir directo a configurarlo, lo ideal es conocer un poco más acerca de qué es y para qué sirve el archivo robots.txt.
Qué es y para que sirve?
El archivo robots.txt es en realidad un archivo con características de texto plano que puede crearse con mucha facilidad usando el bloc de notas bajo el nombre de robots.txt.
Toda la información que es leída por las arañas de los buscadores y que permite rastrear partes de una web, se encuentran dentro de estos archivos.
Gracias a este tipo de archivos los robots saben que páginas rastrear o indexar. Además, este archivo contiene la información sobre qué zonas de la web están permitidas y cuáles son aquellas en las que no deben pasar.
Entre las funcionalidades que cumple el archivo robots.txt tenemos:
- Indica el directorio del mapa de tu sistema facilitando la indexación web.
- Evita que puedan rastrearse URLs eliminadas que den error 404.
- Bloquea la entrada a bots específicos a tu web y les impide que puedan acceder a tus archivos.
- Deniega a los buscadores que puedan acceder a algunos directorios y páginas de tu sitio.
- Reduce la cantidad de recursos consumidos por el servidor.
Una información vital a tener en cuenta sobre esta clase de archivos es que algunos bots maliciosos e ilegales pueden pasárselo por alto e intentar acceder a la información. Después de todo, es un archivo público que puedes verlo reflejado en otras webs colocando al final del dominio /robots.tx. Así que lo más recomendable es no usarlo para ocultar a los buscadores algún tipo de información privada, ya que existe el riesgo que alguien que entre a tu archivo pueda ver lo que estás intentando ocultar.
Crear en WordPress el archivo robots.txt
Para crear en WordPress el archivo robots.txt solo tienes que abrir un archivo de bloc de notas y guardarlo bajo el nombre de robots.txt. Tras esto simplemente debes subirlo usando el cPanel o Filezilla al directorio raíz del dominio.
Por lo general, esta clase de archivo ya viene creador, pero tra opción para hacerlo es a través del plugin Yoast SEO. Tienes que ir a la opción de “Herramientas”, luego haz clic en “Editor de archivos”, y desde allí podrás crear o modificar robots.txt.
Pasos para configurar archivo robots.txt
No existe una configuración general perfecta de archivo robots.txt para todas las páginas. En realidad cada web usará este archivo para bloquear lo que más le convenga. Sin embargo, con descargar el archivo robots.txt estándar para WordPress y modificarlo en base a lo siguiente:
En #Primer bloque quitamos la posibilidad de rastreo de carpetas, fedd, etiquetas, comentarios, búsquedas y más.
Dentro de este Primer bloque hacemos las especificaciones para permitir que todos los User-agent: * (bots) puedan acceder al AJAX, mientras al mismo tiempo se deniega la posibilidad a los directorios que no queremos que sean rastreados como por ejemplo, páginas de búsqueda o de tipo interno de WordPress. En este bloque encontrarás para su modificación:
- User-agent: *
- Allow: /wp-admin/admin-ajax.php
- Disallow: /wp-login
- Disallow: /*/feed/
- Disallow: /*/trackback/
- Disallow: /wp-admin
- Disallow: /*/attachment/
- Disallow: *?replytocom
- Disallow: /author/
- Disallow: /tag/*/page/
- Disallow: /comments/
- Disallow: /tag/*/feed/
- Disallow: /xmlrpc.php
- Disallow: /*/*/*/feed.xml
- Disallow: /*?s=
- Disallow: /?attachment_id*
- Disallow: /search
En el acceso al #Segundo bloque podemos desbloquear recursos CCS y JS con:
- #Segundo Bloque
- User-Agent: Googlebot
- Allow: /*.css$
- Allow: /*.js$
Y finalmente, al llegar al #Tecer Bloque podemos agregar la URL del archivo de mapa de sistema XML con el fin de guiar a los bots hacia el contenido que deben rastrear.
Tienes la posibilidad de añadir más de una opción al ir a:
- Sitemap: http://www.tudominio.com/sitemap.xml
Si tienes dudas sobre poseer un sistemap o no dentro de tu sistema y la URL que le corresponde, ve a Rastreo – Sitemaps de Google Console. Y si por casualidad no posees un sistemap, con el plugin Yoast SEO puedes crearlo.
Probador de robots.txt
Luego terminar la creación de tu archivo robots.txt y guardarlo correctamente en el directorio raíz de tu página, el último paso es la comprobación de que todo funcione bien y que los robots accedan sin problemas a las páginas restantes de la web. La comprobación la puedes hacer a través de la herramienta de Google Search Console. Haz clic en Google Console y accede a “Rastreo” – “Probador de Robots.txt”. Allí te debe aparecer lo que colocaste en el tobot.txt.
En caso de que no veas nada solo tienes que presionar el botón de enviar que aparece en el tercer paso que es el que solicita a Google la actualización del sistema. Tras presionar el botón y solicitar la actualización simplemente debes hacer clic en el botón rojo de “Probar”. Y si ahora todo sí funciona perfectamente, entonces te aparecerá un mensaje de “Permitido”.
Como consejo final sobre el archivo robots txt debes tener en cuenta que esta clase archivos acepta protocolos de comando sencillos, los cuales en realidad son pocos y puedes revisarlos en Estándar de exclusión de robots. Asimismo, no utilices comandos que sean diferentes a los permitidos para evitar posibles problemas. Y si necesitas un experto en programación y archivo robots.txt, en la agencia de marketing digital en Sabadell, MarketBoom tenemos a expertos web y de la programación quienes optimizarán todos los detalles de tu sitio web al 100%.