Contenidos
Gary Illyes de Google comparte un método poco convencional pero válido para centralizar las reglas de robots.txt en CDN.
En una publicación reciente de LinkedIn, el analista de Google Gary Illyes cuestionó una creencia de larga data sobre la ubicación de los archivos robots.txt.
Durante años, la opinión generalizada ha sido que el archivo robots.txt de un sitio web debe residir en el dominio raíz (por ejemplo, ejemplo.com/robots.txt).
Sin embargo, Illyes aclaró que esto no es un requisito absoluto y reveló un aspecto menos conocido del Protocolo de exclusión de robots (REP).
Flexibilidad del archivo Robots.txt
No es necesario que el archivo robots.txt esté ubicado en el dominio raíz (ejemplo.com/robots.txt).
Según Illyes, se permite tener dos archivos robots.txt separados alojados en diferentes dominios: uno en el sitio web principal y otro en una red de entrega de contenido (CDN).
Illyes explica que los sitios web pueden centralizar su archivo robots.txt en la CDN mientras controlan el rastreo de su sitio principal.
Por ejemplo, un sitio web podría tener dos archivos robots.txt: uno en https://cdn.example.com/robots.txt y otro en https://www.example.com/robots.txt.
Este enfoque le permite mantener un archivo robots.txt único y completo en su CDN y redirigir las solicitudes desde su dominio principal a este archivo centralizado.
Illyes señala que los rastreadores que cumplen con RFC9309 seguirán la redirección y utilizarán el archivo de destino como archivo de texto de robots para el dominio original.
Mirando hacia atrás a 30 años de robots.txt
Mientras el Protocolo de Exclusión de Robots celebra su 30 aniversario este año, la revelación de Illyes destaca cómo los estándares web continúan evolucionando.
Incluso especula si el archivo debe llamarse “robots.txt”, insinuando posibles cambios en la forma en que se administran las directivas de rastreo.
Cómo esto puede ayudarte
Seguir la guía de Illyes puede ayudarle de las siguientes maneras:
- Administración centralizada: al consolidar las reglas de robots.txt en una ubicación, puede mantener y actualizar las directivas de rastreo en toda su presencia web.
- Consistencia mejorada: una única fuente de verdad para las reglas de robots.txt reduce el riesgo de directivas conflictivas entre su sitio principal y CDN.
- Flexibilidad: este enfoque permite configuraciones más adaptables, especialmente para sitios con arquitecturas complejas o aquellos que utilizan múltiples subdominios y CDN.
Un enfoque simplificado para administrar archivos robots.txt puede mejorar tanto la administración del sitio como los esfuerzos de SEO.
Imagen de portada: BestForBest/Shutterstock
Leer el articulo original en Search Engine Journal.