6 problemas comunes de Robots.txt y cómo solucionarlos

  • HatumSEO
  • SEO
  • 6 problemas comunes de Robots.txt y cómo solucionarlos

Descubra los problemas más comunes de robots.txt, el impacto que pueden tener en su sitio web y su presencia en las búsquedas, y cómo solucionarlos.

Robots.txt es una herramienta útil y relativamente poderosa para instruir a los rastreadores de motores de búsqueda sobre cómo desea que rastreen su sitio web.

No es todopoderoso (en las propias palabras de Google, «no es un mecanismo para mantener una página web fuera de Google»), pero puede ayudar a evitar que su sitio o servidor se sobrecargue con las solicitudes de los rastreadores. Google’s own words

Si tiene este bloqueo de rastreo en su sitio, debe asegurarse de que se esté utilizando correctamente.

Esto es particularmente importante si utiliza URL dinámicas u otros métodos que generan una cantidad teóricamente infinita de páginas.

En esta guía, veremos algunos de los problemas más comunes con el archivo robots.txt, el impacto que pueden tener en su sitio web y su presencia en las búsquedas, y cómo solucionar estos problemas si cree que han ocurrido.

Pero primero, echemos un vistazo rápido a robots.txt y sus alternativas.

¿Qué es Robots.txt?

Robots.txt utiliza un formato de archivo de texto sin formato y se coloca en el directorio raíz de su sitio web.

Debe estar en el directorio superior de su sitio;

A pesar de su gran poder, robots.txt suele ser un documento relativamente simple y se puede crear un archivo robots.txt básico en cuestión de segundos usando un editor como el Bloc de notas. Notepad

Hay otras formas de lograr algunos de los mismos objetivos para los que se suele utilizar robots.txt.

Las páginas individuales pueden incluir una metaetiqueta de robots dentro del propio código de la página.

También puede usar el encabezado HTTP X-Robots-Tag para influir en cómo (y si) el contenido se muestra en los resultados de búsqueda.

¿Qué puede hacer Robots.txt?

Robots.txt puede lograr una variedad de resultados a través de una gama de diferentes tipos de contenido:

Las páginas web se pueden bloquear para que no se rastreen.

Es posible que sigan apareciendo en los resultados de búsqueda, pero no tendrán una descripción de texto.. Tampoco se rastreará el contenido que no sea HTML en la página.

Los archivos multimedia se pueden bloquear para que no aparezcan en los resultados de búsqueda de Google.

Esto incluye imágenes, videos y archivos de audio.

Si el archivo es público, seguirá ‘existiendo’ en línea y se puede ver y vincular, pero este contenido privado no se mostrará en las búsquedas de Google.

Los archivos de recursos, como scripts externos sin importancia, se pueden bloquear.

Pero esto significa que si Google rastrea una página que requiere que se cargue ese recurso, el robot Googlebot «verá» una versión de la página como si ese recurso no existiera, lo que puede afectar la indexación.

No puede usar robots.txt para bloquear completamente una página web para que no aparezca en los resultados de búsqueda de Google.

Para lograrlo, debe usar un método alternativo, como agregar una metaetiqueta noindex al encabezado de la página.

¿Qué tan peligrosos son los errores de Robots.txt?

Un error en robots.txt puede tener consecuencias no deseadas, pero a menudo no es el fin del mundo.

La buena noticia es que al reparar su archivo robots.txt, puede recuperarse de cualquier error rápidamente y (generalmente) en su totalidad.

La guía de Google para los desarrolladores web dice esto sobre el tema de los errores de robots.txt: Google’s guidance to web developers

“Web crawlers are generally very flexible and typically will not be swayed by minor mistakes in the robots.txt file. In general, the worst that can happen is that incorrect [or] unsupported directives will be ignored.

Bear in mind though that Google can’t read minds when interpreting a robots.txt file; we have to interpret the robots.txt file we fetched. That said, if you are aware of problems in your robots.txt file, they’re usually easy to fix.”

“Los rastreadores web son generalmente muy flexibles y, por lo general, no se dejan influir por errores menores en el archivo robots.txt.. En general, lo peor que puede pasar es que se ignoren las directivas incorrectas [o] no admitidas.

Sin embargo, tenga en cuenta que Google no puede leer la mente al interpretar un archivo robots.txt; . Dicho esto, si está al tanto de los problemas en su archivo robots.txt, generalmente son fáciles de solucionar”.

6 errores comunes de Robots.txt

Si su sitio web se comporta de manera extraña en los resultados de búsqueda, su archivo robots.txt es un buen lugar para buscar errores, errores de sintaxis y reglas de extralimitación.

Echemos un vistazo a cada uno de los errores anteriores con más detalle y veamos cómo asegurarnos de tener un archivo robots.txt válido.

1. Robots.txt no está en el directorio raíz

Los robots de búsqueda solo pueden descubrir el archivo si está en su carpeta raíz.

Es por eso que solo debe haber una barra diagonal entre el .com (o dominio equivalente) de su sitio web y el nombre de archivo ‘robots.txt’, en la URL de su archivo robots.txt.

Si hay una subcarpeta allí, su archivo robots.txt probablemente no sea visible para los robots de búsqueda, y su sitio web probablemente se comporte como si no hubiera ningún archivo robots.txt.

Para solucionar este problema, mueva su archivo robots.txt a su directorio raíz.

Vale la pena señalar que esto necesitará que tenga acceso de root a su servidor.

Algunos sistemas de administración de contenido cargarán archivos en un subdirectorio de «medios» (o algo similar) de forma predeterminada, por lo que es posible que deba eludir esto para colocar su archivo robots.txt en el lugar correcto.

2. Mal uso de comodines

Robots.txt admite dos caracteres comodín:

  • Asterisco * que representa cualquier instancia de un personaje válido, como un comodín en una baraja de cartas.
  • Signo de dólar $ que denota el final de una URL, lo que le permite aplicar reglas solo a la parte final de la URL, como la extensión del tipo de archivo.

Es sensato adoptar un enfoque minimalista para usar comodines, ya que tienen el potencial de aplicar restricciones a una porción mucho más amplia de su sitio web.

También es relativamente fácil terminar bloqueando el acceso del robot desde todo su sitio con un asterisco mal colocado.

Para solucionar un problema de comodín, deberá ubicar el comodín incorrecto y moverlo o eliminarlo para que su archivo robots.txt funcione según lo previsto.

3. Sin índice en Robots.txt

Este es más común en sitios web que tienen más de unos pocos años.

Google dejó de obedecer las reglas de no indexación en los archivos robots.txt a partir del 1 de septiembre de 2019.

Si su archivo robots.txt se creó antes de esa fecha o no contiene instrucciones de indexación, es probable que vea esas páginas indexadas en los resultados de búsqueda de Google.

La solución a este problema es implementar un método alternativo ‘noindex’.

Una opción es la metaetiqueta de robots, que puede agregar al encabezado de cualquier página web que desee evitar que Google indexe.

4. Scripts y hojas de estilo bloqueados

Puede parecer lógico bloquear el acceso del rastreador a JavaScripts externos y hojas de estilo en cascada (CSS).

Sin embargo, recuerda que Googlebot necesita acceso a archivos CSS y JS para «ver» tus páginas HTML y PHP correctamente.

Si sus páginas se comportan de manera extraña en los resultados de Google, o parece que Google no las está viendo correctamente, verifique si está bloqueando el acceso del rastreador a los archivos externos requeridos.

Una solución simple para esto es eliminar la línea de su archivo robots.txt que bloquea el acceso.

O, si tiene algunos archivos que necesita bloquear, inserte una excepción que restaure el acceso a los CSS y JavaScript necesarios.

5. Sin URL de mapa del sitio

Esto es más sobre SEO que cualquier otra cosa.

Puede incluir la URL de su mapa del sitio en su archivo robots.txt.

Debido a que este es el primer lugar que busca Googlebot cuando rastrea su sitio web, esto le da al rastreador una ventaja para conocer la estructura y las páginas principales de su sitio.

Si bien esto no es estrictamente un error, ya que la omisión de un mapa del sitio no debería afectar negativamente la funcionalidad central real y la apariencia de su sitio web en los resultados de búsqueda, aún vale la pena agregar la URL de su mapa del sitio a robots.txt si desea dar a sus esfuerzos de SEO una oportunidad.

6. Acceso a sitios de desarrollo

Bloquear a los rastreadores de su sitio web en vivo es un no-no, pero también lo es permitirles rastrear e indexar sus páginas que aún están en desarrollo.

Es una buena práctica agregar una instrucción de rechazo al archivo robots.txt de un sitio web en construcción para que el público en general no lo vea hasta que esté terminado.

Del mismo modo, es crucial eliminar la instrucción de rechazo cuando inicia un sitio web completo.

Olvidarse de eliminar esta línea de robots.txt es uno de los errores más comunes entre los desarrolladores web y puede impedir que todo su sitio web se rastree e indexe correctamente.

Si su sitio de desarrollo parece estar recibiendo tráfico del mundo real, o si su sitio web lanzado recientemente no tiene un buen desempeño en la búsqueda, busque una regla de rechazo de agente de usuario universal en su archivo robots.txt:

Cómo recuperarse de un error de Robots.txt

Si un error en robots.txt tiene efectos no deseados en la apariencia de búsqueda de su sitio web, el primer paso más importante es corregir robots.txt y verificar que las nuevas reglas tengan el efecto deseado.

Algunas herramientas de rastreo de SEO pueden ayudar con esto para que no tengas que esperar a que los motores de búsqueda rastreen tu sitio.

Cuando esté seguro de que robots.txt se está comportando como desea, puede intentar que su sitio se vuelva a rastrear lo antes posible.

Plataformas como Google Search Console y Bing Webmaster Tools pueden ayudar. Google Search Console

Envíe un mapa del sitio actualizado y solicite que se vuelvan a rastrear las páginas que se hayan eliminado de forma inapropiada.

Desafortunadamente, usted está bajo el capricho de Googlebot: no hay garantía de cuánto tiempo puede tomar para que las páginas faltantes vuelvan a aparecer en el índice de búsqueda de Google.

Todo lo que puede hacer es tomar la acción correcta para minimizar ese tiempo tanto como sea posible y seguir revisando hasta que Googlebot implemente el archivo robots.txt reparado.

Pensamientos finales

Cuando se trata de errores de robots.txt, definitivamente es mejor prevenir que curar.

En un sitio web grande que genera ingresos, un comodín extraviado que elimine todo su sitio web de Google puede tener un impacto inmediato en las ganancias.

Las ediciones de robots.txt deben ser realizadas cuidadosamente por desarrolladores experimentados, verificadas dos veces y, cuando corresponda, sujetas a una segunda opinión.

Si es posible, pruebe en un editor de sandbox antes de publicar en vivo en su servidor del mundo real para asegurarse de evitar la creación inadvertida de problemas de disponibilidad.

Recuerde, cuando sucede lo peor, es importante no entrar en pánico.

Diagnostica el problema, realiza las reparaciones necesarias en robots.txt y vuelve a enviar tu mapa del sitio para un nuevo rastreo.

Es de esperar que su lugar en las clasificaciones de búsqueda se restablezca en cuestión de días.

Más recursos:

Imagen destacada: M-SUR/Shutterstock

Leer el articulo original en Search Engine Journal.

¡Danos un Voto!

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

¿Tienes una pregunta?

Luis Narciso
Sobre SEO
(Posicionamiento Web)

Frank Fajardo
Sobre Diseño Web, Anuncios, Diseño y Redes Sociales