Prácticas recomendadas para configurar etiquetas de Meta Robots y Robots.txt

Aprender a configurar etiquetas de robots.txt y meta robots es fundamental para el éxito en el SEO técnico.. Esta breve guía le ayudará a implementarlos correctamente.

¿Soy solo yo, o las palabras «etiquetas de meta robots» y «robots.txt» suenan como algo que dijo Schwarzenegger en «Terminator 2»?

Esa es una de las razones por las que comencé a trabajar en SEO: parecía futurista pero abrumadoramente tecnológico para mis habilidades en ese momento.

Con suerte, este artículo hace que la configuración de sus etiquetas de meta robots y archivos robots.txt sea menos nauseabunda.. Empecemos.

Meta Robots Etiquetas vs. Robots.txt

Antes de profundizar en los conceptos básicos de las etiquetas meta robots y los archivos robots.txt, es importante saber que no hay un lado que sea mejor que el otro para usar en SEO.

Los archivos Robots.txt instruyen a los rastreadores sobre todo el sitio.

Mientras que las etiquetas de meta robots entran en el meollo de una página específica.

Prefiero usar etiquetas meta robots para muchas cosas que otros profesionales de SEO pueden usar simplemente por la simplicidad del archivo robots.txt.

No hay respuesta correcta o incorrecta. Es una preferencia personal basada en su experiencia.

¿Qué es Robots.txt?

Un archivo robots.txt les dice a los rastreadores qué se debe rastrear. A robots.txt file

Es parte del protocolo de exclusión de robots (REP).

Googlebot es un ejemplo de rastreador.

Google implementa Googlebot para rastrear sitios web y registrar información en ese sitio para comprender cómo clasificar el sitio en los resultados de búsqueda de Google.

Puede encontrar el archivo robots.txt de cualquier sitio agregando /robots.txt después de la dirección web de esta manera:

www.misitioweb.com/robots.txt

Así es como se ve un archivo robots.txt básico y nuevo:

robots txt file example

El asterisco * después de user-agent les dice a los rastreadores que el archivo robots.txt es para todos los bots que ingresan al sitio.

La barra inclinada / después de «No permitir» le dice al robot que no vaya a ninguna página del sitio.

Este es un ejemplo del archivo robots.txt de Moz. example

moz robots file

Puede ver que le están diciendo a los rastreadores qué páginas rastrear usando agentes de usuario y directivas.. Me sumergiré en eso un poco más tarde.

¿Por qué es importante Robots.txt?

No puedo decir cuántos clientes acuden a mí después de la migración de un sitio web o el lanzamiento de un nuevo sitio web y me preguntan: ¿Por qué mi sitio no está clasificado después de meses de trabajo?

Diría que el 60% de la razón es que el archivo robots.txt no se actualizó correctamente.

Es decir, su archivo robots.txt todavía se ve así:

robots txt file example

Esto bloqueará todos los rastreadores web que visiten su sitio.

Otra razón por la que robots.txt es importante es que Google tiene algo llamado presupuesto de rastreo. crawl budget

Google afirma:

“Googlebot está diseñado para ser un buen ciudadano de la web. El rastreo es su principal prioridad, al tiempo que se asegura de que no degrade la experiencia de los usuarios que visitan el sitio.. A esto lo llamamos el «límite de tasa de rastreo», que limita la tasa máxima de búsqueda para un sitio determinado.

“Googlebot está diseñado para ser un buen ciudadano de la web. El rastreo es su principal prioridad, al tiempo que se asegura de que no degrade la experiencia de los usuarios que visitan el sitio.. A esto lo llamamos el «límite de tasa de rastreo», que limita la tasa máxima de búsqueda para un sitio determinado.

En pocas palabras, esto representa la cantidad de conexiones paralelas simultáneas que Googlebot puede usar para rastrear el sitio, así como el tiempo que tiene que esperar entre las búsquedas».

Por lo tanto, si tiene un sitio grande con páginas de baja calidad que no desea que Google rastree, puede indicarle a Google que las «rechace» en su archivo robots.txt.

Esto liberaría su presupuesto de rastreo para rastrear solo las páginas de alta calidad para las que desea que Google lo clasifique.

No existen reglas estrictas y rápidas para los archivos robots.txt… todavía.

Google anunció una propuesta en julio de 2019 para comenzar a implementar ciertos estándares, pero por ahora, estoy siguiendo las mejores prácticas que he realizado durante los últimos años.

Conceptos básicos de Robots.txt

Cómo usar Robots.txt

El uso de robots.txt es vital para el éxito de SEO.

Pero, no entender cómo funciona puede dejarte rascándote la cabeza en cuanto a por qué no estás en el ranking.

Los motores de búsqueda rastrearán e indexarán su sitio en función de lo que les indique en el archivo robots.txt mediante directivas y expresiones.

A continuación se encuentran las directivas comunes de robots.txt que debe conocer: common robots.txt directives

Agente de usuario: *: esta es la primera línea en su archivo robots.txt para explicar a los rastreadores las reglas de lo que desea que rastreen en su sitio.. El asterisco informa a todas las arañas.

Agente de usuario: Googlebot: solo indica lo que desea que rastree la araña de Google.

Disallow: / — Esto le dice a todos los rastreadores que no rastreen todo su sitio.

No permitir: — Esto les dice a todos los rastreadores que rastreen todo su sitio.

Disallow: /staging/ — Esto le dice a todos los rastreadores que ignoren su sitio de prueba.

Disallow: /ebooks/* .pdf — Esto les dice a los rastreadores que ignoren todos sus formatos PDF, lo que puede causar problemas de contenido duplicado.

Agente de usuario: robot de Google

Disallow: /images/ — Esto le dice solo al rastreador Googlebot que ignore todas las imágenes en su sitio.

* — Esto se ve como un comodín que representa cualquier secuencia de caracteres.

$ — Esto se usa para hacer coincidir el final de la URL.

Para crear un archivo robots.txt, uso Yoast para WordPress. Ya se integra con otras funciones de SEO en mis sitios. Yoast for WordPress

Pero, antes de comenzar a crear su archivo robots.txt, aquí hay algunos conceptos básicos para recordar: create your robots.txt file

semrush robots
webceo robots
  • Siempre use minúsculas para nombrar su archivo robots.txt como lo hace WebCEO.
webceo robots

Qué ocultar con Robots.txt

Los archivos Robots.txt a menudo se usan para excluir directorios, categorías o páginas específicas de las SERP.

Puede excluir utilizando la directiva «disallow».

Aquí hay algunas páginas comunes que escondo usando un archivo robots.txt:

  • Páginas con contenido duplicado (a menudo contenido apto para imprimir)
  • Páginas de paginación
  • Páginas dinámicas de productos y servicios
  • páginas de cuenta
  • Páginas de administración
  • Carrito de compras
  • charlas
  • páginas de agradecimiento

Esto es muy útil para los sitios de comercio electrónico que usan parámetros como lo hace Macy’s.

Best Practices for Setting Up Meta Robots Tags & Robots.txt

Y puedes ver aquí cómo rechacé una página de agradecimiento.

leadfeeder robots

Es importante saber que no todos los rastreadores seguirán su archivo robots.txt.

Los bots maliciosos pueden ignorar por completo su archivo robots.txt, así que asegúrese de no mantener datos confidenciales en páginas bloqueadas.

Errores comunes de Robots.txt

Después de administrar archivos robots.txt durante más de 10 años, estos son algunos de los errores comunes que veo:

Error #1: El nombre del archivo contiene mayúsculas

El único nombre de archivo posible es robots.txt, ni Robots.txt ni ROBOTS.TXT.

Apéguese a las minúsculas, siempre cuando se trata de SEO.

Error #2: No Colocar el Archivo Robots.Txt en el Directorio Principal

Si desea que se encuentre su archivo robots.txt, debe colocarlo en el directorio principal de su sitio.

Equivocado

www.mysite.com/tshirts/robots.txt

Correcto

www.misitio.com/robots.txt

Error n.º 3: agente de usuario con formato incorrecto

Equivocado

No permitir: robot de Google

Correcto

Agente de usuario: robot de Google

No permitir: /

Error n.º 4: mencionar varios catálogos en una línea de «no permitido»

Equivocado

No permitir: /css/ /cgi-bin/ /images/

Correcto

No permitir: /css/

No permitir: /cgi-bin/

No permitir: /imágenes/

Error #5: Línea vacía en ‘User-Agent’

Equivocado

Agente de usuario:

Rechazar:

Correcto

Agente de usuario: *

Rechazar:

Error n.º 6: Sitios web espejo y URL en la Directiva de host

Tenga cuidado al mencionar las directivas de ‘host’, para que los motores de búsqueda lo entiendan correctamente:

Equivocado

Agente de usuario: robot de Google

No permitir: /cgi-bin

Correcto

Agente de usuario: robot de Google

No permitir: /cgi-bin

Anfitrión: www.sitio.com

Si su sitio tiene https, la opción correcta es:

Agente de usuario: robot de Google

No permitir: /cgi-bin

Anfitrión: https://www.site.com

Error #7: Listar todos los archivos dentro del directorio

Equivocado

Agente de usuario: *

No permitir: /pijamas/flannel.html

No permitir: /pijamas/pana.html

No permitir: /pijamas/cashmere.html

Correcto

Agente de usuario: *

No permitir: /pijamas/

No permitir: /camisas/

Error n.º 8: No hay instrucciones de rechazo

Las instrucciones de rechazo son necesarias para que los robots de los motores de búsqueda comprendan su intención.

Equivocado

Agente de usuario: robot de Google

Anfitrión: www.misitio.com

Correcto

Agente de usuario: robot de Google

Rechazar:

Anfitrión: www.misitio.com

Error #9: Bloquear todo tu sitio

Equivocado

Agente de usuario: robot de Google

No permitir: /

Correcto

Agente de usuario: robot de Google

Rechazar:

Error n.º 10: usar diferentes directivas en la sección *

Equivocado

Agente de usuario: *

No permitir: /css/

Anfitrión: www.ejemplo.com

Correcto

Agente de usuario: *

No permitir: /css/

Error #11: Encabezado HTTP incorrecto

Equivocado

Tipo de contenido: texto/html

Correcto

Tipo de contenido: texto/simple

Error #12: Sin mapa del sitio

Coloque siempre sus mapas de sitio en la parte inferior de su archivo robots.txt.

Equivocado

robots no sitemap

Correcto

robots correct sitemap

Error #13: Usar Noindex

Google anunció en 2019 que ya no reconocería la directiva noindex utilizada en los archivos robots.txt.

Por lo tanto, use las etiquetas de meta robots de las que hablo a continuación.

Equivocado

noindex thank you robots

Correcto

robots thank you

Error n.º 14: no permitir una página en el archivo Robots.Txt, pero seguir vinculándola

Si no permite una página en el archivo robots.txt, Google seguirá rastreando la página si tiene enlaces internos que apuntan a ella.

Debe eliminar esos enlaces para que las arañas dejen de rastrear esa página por completo.

Si alguna vez no está seguro, puede verificar qué páginas se indexan en su informe de cobertura de Google Search Console.

Debería ver algo como esto:

Y puede usar la herramienta de prueba robots.txt de Google. use Google’s robots.txt testing tool

Sin embargo, si está utilizando la herramienta de prueba compatible con dispositivos móviles de Google, no sigue sus reglas en el archivo robots.txt.

robots google search console

¿Qué son las etiquetas de Meta Robots?

Las etiquetas de meta robots (también llamadas directivas de meta robots) son fragmentos de código HTML que indican a los rastreadores de motores de búsqueda cómo rastrear e indexar páginas en su sitio web.

Las etiquetas meta robots se agregan a la sección de una página web.

Aquí hay un ejemplo:

Las etiquetas de meta robots se componen de dos partes.

La primera parte de la etiqueta es name=’’’.

Aquí es donde se identifica el agente de usuario. Por ejemplo, «bot de Google».

La segunda parte de la etiqueta es content=’’. Aquí le dices a los bots lo que quieres que hagan.

Tipos de Meta Robots Tags

Las etiquetas de meta robots tienen dos tipos de etiquetas: two types of tags

  • Etiqueta de metarobots.
  • Etiqueta de X-robots.

Tipo 1: Etiqueta Meta Robots

Las etiquetas de meta robots son comúnmente utilizadas por los especialistas en marketing de SEO.

Le permite decirle a los agentes de usuario (piense en Googlebot) que rastreen áreas específicas.

Aquí hay un ejemplo:

Esta etiqueta de meta robots le dice al rastreador de Google, Googlebot, que no indexe la página en los motores de búsqueda y que no siga ningún vínculo de retroceso.

Entonces, esta página no sería parte de las SERP.

Usaría esta etiqueta de meta robots para una página de agradecimiento.

Este es un ejemplo de una página de agradecimiento después de descargar un libro electrónico. example

leadfeeder thank you page

Ahora, si observa el código de back-end, verá que dice noindex y nofollow.

noindex nofollow

Si está utilizando diferentes directivas de etiquetas de meta robots para diferentes agentes de usuario de búsqueda, deberá usar etiquetas separadas para cada bot.

Es crucial que no coloque las etiquetas de meta robots fuera de la sección . Glenn Gabe le muestra por qué en este estudio de caso. this case study

Tipo 2: etiqueta X-robots

La etiqueta x-robots le permite hacer lo mismo que las etiquetas meta robots pero dentro de los encabezados de una respuesta HTTP.

Esencialmente, le brinda más funcionalidad que las etiquetas meta robots.

Sin embargo, necesitará acceso a los archivos .php, .htaccess o del servidor.

Por ejemplo, si desea bloquear una imagen o un video, pero no toda la página, debe usar x-robots-tag en su lugar.

Parámetros de la etiqueta Meta Robots

Hay muchas maneras de usar las directivas de etiquetas de meta robots en el código. Pero, primero, debe comprender qué son estas directivas y qué hacen.

Aquí hay un desglose de las directivas de etiquetas de meta robots:

  • todo: sin limitaciones para la indexación y el contenido. Esta directiva se está utilizando de forma predeterminada.. No tiene impacto en el trabajo de los motores de búsqueda.. Lo he usado como un atajo para index, siga.
  • índice: permite que los motores de búsqueda indexen esta página en sus resultados de búsqueda. Este es un valor predeterminado. No necesita agregar esto a sus páginas.
  • noindex: elimina la página del índice de los motores de búsqueda y de los resultados de búsqueda. Esto significa que los buscadores no encontrarán su sitio ni harán clic.
  • seguir: permite que los motores de búsqueda sigan los vínculos de retroceso internos y externos en esa página.
  • nofollow: no permite seguir los backlinks internos y externos. Esto significa que estos enlaces no pasarán la equidad de enlace.
  • none: lo mismo que las metaetiquetas noindex y nofollow.
  • noarchive: no muestra el enlace «Copia guardada» en las SERP.
  • nosnippet: no mostrar la versión de descripción extendida de esta página en las SERP.
  • notranslate – No ofrecer la traducción de esta página en las SERP.
  • noimageindex: no indexe las imágenes en la página.
  • no disponible_después: [RFC-850 fecha/hora]: no mostrar esta página en las SERP después de la fecha/hora especificada. Utilice el formato RFC 850.
  • max-snippet: establece un número máximo para el recuento de caracteres en la meta descripción.
  • max-video-preview – Establece la cantidad de segundos que se previsualizará un video.
  • max-image-preview – Establece un tamaño máximo para la vista previa de la imagen.

A veces, diferentes motores de búsqueda aceptan diferentes parámetros de metaetiquetas. Aquí hay un desglose:

Cómo usar etiquetas Meta Robots

Si está utilizando un sitio web de WordPress, hay muchas opciones de complementos para que pueda personalizar sus etiquetas de meta robots.

Prefiero usar Yoast. Es un complemento SEO todo en uno para WordPress que ofrece muchas funciones.

Pero también está el complemento Meta Tags Manager y el complemento GA Meta Tags. Meta Tags Manager

Usuarios de Joomla, recomiendo EFSEO y Tag Meta. EFSEO

No importa en qué esté construido su sitio, aquí hay tres consejos para usar etiquetas de meta robots:

  • Mantenlo sensible a mayúsculas y minúsculas. Los motores de búsqueda reconocen atributos, valores y parámetros tanto en mayúsculas como en minúsculas. Te recomiendo que utilices las minúsculas para mejorar la legibilidad del código.. Además, si eres un especialista en SEO, es mejor que te acostumbres a usar minúsculas.
  • Evite varias etiquetas . El uso de múltiples etiquetas meta causará conflictos en el código. Use múltiples valores en su etiqueta , como esta: .
  • No utilice metaetiquetas conflictivas para evitar errores de indexación. Por ejemplo, si tiene varias líneas de código con metaetiquetas como esta y esta , solo se tomará “nofollow”. . Esto se debe a que los robots priorizan los valores restrictivos.

Las etiquetas Robots.txt y Meta Robots funcionan juntas

Uno de los mayores errores que veo cuando trabajo en los sitios web de mis clientes es cuando el archivo robots.txt no coincide con lo que has indicado en las etiquetas meta robots.

Por ejemplo, el archivo robots.txt oculta la indexación de la página, pero las etiquetas meta robots hacen lo contrario.

¿Recuerdas el ejemplo de Leadfeeder que mostré arriba?

Entonces, notará que esta página de agradecimiento no está permitida en el archivo robots.txt y usa las etiquetas meta robots de noindex, nofollow. this thank you page

En mi experiencia, Google ha dado prioridad a lo prohibido por el archivo robots.txt.

Sin embargo, puede eliminar el incumplimiento entre las etiquetas de meta robots y robots.txt indicando claramente a los motores de búsqueda qué páginas deben indexarse ​​y cuáles no.

Pensamientos finales

Si todavía recuerda los días en que compraba una película Blockbuster en un centro comercial, entonces la idea de usar robots.txt o metaetiquetas aún puede parecer abrumadora.

Pero, si ya has visto “Stranger Things”, bienvenido al futuro.

Con suerte, esta guía proporcionó más información sobre los conceptos básicos de robots.txt y metaetiquetas.. Si esperabas que los robots volaran en mochilas propulsoras y viajaran en el tiempo después de leer esta publicación, lo siento.

Créditos de imagen

Imagen destacada: Paulo Bobita

Leer el articulo original en Search Engine Journal.

¡Danos un Voto!

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

¿Tienes una pregunta?

Luis Narciso
Sobre SEO
(Posicionamiento Web)

Frank Fajardo
Sobre Diseño Web, Anuncios, Diseño y Redes Sociales