Contenidos
Aprender a configurar etiquetas de robots.txt y meta robots es fundamental para el éxito en el SEO técnico.. Esta breve guía le ayudará a implementarlos correctamente.
¿Soy solo yo, o las palabras «etiquetas de meta robots» y «robots.txt» suenan como algo que dijo Schwarzenegger en «Terminator 2»?
Esa es una de las razones por las que comencé a trabajar en SEO: parecía futurista pero abrumadoramente tecnológico para mis habilidades en ese momento.
Con suerte, este artículo hace que la configuración de sus etiquetas de meta robots y archivos robots.txt sea menos nauseabunda.. Empecemos.
Meta Robots Etiquetas vs. Robots.txt
Antes de profundizar en los conceptos básicos de las etiquetas meta robots y los archivos robots.txt, es importante saber que no hay un lado que sea mejor que el otro para usar en SEO.
Los archivos Robots.txt instruyen a los rastreadores sobre todo el sitio.
Mientras que las etiquetas de meta robots entran en el meollo de una página específica.
Prefiero usar etiquetas meta robots para muchas cosas que otros profesionales de SEO pueden usar simplemente por la simplicidad del archivo robots.txt.
No hay respuesta correcta o incorrecta. Es una preferencia personal basada en su experiencia.
¿Qué es Robots.txt?
Un archivo robots.txt les dice a los rastreadores qué se debe rastrear. A robots.txt file
Es parte del protocolo de exclusión de robots (REP).
Googlebot es un ejemplo de rastreador.
Google implementa Googlebot para rastrear sitios web y registrar información en ese sitio para comprender cómo clasificar el sitio en los resultados de búsqueda de Google.
Puede encontrar el archivo robots.txt de cualquier sitio agregando /robots.txt después de la dirección web de esta manera:
www.misitioweb.com/robots.txt
Así es como se ve un archivo robots.txt básico y nuevo:
El asterisco * después de user-agent les dice a los rastreadores que el archivo robots.txt es para todos los bots que ingresan al sitio.
La barra inclinada / después de «No permitir» le dice al robot que no vaya a ninguna página del sitio.
Este es un ejemplo del archivo robots.txt de Moz. example
Puede ver que le están diciendo a los rastreadores qué páginas rastrear usando agentes de usuario y directivas.. Me sumergiré en eso un poco más tarde.
¿Por qué es importante Robots.txt?
No puedo decir cuántos clientes acuden a mí después de la migración de un sitio web o el lanzamiento de un nuevo sitio web y me preguntan: ¿Por qué mi sitio no está clasificado después de meses de trabajo?
Diría que el 60% de la razón es que el archivo robots.txt no se actualizó correctamente.
Es decir, su archivo robots.txt todavía se ve así:
Esto bloqueará todos los rastreadores web que visiten su sitio.
Otra razón por la que robots.txt es importante es que Google tiene algo llamado presupuesto de rastreo. crawl budget
Google afirma:
“Googlebot está diseñado para ser un buen ciudadano de la web. El rastreo es su principal prioridad, al tiempo que se asegura de que no degrade la experiencia de los usuarios que visitan el sitio.. A esto lo llamamos el «límite de tasa de rastreo», que limita la tasa máxima de búsqueda para un sitio determinado.
“Googlebot está diseñado para ser un buen ciudadano de la web. El rastreo es su principal prioridad, al tiempo que se asegura de que no degrade la experiencia de los usuarios que visitan el sitio.. A esto lo llamamos el «límite de tasa de rastreo», que limita la tasa máxima de búsqueda para un sitio determinado.
En pocas palabras, esto representa la cantidad de conexiones paralelas simultáneas que Googlebot puede usar para rastrear el sitio, así como el tiempo que tiene que esperar entre las búsquedas».
Por lo tanto, si tiene un sitio grande con páginas de baja calidad que no desea que Google rastree, puede indicarle a Google que las «rechace» en su archivo robots.txt.
Esto liberaría su presupuesto de rastreo para rastrear solo las páginas de alta calidad para las que desea que Google lo clasifique.
No existen reglas estrictas y rápidas para los archivos robots.txt… todavía.
Google anunció una propuesta en julio de 2019 para comenzar a implementar ciertos estándares, pero por ahora, estoy siguiendo las mejores prácticas que he realizado durante los últimos años.
Conceptos básicos de Robots.txt
Cómo usar Robots.txt
El uso de robots.txt es vital para el éxito de SEO.
Pero, no entender cómo funciona puede dejarte rascándote la cabeza en cuanto a por qué no estás en el ranking.
Los motores de búsqueda rastrearán e indexarán su sitio en función de lo que les indique en el archivo robots.txt mediante directivas y expresiones.
A continuación se encuentran las directivas comunes de robots.txt que debe conocer: common robots.txt directives
Agente de usuario: *: esta es la primera línea en su archivo robots.txt para explicar a los rastreadores las reglas de lo que desea que rastreen en su sitio.. El asterisco informa a todas las arañas.
Agente de usuario: Googlebot: solo indica lo que desea que rastree la araña de Google.
Disallow: / — Esto le dice a todos los rastreadores que no rastreen todo su sitio.
No permitir: — Esto les dice a todos los rastreadores que rastreen todo su sitio.
Disallow: /staging/ — Esto le dice a todos los rastreadores que ignoren su sitio de prueba.
Disallow: /ebooks/* .pdf — Esto les dice a los rastreadores que ignoren todos sus formatos PDF, lo que puede causar problemas de contenido duplicado.
Agente de usuario: robot de Google
Disallow: /images/ — Esto le dice solo al rastreador Googlebot que ignore todas las imágenes en su sitio.
* — Esto se ve como un comodín que representa cualquier secuencia de caracteres.
$ — Esto se usa para hacer coincidir el final de la URL.
Para crear un archivo robots.txt, uso Yoast para WordPress. Ya se integra con otras funciones de SEO en mis sitios. Yoast for WordPress
Pero, antes de comenzar a crear su archivo robots.txt, aquí hay algunos conceptos básicos para recordar: create your robots.txt file
- Siempre use minúsculas para nombrar su archivo robots.txt como lo hace WebCEO.
- No use ningún carácter especial excepto * y $. No se reconocen otros caracteres.
- Cree archivos robots.txt separados para diferentes subdominios. Por ejemplo, «hubspot.com» y «blog.hubspot.com» tienen archivos individuales y ambos tienen archivos robots.txt diferentes.
- Use # para dejar comentarios en su archivo robots.txt. Los rastreadores no respetan las líneas con el carácter # como hice aquí con este archivo robots.txt.
- Si una página no está permitida en los archivos robots.txt, la equidad del enlace no pasará.
- Nunca use robots.txt para proteger o bloquear datos confidenciales.
Qué ocultar con Robots.txt
Los archivos Robots.txt a menudo se usan para excluir directorios, categorías o páginas específicas de las SERP.
Puede excluir utilizando la directiva «disallow».
Aquí hay algunas páginas comunes que escondo usando un archivo robots.txt:
- Páginas con contenido duplicado (a menudo contenido apto para imprimir)
- Páginas de paginación
- Páginas dinámicas de productos y servicios
- páginas de cuenta
- Páginas de administración
- Carrito de compras
- charlas
- páginas de agradecimiento
Esto es muy útil para los sitios de comercio electrónico que usan parámetros como lo hace Macy’s.
Y puedes ver aquí cómo rechacé una página de agradecimiento.
Es importante saber que no todos los rastreadores seguirán su archivo robots.txt.
Los bots maliciosos pueden ignorar por completo su archivo robots.txt, así que asegúrese de no mantener datos confidenciales en páginas bloqueadas.
Errores comunes de Robots.txt
Después de administrar archivos robots.txt durante más de 10 años, estos son algunos de los errores comunes que veo:
Error #1: El nombre del archivo contiene mayúsculas
El único nombre de archivo posible es robots.txt, ni Robots.txt ni ROBOTS.TXT.
Apéguese a las minúsculas, siempre cuando se trata de SEO.
Error #2: No Colocar el Archivo Robots.Txt en el Directorio Principal
Si desea que se encuentre su archivo robots.txt, debe colocarlo en el directorio principal de su sitio.
Equivocado
www.mysite.com/tshirts/robots.txt
Correcto
www.misitio.com/robots.txt
Error n.º 3: agente de usuario con formato incorrecto
Equivocado
No permitir: robot de Google
Correcto
Agente de usuario: robot de Google
No permitir: /
Error n.º 4: mencionar varios catálogos en una línea de «no permitido»
Equivocado
No permitir: /css/ /cgi-bin/ /images/
Correcto
No permitir: /css/
No permitir: /cgi-bin/
No permitir: /imágenes/
Error #5: Línea vacía en ‘User-Agent’
Equivocado
Agente de usuario:
Rechazar:
Correcto
Agente de usuario: *
Rechazar:
Error n.º 6: Sitios web espejo y URL en la Directiva de host
Tenga cuidado al mencionar las directivas de ‘host’, para que los motores de búsqueda lo entiendan correctamente:
Equivocado
Agente de usuario: robot de Google
No permitir: /cgi-bin
Correcto
Agente de usuario: robot de Google
No permitir: /cgi-bin
Anfitrión: www.sitio.com
Si su sitio tiene https, la opción correcta es:
Agente de usuario: robot de Google
No permitir: /cgi-bin
Anfitrión: https://www.site.com
Error #7: Listar todos los archivos dentro del directorio
Equivocado
Agente de usuario: *
No permitir: /pijamas/flannel.html
No permitir: /pijamas/pana.html
No permitir: /pijamas/cashmere.html
Correcto
Agente de usuario: *
No permitir: /pijamas/
No permitir: /camisas/
Error n.º 8: No hay instrucciones de rechazo
Las instrucciones de rechazo son necesarias para que los robots de los motores de búsqueda comprendan su intención.
Equivocado
Agente de usuario: robot de Google
Anfitrión: www.misitio.com
Correcto
Agente de usuario: robot de Google
Rechazar:
Anfitrión: www.misitio.com
Error #9: Bloquear todo tu sitio
Equivocado
Agente de usuario: robot de Google
No permitir: /
Correcto
Agente de usuario: robot de Google
Rechazar:
Error n.º 10: usar diferentes directivas en la sección *
Equivocado
Agente de usuario: *
No permitir: /css/
Anfitrión: www.ejemplo.com
Correcto
Agente de usuario: *
No permitir: /css/
Error #11: Encabezado HTTP incorrecto
Equivocado
Tipo de contenido: texto/html
Correcto
Tipo de contenido: texto/simple
Error #12: Sin mapa del sitio
Coloque siempre sus mapas de sitio en la parte inferior de su archivo robots.txt.
Equivocado
Correcto
Error #13: Usar Noindex
Google anunció en 2019 que ya no reconocería la directiva noindex utilizada en los archivos robots.txt.
Por lo tanto, use las etiquetas de meta robots de las que hablo a continuación.
Equivocado
Correcto
Error n.º 14: no permitir una página en el archivo Robots.Txt, pero seguir vinculándola
Si no permite una página en el archivo robots.txt, Google seguirá rastreando la página si tiene enlaces internos que apuntan a ella.
Debe eliminar esos enlaces para que las arañas dejen de rastrear esa página por completo.
Si alguna vez no está seguro, puede verificar qué páginas se indexan en su informe de cobertura de Google Search Console.
Debería ver algo como esto:
Y puede usar la herramienta de prueba robots.txt de Google. use Google’s robots.txt testing tool
Sin embargo, si está utilizando la herramienta de prueba compatible con dispositivos móviles de Google, no sigue sus reglas en el archivo robots.txt.
¿Qué son las etiquetas de Meta Robots?
Las etiquetas de meta robots (también llamadas directivas de meta robots) son fragmentos de código HTML que indican a los rastreadores de motores de búsqueda cómo rastrear e indexar páginas en su sitio web.
Las etiquetas meta robots se agregan a la sección
de una página web.Aquí hay un ejemplo:
Las etiquetas de meta robots se componen de dos partes.
La primera parte de la etiqueta es name=’’’.
Aquí es donde se identifica el agente de usuario. Por ejemplo, «bot de Google».
La segunda parte de la etiqueta es content=’’. Aquí le dices a los bots lo que quieres que hagan.
Tipos de Meta Robots Tags
Las etiquetas de meta robots tienen dos tipos de etiquetas: two types of tags
- Etiqueta de metarobots.
- Etiqueta de X-robots.
Tipo 1: Etiqueta Meta Robots
Las etiquetas de meta robots son comúnmente utilizadas por los especialistas en marketing de SEO.
Le permite decirle a los agentes de usuario (piense en Googlebot) que rastreen áreas específicas.
Aquí hay un ejemplo:
Esta etiqueta de meta robots le dice al rastreador de Google, Googlebot, que no indexe la página en los motores de búsqueda y que no siga ningún vínculo de retroceso.
Entonces, esta página no sería parte de las SERP.
Usaría esta etiqueta de meta robots para una página de agradecimiento.
Este es un ejemplo de una página de agradecimiento después de descargar un libro electrónico. example
Ahora, si observa el código de back-end, verá que dice noindex y nofollow.
Si está utilizando diferentes directivas de etiquetas de meta robots para diferentes agentes de usuario de búsqueda, deberá usar etiquetas separadas para cada bot.
Es crucial que no coloque las etiquetas de meta robots fuera de la sección
. Glenn Gabe le muestra por qué en este estudio de caso. this case studyTipo 2: etiqueta X-robots
La etiqueta x-robots le permite hacer lo mismo que las etiquetas meta robots pero dentro de los encabezados de una respuesta HTTP.
Esencialmente, le brinda más funcionalidad que las etiquetas meta robots.
Sin embargo, necesitará acceso a los archivos .php, .htaccess o del servidor.
Por ejemplo, si desea bloquear una imagen o un video, pero no toda la página, debe usar x-robots-tag en su lugar.
Parámetros de la etiqueta Meta Robots
Hay muchas maneras de usar las directivas de etiquetas de meta robots en el código. Pero, primero, debe comprender qué son estas directivas y qué hacen.
Aquí hay un desglose de las directivas de etiquetas de meta robots:
- todo: sin limitaciones para la indexación y el contenido. Esta directiva se está utilizando de forma predeterminada.. No tiene impacto en el trabajo de los motores de búsqueda.. Lo he usado como un atajo para index, siga.
- índice: permite que los motores de búsqueda indexen esta página en sus resultados de búsqueda. Este es un valor predeterminado. No necesita agregar esto a sus páginas.
- noindex: elimina la página del índice de los motores de búsqueda y de los resultados de búsqueda. Esto significa que los buscadores no encontrarán su sitio ni harán clic.
- seguir: permite que los motores de búsqueda sigan los vínculos de retroceso internos y externos en esa página.
- nofollow: no permite seguir los backlinks internos y externos. Esto significa que estos enlaces no pasarán la equidad de enlace.
- none: lo mismo que las metaetiquetas noindex y nofollow.
- noarchive: no muestra el enlace «Copia guardada» en las SERP.
- nosnippet: no mostrar la versión de descripción extendida de esta página en las SERP.
- notranslate – No ofrecer la traducción de esta página en las SERP.
- noimageindex: no indexe las imágenes en la página.
- no disponible_después: [RFC-850 fecha/hora]: no mostrar esta página en las SERP después de la fecha/hora especificada. Utilice el formato RFC 850.
- max-snippet: establece un número máximo para el recuento de caracteres en la meta descripción.
- max-video-preview – Establece la cantidad de segundos que se previsualizará un video.
- max-image-preview – Establece un tamaño máximo para la vista previa de la imagen.
A veces, diferentes motores de búsqueda aceptan diferentes parámetros de metaetiquetas. Aquí hay un desglose:
Cómo usar etiquetas Meta Robots
Si está utilizando un sitio web de WordPress, hay muchas opciones de complementos para que pueda personalizar sus etiquetas de meta robots.
Prefiero usar Yoast. Es un complemento SEO todo en uno para WordPress que ofrece muchas funciones.
Pero también está el complemento Meta Tags Manager y el complemento GA Meta Tags. Meta Tags Manager
Usuarios de Joomla, recomiendo EFSEO y Tag Meta. EFSEO
No importa en qué esté construido su sitio, aquí hay tres consejos para usar etiquetas de meta robots:
- Mantenlo sensible a mayúsculas y minúsculas. Los motores de búsqueda reconocen atributos, valores y parámetros tanto en mayúsculas como en minúsculas. Te recomiendo que utilices las minúsculas para mejorar la legibilidad del código.. Además, si eres un especialista en SEO, es mejor que te acostumbres a usar minúsculas.
- Evite varias etiquetas . El uso de múltiples etiquetas meta causará conflictos en el código. Use múltiples valores en su etiqueta , como esta: .
- No utilice metaetiquetas conflictivas para evitar errores de indexación. Por ejemplo, si tiene varias líneas de código con metaetiquetas como esta y esta , solo se tomará “nofollow”. . Esto se debe a que los robots priorizan los valores restrictivos.
Las etiquetas Robots.txt y Meta Robots funcionan juntas
Uno de los mayores errores que veo cuando trabajo en los sitios web de mis clientes es cuando el archivo robots.txt no coincide con lo que has indicado en las etiquetas meta robots.
Por ejemplo, el archivo robots.txt oculta la indexación de la página, pero las etiquetas meta robots hacen lo contrario.
¿Recuerdas el ejemplo de Leadfeeder que mostré arriba?
Entonces, notará que esta página de agradecimiento no está permitida en el archivo robots.txt y usa las etiquetas meta robots de noindex, nofollow. this thank you page
En mi experiencia, Google ha dado prioridad a lo prohibido por el archivo robots.txt.
Sin embargo, puede eliminar el incumplimiento entre las etiquetas de meta robots y robots.txt indicando claramente a los motores de búsqueda qué páginas deben indexarse y cuáles no.
Pensamientos finales
Si todavía recuerda los días en que compraba una película Blockbuster en un centro comercial, entonces la idea de usar robots.txt o metaetiquetas aún puede parecer abrumadora.
Pero, si ya has visto “Stranger Things”, bienvenido al futuro.
Con suerte, esta guía proporcionó más información sobre los conceptos básicos de robots.txt y metaetiquetas.. Si esperabas que los robots volaran en mochilas propulsoras y viajaran en el tiempo después de leer esta publicación, lo siento.
Créditos de imagen
Imagen destacada: Paulo Bobita
Leer el articulo original en Search Engine Journal.