Google responde a una pregunta sobre el presupuesto de rastreo

John Mueller de Google responde una pregunta en el subreddit de SEO sobre el motivo de un problema de presupuesto de rastreo

Alguien en Reddit publicó una pregunta sobre su problema de «presupuesto de rastreo» y preguntó si una gran cantidad de redireccionamientos 301 a respuestas de error 410 estaban causando que el robot de Google agotara su presupuesto de rastreo. John Mueller de Google ofreció una razón para explicar por qué Redditor puede estar experimentando un patrón de rastreo mediocre y aclaró un punto sobre los presupuestos de rastreo en general.

Presupuesto de rastreo

Es una idea comúnmente aceptada que Google tiene un presupuesto de rastreo, una idea que los SEO inventaron para explicar por qué algunos sitios no se rastrean lo suficiente. La idea es que a cada sitio se le asigne un número determinado de rastreos, un límite a la cantidad de rastreo para la que califica un sitio.

Es importante comprender los antecedentes de la idea del presupuesto de rastreo porque ayuda a comprender qué es realmente. Google ha insistido durante mucho tiempo en que no hay nada en Google que pueda llamarse presupuesto de rastreo, aunque la forma en que Google rastrea un sitio puede dar la impresión de que existe un límite de rastreo.

Un importante ingeniero de Google (en ese momento) llamado Matt Cutts aludió a este hecho sobre el presupuesto de rastreo en una entrevista de 2010. 2010 interview

Matt respondió una pregunta sobre el presupuesto de rastreo de Google explicando primero que no existía un presupuesto de rastreo en la forma en que lo conciben los SEO:

“The first thing is that there isn’t really such thing as an indexation cap. A lot of people were thinking that a domain would only get a certain number of pages indexed, and that’s not really the way that it works.

There is also not a hard limit on our crawl.”

“Lo primero es que en realidad no existe un límite de indexación Mucha gente pensaba que un dominio solo tendría un cierto número de páginas indexadas, y en realidad no es así como funciona.

Tampoco existe un límite estricto para nuestro rastreo”.

En 2017, Google publicó una explicación del presupuesto de rastreo que reunía numerosos datos relacionados con el rastreo que, en conjunto, se asemejan a lo que la comunidad SEO llamaba presupuesto de rastreo. Esta nueva explicación es más precisa que la vaga frase general «presupuesto de rastreo» (documento de presupuesto de rastreo de Google resumido aquí por Search Engine Journal). crawl budget explainer

La breve lista de los puntos principales sobre un presupuesto de rastreo es:

  • Una tasa de rastreo es la cantidad de URL que Google puede rastrear según la capacidad del servidor para proporcionar las URL solicitadas.
  • Un servidor compartido, por ejemplo, puede alojar decenas de miles de sitios web, lo que da como resultado cientos de miles, si no millones, de URL. Por lo tanto, Google tiene que rastrear los servidores en función de su capacidad para cumplir con las solicitudes de páginas.
  • Las páginas que son esencialmente duplicados de otras (como la navegación por facetas) y otras páginas de bajo valor pueden desperdiciar recursos del servidor, lo que limita la cantidad de páginas que un servidor puede proporcionarle al robot de Google para que las rastree.
  • Las páginas que son livianas son más fáciles de rastrear.
  • Los patrones de enlaces entrantes e internos pueden ayudar a influir en las páginas que se rastrean.

Ver también: Google lanza un nuevo episodio sobre el rastreo sobre «Cómo funciona la búsqueda»

Pregunta de Reddit sobre la tasa de rastreo

La persona en Reddit quería saber si las páginas percibidas de bajo valor que estaban creando estaban influyendo en el presupuesto de rastreo de Google. En resumen, una solicitud de una URL no segura de una página que ya no existe redirige a la versión segura de la página web faltante que genera una respuesta de error 410 (significa que la página desapareció permanentemente).

Es una pregunta legítima.

Esto es lo que preguntaron:

“I’m trying to make Googlebot forget to crawl some very-old non-HTTPS URLs, that are still being crawled after 6 years. And I placed a 410 response, in the HTTPS side, in such very-old URLs.

So Googlebot is finding a 301 redirect (from HTTP to HTTPS), and then a 410.

http://example.com/old-url.php?id=xxxx -301-> https://example.com/old-url.php?id=xxxx (410 response)

Two questions. Is G**** happy with this 301+410?

I’m suffering ‘crawl budget’ issues, and I do not know if this two responses are exhausting Googlebot

Is the 410 effective? I mean, should I return the 410 directly, without a first 301?”

«Estoy intentando que el robot de Google se olvide de rastrear algunas URL muy antiguas que no son HTTPS y que todavía se siguen rastreando después de 6 años. Y coloqué una respuesta 410, en el lado HTTPS, en URL tan antiguas.

Entonces, el robot de Google encuentra una redirección 301 (de HTTP a HTTPS) y luego una 410.

http://example.com/old-url.php?id=xxxx -301-> https://example.com/old-url.php?id=xxxx (respuesta 410)

Dos preguntas ¿G **** está contento con este 301+410?

Tengo problemas de «presupuesto de rastreo» y no sé si estas dos respuestas están agotando al robot de Google.

¿Es efectivo el 410?

John Mueller de Google respondió:

G*?

301’s are fine, a 301/410 mix is fine.

Crawl budget is really just a problem for massive sites ( https://developers.google.com/search/docs/crawling-indexing/large-site-managing-crawl-budget ). If you’re seeing issues there, and your site isn’t actually massive, then probably Google just doesn’t see much value in crawling more. That’s not a technical issue.”

GRAMO*?

Los 301 están bien, una mezcla de 301/410 está bien.

El presupuesto de rastreo es en realidad solo un problema para sitios masivos (https://developers.google.com/search/docs/crawling-indexing/large-site-managing-crawl-budget) Si ve problemas allí y su sitio no es realmente masivo, entonces probablemente Google simplemente no ve mucho valor en rastrear más. Eso no es un problema técnico”.

Razones para no ser rastreado lo suficiente

Mueller respondió que «probablemente» Google no ve el valor de rastrear más páginas web. Eso significa que las páginas web probablemente podrían necesitar una revisión para identificar por qué Google podría determinar que no vale la pena rastrear esas páginas.

Ciertas tácticas populares de SEO tienden a crear páginas web de bajo valor que carecen de originalidad. Por ejemplo, una práctica popular de SEO es revisar las páginas web mejor clasificadas para comprender qué factores en esas páginas explican por qué se clasifican y luego tomar esa información para mejorar sus propias páginas replicando lo que funciona en los resultados de búsqueda.

Eso suena lógico pero no crea algo de valor. Si lo piensas como una elección binaria Uno y Cero, donde cero es lo que ya está en los resultados de búsqueda y Uno representa algo original y diferente, la popular táctica SEO de emular lo que ya está en los resultados de búsqueda está condenada a crear otro Cero, un

Claramente existen problemas técnicos que pueden afectar la velocidad de rastreo, como el estado del servidor y otros factores.

Pero en términos de lo que se entiende como presupuesto de rastreo, eso es algo que Google ha mantenido durante mucho tiempo como una consideración para sitios masivos y no para sitios web de tamaño pequeño a mediano.

Lea la discusión de Reddit:

¿G**** está contento con 301+410 respuestas para la misma URL? Is G**** happy with 301+410 responses for the same URL?

Imagen destacada de Shutterstock/ViDI Studio

Leer el articulo original en Search Engine Journal.

¡Danos un Voto!

¿Tienes una pregunta?

Luis Narciso
Sobre SEO
(Posicionamiento Web)

Frank Fajardo
Sobre Diseño Web, Anuncios, Diseño y Redes Sociales