Contenidos
Google comparte información sobre los factores que determinan si el contenido está indexado
Google publicó recientemente un podcast sobre lo que se conoce como presupuesto de rastreo y qué influye en Google para indexar contenido.
Tanto Gary Illyes como Martin Splitt compartieron sus ideas sobre la indexación de la web, tal como se entiende desde la perspectiva de Google.
Origen del concepto de presupuesto de rastreo
Gary Illyes dijo que el concepto de presupuesto de rastreo fue algo creado fuera de Google por la comunidad de búsqueda.
Explicó que no había nada internamente dentro de Google que se correspondiera con la idea de un presupuesto de rastreo.
Cuando la gente hablaba de presupuesto de rastreo, lo que sucedía dentro de Google involucraba múltiples métricas, no esto llamado presupuesto de rastreo.
Entonces, dentro de Google hablaron sobre lo que podría representar un presupuesto de rastreo y se les ocurrió una forma de hablar de ello.
Él dijo:
“…for the longest time we were saying that we don’t have the concept of crawl budget. And it was true.
We didn’t have something that could mean crawl budget on its own- the same way we don’t have a number for EAT, for example.
And then, because people were talking about it, we tried to come up with something… at least, somehow defined.
And then we worked with two or three or four teams– I don’t remember– where we tried to come up with at least a few internal metrics that could map together into something that people externally define as crawl budget.”
“…durante mucho tiempo dijimos que no teníamos el concepto de presupuesto de rastreo. Y era verdad.
No teníamos algo que pudiera significar un presupuesto de rastreo por sí solo, de la misma manera que no tenemos un número para EAT, por ejemplo.
Y luego, como la gente hablaba de ello, intentamos pensar en algo… al menos, de alguna manera definido.
Y luego trabajamos con dos, tres o cuatro equipos (no lo recuerdo) donde intentamos encontrar al menos algunas métricas internas que pudieran mapearse en algo que la gente define externamente como presupuesto de rastreo”.
Qué significa el presupuesto de rastreo dentro de Google
Según Gary, parte del cálculo del presupuesto de rastreo se basa en consideraciones prácticas, como cuántas URL permite el servidor rastrear al robot de Google sin sobrecargar el servidor.
Gary Illyes y Martin Splitt:
“Gary Illyes: …we defined it as the number of URLs Googlebot can and is willing or is instructed to crawl.”
Martin Splitt: For a given site.
Gary Illyes: For a given site, yes.
And for us, that’s roughly what crawl budget means because if you think about it, we don’t want to harm websites because Googlebot has enough Chrome capacity to bring down sites…”
«Gary Illyes: … lo definimos como la cantidad de URL que el robot de Google puede y está dispuesto o recibe instrucciones de rastrear».
Martin Splitt: Para un sitio determinado.
Gary Illyes: Para un sitio determinado, sí.
Y para nosotros, eso es más o menos lo que significa el presupuesto de rastreo porque si lo piensas bien, no queremos dañar los sitios web porque el robot de Google tiene suficiente capacidad de Chrome para derribar sitios…”
Equilibrando diferentes consideraciones
Otro punto interesante que se planteó fue cómo, en relación con el rastreo, existen diferentes consideraciones involucradas. Hay límites a lo que se puede almacenar, por lo que, según Google, eso significa utilizar los recursos de Google «donde sea necesario».
“Martin Splitt: Apparently, obviously, everyone wants everything to be indexed as quickly as possible, be it the new website that just came online or be it websites that have plenty of pages, and they want to frequently change those, and they’re worried about things not being crawled as quickly.
I usually describe it as a challenge with the balance between not overwhelming the website and also spending our resources where it matters.”
“Martin Splitt: Aparentemente, obviamente, todos quieren que todo se indexe lo más rápido posible, ya sea el nuevo sitio web que acaba de aparecer o sitios web que tienen muchas páginas, y quieren cambiarlas con frecuencia, y están
Normalmente lo describo como un desafío que busca el equilibrio entre no sobrecargar el sitio web y también gastar nuestros recursos en lo que importa”.
John Mueller tuiteó recientemente que Google no indexa todo y mencionó que no todo es útil.
El tuit de Mueller: tweet
«…es importante tener en cuenta que Google simplemente no indexa todas las páginas de la web, incluso si se envían directamente Si no hay ningún error, es posible que se seleccione para indexar con el tiempo, o que Google simplemente se centre en otras páginas de su sitio”.
Siguió con otro tweet: another tweet
“Well, lots of SEOs & sites (perhaps not you/yours!) produce terrible content that’s not worth indexing. Just because it exists doesn’t mean it’s useful to users.”
“Bueno, muchos SEO y sitios (¡quizás no tú ni el tuyo!) producen contenido terrible que no vale la pena indexar. El hecho de que exista no significa que sea útil para los usuarios”.
- Martin Splitt llama al proceso de rastreo una cuestión de «gastar nuestros recursos donde importa».
- John Mueller mencionó si el contenido es «útil para los usuarios».
La utilidad es un ángulo interesante para juzgar el contenido y, en mi opinión, puede ser más útil para diagnosticar el contenido que los consejos estériles para asegurarse de que el contenido «se oriente a la intención del usuario» y que esté «optimizado para las palabras clave».
Por ejemplo, recientemente revisé un sitio de YMYL donde todo el sitio parecía creado a partir de una lista de verificación de tareas pendientes de SEO.
- Crear un perfil de autor
- El perfil del autor debe tener una página de LinkedIn
- La palabra clave optimiza el tráfico.
- Enlace a sitios de «autoridad»
El editor estaba utilizando imágenes generadas por IA para la biografía del autor, que también se utilizó en un perfil falso de LinkedIn.
Muchas de las páginas web del sitio están vinculadas a páginas .gov delgadas que tienen palabras clave en el título pero que no son útiles en absoluto.
Exteriormente, estaban marcando las casillas de una lista de tareas pendientes de SEO, completando actividades de SEO de memoria, como vincular a un sitio .gov, crear un perfil de autor, etc.
Crearon la apariencia exterior de calidad, pero en realidad no la lograron porque en cada paso no consideraron si lo que estaban haciendo era útil.
El presupuesto de rastreo no es algo de qué preocuparse
Gary y Martin empezaron a hablar de que la mayoría de los sitios no necesitan preocuparse por el presupuesto de rastreo.
Gary señaló con el dedo los blogs de la industria de las búsquedas que en el pasado promovían la idea de que el presupuesto de rastreo es algo de qué preocuparse cuando, según él, no es algo de qué preocuparse.
Él dijo:
“I think it’s partly a fear of something happening that they can’t control, that people can’t control, and the other thing is just misinformation.
…And there were some blogs back in the days where people were talking about crawl budget, and it’s so important, and then people were finding that, and they were getting confused about “Do I have to worry about crawl budget or not?”
“Creo que es en parte miedo a que suceda algo que no puedan controlar, que la gente no pueda controlar, y la otra cosa es simplemente desinformación.
…Y había algunos blogs en aquella época en los que la gente hablaba sobre el presupuesto de rastreo, y es muy importante, y luego la gente se daba cuenta de eso y se confundía acerca de “¿Tengo que preocuparme por el presupuesto de rastreo o no?”
Martín Splitt preguntó:
“But let’s say you were an interesting blog… Do you need to worry about crawl budget?”
«Pero digamos que tienes un blog interesante… ¿Necesitas preocuparte por el presupuesto de rastreo?»
Y Gary respondió:
“I think most people don’t have to worry about it, and when I say most, it’s probably over 90% of sites on the internet don’t have to worry about it.”
«Creo que la mayoría de la gente no tiene que preocuparse por eso, y cuando digo mayoría, probablemente más del 90% de los sitios en Internet no tienen que preocuparse por eso».
Unos minutos más tarde, en el podcast, Martin observó:
“But people are worried about it, and I’m not exactly sure where it comes from.
I think it comes from the fact that a few large-scale websites do have articles and blog posts where they talk about crawl budget being a thing.
It is being discussed in SEO training courses. As far as I’ve seen, it’s being discussed at conferences.
But it’s a problem that is rare to be had. Like it’s not a thing that every website suffers, and yet, people are very nervous about it.”
“Pero la gente está preocupada por esto y no estoy exactamente seguro de dónde viene.
Creo que se debe al hecho de que algunos sitios web de gran escala tienen artículos y publicaciones de blog en los que hablan de la existencia del presupuesto de rastreo.
Se está comentando en los cursos de formación SEO Por lo que he visto, se está discutiendo en conferencias.
Pero es un problema que es raro tener. Como si no fuera algo que sufran todos los sitios web y, sin embargo, la gente está muy nerviosa por ello”.
Cómo determina Google qué indexar
Lo que siguió a continuación fue una discusión sobre los factores que hacen que Google indexe contenido.
Es interesante cuando Gary habla de querer indexar contenido que podría buscarse.
Gary Illyes:
“…Because like we said, we don’t have infinite space, so we want to index stuff that we think– well, not we– but our algorithms determine that it might be searched for at some point, and if we don’t have signals, for example, yet, about a certain site or a certain URL or whatever, then how would we know that we need to crawl that for indexing?”
“…Porque, como dijimos, no tenemos espacio infinito, así que queremos indexar cosas que pensamos – bueno, nosotros no – pero nuestros algoritmos determinan que podrían buscarse en algún momento, y si no lo hacemos
La escritora de tecnología de Gary Google Search Central, Lizzi Sassman (@okaylizzi), habló a continuación sobre cómo inferir del resto del sitio si vale la pena o no indexar contenido nuevo. @okaylizzi
“And some things you can infer from– for example, if you launch a new blog on your main site, for example, and you have a new blog subdirectory, for example, then we can sort of infer, based on the whole site, whether we want to crawl a lot from that blog or not.
Lizzi Sassman: But the blog is a new type of content that might be updated more frequently, so how can we tell if that is…? It’s just new. We’re not sure if it’s going to be newsy, like how
frequent it’s still to be determined.Gary Illyes: But we need a starter signal.
Lizzi Sassman: And the starter signal is…
Gary Illyes: Infer from the main site.”
«Y algunas cosas de las que puedes inferir, por ejemplo, si lanzas un nuevo blog en tu sitio principal, por ejemplo, y tienes un nuevo subdirectorio de blog, entonces podemos inferir, en función de todo el sitio,
Lizzi Sassman: Pero el blog es un nuevo tipo de contenido que podría actualizarse con más frecuencia, entonces, ¿cómo podemos saber si eso es…? No estamos seguros de si será noticia, como cómo
Gary Illyes: Pero necesitamos una señal de salida.
Lizzi Sassman: Y la señal de salida es…
Gary Illyes: Infiere del sitio principal”.
Luego, Gary pasó a hablar sobre señales de calidad. Sin embargo, las señales de calidad de las que hablaron fueron si las señales estaban relacionadas con el interés del usuario, por ejemplo, ¿la gente está interesada en este producto?
Él explicó:
“But it’s not just update frequency. It’s also the quality signals that the main site has.
So, for example, if we see that a certain pattern is very popular on the Internet, like a slash product is very popular on the Internet, and people on Reddit are talking about it, other sites are linking to URLs in that pattern, then it’s a signal for us that people like the site in general.”
“Pero no se trata sólo de la frecuencia de actualización También son las señales de calidad que tiene el sitio principal.
Entonces, por ejemplo, si vemos que un determinado patrón es muy popular en Internet, como un producto de barra diagonal que es muy popular en Internet, y la gente en Reddit está hablando de ello, otros sitios están enlazando a URL en ese patrón, entonces
Gary continúa hablando sobre las señales de popularidad e interés, pero en el contexto de la conversación, que es una nueva sección de un sitio que se ha lanzado.
En la discusión llama Directorio a la nueva sección.
Illyes:
“While if you have something that people are not linking to, and then you are trying to launch a new directory, it’s like, well, people don’t like the site, then why would we crawl this new directory that you just launched?
And eventually, if people just start linking to it–“
“Si tienes algo a lo que la gente no está enlazando y luego intentas lanzar un nuevo directorio, es como, bueno, a la gente no le gusta el sitio, entonces ¿por qué rastrearíamos este nuevo directorio que acabas de lanzar?
Y eventualmente, si la gente comienza a vincularlo…
Relacionado: Google explica la selección de índice durante una actualización principal
Presupuesto de rastreo y sitios que se indexan
Para resumir algo de lo que se discutió:
- Google no tiene capacidad infinita y no puede indexar todo lo que hay en la web.
- Como Google no puede indexar todo, es importante ser selectivo indexando sólo el contenido que importa.
- Los temas de contenido que importan tienden a ser discutidos.
- Los sitios que son importantes, que tienden a ser útiles, tienden a ser discutidos y vinculados a
Obviamente, esa no es una lista completa de todo lo que influye en lo que se indexa. Tampoco pretende ser una lista de verificación de SEO.
Es sólo una idea del tipo de cosas que son tan importantes que Gary Illyes y Martin Splitt discutieron sobre ello.
Imagen destacada de Shutterstock/Trismegist san
Citación
Escucha el podcast aquí:
No se pudo incrustar.
Leer el articulo original en Search Engine Journal.